Gemini 3.1 Flash-Lite lançamento oficial: o preço de entrada é apenas um quarto do Claude 4.5 Haiku, o GPQA supera quase 14 pontos percentuais

De acordo com o monitoramento Beating, o Google Gemini 3.1 Flash-Lite passou de uma pré-visualização em março para a versão oficial (GA), sendo o modelo mais barato e mais rápido da série Gemini 3, pronto para entrar em ambientes de produção de alta concorrência. O modelo vem equipado com controle de intensidade de raciocínio em quatro níveis (minimal, low, medium, high), permitindo aos usuários ajustar entre velocidade e qualidade conforme o cenário.

O preço mantém-se ao nível da pré-visualização: 0,25 dólares por milhão de tokens de entrada, 1,50 dólares por milhão de tokens de saída. Em comparação com concorrentes na mesma faixa, o preço de entrada é um quarto do Claude 4.5 Haiku (0,25 vs 1,00 dólares), e o preço de saída é menos de um terço (1,50 vs 5,00 dólares); também é mais barato que a geração anterior 2.5 Flash, com entrada reduzida de 0,30 para 0,25 dólares e saída de 2,50 para 1,50 dólares. A janela de contexto é de 1 milhão de tokens.

Desempenho de nível superior: GPQA Diamond (raciocínio científico de nível de pós-graduação) 86,9%, superando Claude 4.5 Haiku com 73,0% e GPT-5 mini com 82,3%; MMMU-Pro (compreensão e raciocínio multimodal) 76,8%, também liderando na mesma faixa de concorrentes. Velocidade de saída de 363 tokens/s, 45% mais rápido que a 2.5 Flash, com resposta ao primeiro token 2,5 vezes mais rápida. A pontuação Elo na classificação Arena.ai é de 1432.

Várias empresas já utilizam em ambientes de produção. A plataforma de atendimento ao cliente Gladly usa o Flash-Lite para conduzir agentes de IA em canais de texto, processando milhões de interações com clientes semanalmente, com custo cerca de 60% menor que modelos de raciocínio de nível semelhante, latência P95 de aproximadamente 1,8 segundos e taxa de sucesso de 99,6%. A JetBrains usa-o para impulsionar assistentes de IA em IDEs e o agente Junie. A plataforma financeira Ramp o emprega em cenários de alta frequência e sensíveis à latência.

A programação é uma fraqueza relativa do Flash-Lite, com LiveCodeBench atingindo 72,0%, ficando atrás dos 80,4% do GPT-5 mini.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar