Resultados da pesquisa por "GPT"
Hoje
04:29

Altman: Precificação Baseada em Tokens Ficando Obsoleta à medida que o GPT-5.5 Muda o Foco para Conclusão de Tarefas em vez de Contagem de Tokens

Mensagem do Gate News, 29 de abril — O CEO da OpenAI, Sam Altman, disse em uma entrevista com Ben Thompson na Stratechery que a precificação baseada em tokens não é um modelo viável a longo prazo para serviços de IA. Usando o GPT-5.5 como exemplo, Altman observou que, embora o preço por token seja significativamente mais alto do que o do GPT-5.4, o modelo usa muito menos tokens para concluir a mesma tarefa, o que significa que os clientes não se importam com a contagem de tokens — eles só se importam se a tarefa é concluída e qual é o custo total.
Mais
23:49

A série MiMo-V2.5 da Xiaomi vai para o código aberto: 1T de parâmetros com eficiência de token superior vs GPT-5.4

Mensagem do Gate News, 27 de abril — A equipe MiMo da Xiaomi disponibilizou em código aberto a série de modelos de linguagem de grande porte MiMo-V2.5 sob licença MIT, com suporte a implantação comercial, treinamento contínuo e ajuste fino. Ambos os modelos apresentam uma janela de contexto de 1 milhão de tokens. O MiMo-V2.5-Pro é um modelo de especialistas mistos de texto puro MoE
Mais
05:17

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.
Mais
01:46

OpenAI Lança GPT-5.5, Projetado para Tarefas de Agentes e Fluxos de Trabalho Complexos

Mensagem do Gate News, 24 de abril — A OpenAI lançou oficialmente o GPT-5.5, um modelo de IA de próxima geração projetado para lidar com objetivos complexos, integração de ferramentas, auto-verificação e conclusão de tarefas em várias etapas. O modelo se destaca na escrita de código e depuração, pesquisa online, análise de dados, criação de documentos
Mais
04:54

A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

A Perplexity usa SFT seguida de RL com modelos Qwen3.5, aproveitando um conjunto de dados de QA multi-hop e verificações por rubrica para aumentar a precisão e a eficiência da busca, alcançando desempenho FRAMES de nível superior. Resumo: O fluxo de trabalho de pós-treinamento da Perplexity para agentes de busca na web combina fine-tuning supervisionado (SFT) para impor aderência a instruções e consistência de linguagem com aprendizado por reforço online (RL) via o algoritmo GRPO. A etapa de RL usa um conjunto de dados proprietários de QA verificável multi-hop e dados conversacionais baseados em rubricas para evitar deriva do SFT, com agregação filtrada por recompensa e penalidades de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança o melhor desempenho em FRAMES, com 57,3% de acurácia com uma única chamada de ferramenta e 73,9% com quatro chamadas a US$ 0,02 por consulta, superando GPT-5.4 e Claude Sonnet 4.6 nessas métricas. A precificação é baseada em API e exclui caching.
Mais
12:05

Kimi K2.6 lidera o benchmark de programação do OpenRouter e supera Claude e a série GPT

Kimi K2.6 supera o OpenRouter no ranking, superando Claude, GPT e rivais de código aberto, sinalizando avanço doméstico em IA e reduzindo a diferença para líderes globais. Resumo: A Kimi.ai anunciou que seu modelo mais recente, Kimi K2.6, ficou em primeiro lugar no ranking de capacidade de programação do OpenRouter, liderando avaliações de desenvolvedores. Benchmarks indicam que o K2.6 entrega desempenho superior em tarefas de programação em relação a Claude, séries GPT e outros modelos de código aberto, destacando ganhos na geração de código e no tratamento de tarefas de desenvolvimento e sinalizando progresso da IA doméstica rumo a líderes internacionais.
Mais