News | Gate.com

Hoje

05:17

GPT-5.5 Volta ao Topo em Codificação, mas a OpenAI Troca os Benchmarks Depois de Perder para o Opus 4.7

Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como "Spud" e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5. Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos. A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado "Expert-SWE." O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic 77.8%. Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto. O DeepSeek V4 foi avaliado como "acompanhando o ritmo da fronteira, mas não liderando," posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que "Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade," comentando que "Claude venceu o modelo chinês na própria língua. O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por "custo por tarefa" em vez de "custo por token." A precificação do GPT-5.5 é o dobro da do GPT-5.4 input $5, output por um milhão de tokens, mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Mais

04:57

Xiaomi Revela Detalhes do Treinamento do MiMo-V2-Pro: Parâmetros do Modelo 1T, Milhares de GPUs Empregadas

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — A líder da equipe de modelos de linguagem da Xiaomi, Luo Fuli, revelou em uma entrevista aprofundada que o modelo MiMo-V2-Pro tem 1 trilhão de parâmetros no total e exigiu milhares de GPUs para o treinamento. Ela observou que a escala de 1T representa o limite mínimo para alcançar

Mais

04:29

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Notícias do setor de IA

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo

Mais

23:53

A Anthropic Identifica Três Mudanças na Camada de Produto Por Trás da Queda de Qualidade do Claude Code, e Não um Problema de Modelo

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A equipe de engenharia da Anthropic confirmou que a degradação da qualidade do Claude Code relatada pelos usuários no último mês se deveu a três mudanças independentes na camada de produto, e não a problemas de API ou do modelo subjacente. Os três problemas foram corrigidos em 7 de abril, 10 de abril e A

Mais

07:51

AWS Expands Multi-Agent AI Workflows, Supports Claude Opus 4.7 on Bedrock

Agente de IA

Notícias do setor de IA

Gate News message, April 22 — Amazon Web Services announced expansion of its agentic AI initiatives through multi-agent workflows, supporting Anthropic's Claude Opus 4.7 on Amazon Bedrock to help customers move beyond generative AI pilots. The company is expanding partner relationships as customers

Mais

01:11

Moonshot AI Lança Modelo Open-Source Kimi K2.6 com Fluxos de Trabalho Avançados de Agentes

Agente de IA

Notícias do setor de IA

Mensagem de Gate News, 22 de abril — A Moonshot AI lançou seu modelo open-source Kimi K2.6 em 20 de abril, trazendo novos recursos para programação, geração de front-end e orquestração multiagente. O modelo foi projetado para apoiar fluxos de trabalho complexos de empresas por meio de recursos avançados de Agent Programming e Deep

Mais

01:13

Anthropic Lança Claude Opus 4.7 com Salvaguardas de Cibersegurança

Notícias do setor de IA

O Claude Opus 4.7 da Anthropic, anunciado em 17 de abril, aprimora a cibersegurança com salvaguardas contra solicitações de alto risco. Ele melhora o desempenho de codificação e de tratamento de imagens, mas é menos capaz do que o Mythos Preview, que está em lançamento limitado. O feedback deste lançamento vai orientar modelos futuros.

Mais

23:32

A Anthropic vai lançar o Claude Opus 4.7 e uma ferramenta de design de IA já esta semana

Notícias do setor de IA

A Anthropic vai lançar o seu próximo modelo de topo, o Claude Opus 4.7, e uma ferramenta de IA para criar websites e apresentações, potencialmente já esta semana.

Mais

09:51

Musk: O Grok continua a aproximar-se do Claude Opus 4.6, com previsão de chegar perto em maio e ultrapassar em junho

Notícias do setor de IA

Musk afirmou na plataforma X que o modelo Grok da xAI está a aproximar-se do Claude Opus 4.6 da Anthropic, prevendo que em maio estará perto do nível e que em junho poderá ultrapassá-lo. Ele disse que, nesta área da IA, este é um período longo. O Claude Opus 4.6 é o modelo principal de IA da Anthropic e é a versão mais forte da série Claude 4.

Mais