V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.

V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.

Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Nvidia vai investir até 2,1 mil milhões de dólares na empresa de centros de dados IREN

De acordo com o Bloomberg Terminal, a Nvidia anunciou na quinta-feira que vai investir até 2,1 mil milhões de dólares no programador de data centers IREN Ltd. como parte de uma parceria para acelerar a construção da infra-estrutura de inteligência artificial. A IREN concedeu à Nvidia uma warrant de cinco anos para comprar até 30 milhões de sh

GateNews2h atrás

CZ diz que a YZi Labs aloca 70% para a blockchain e 20% para a IA no Consensus Miami 2026

De acordo com a ChainCatcher, na Consensus Miami 2026, Zhao Changpeng (CZ) afirmou que a YZi Labs atribui 70% do financiamento a blockchain, 20% a IA e 10% a biotecnologia. CZ acrescentou que a BNB deve ser posicionada como uma moeda nativa para agentes de IA, e que todas as blockchains precisam de estar “prontas para IA” para suportar

GateNews7h atrás

A Public adquire a plataforma de investimento em IA Treasury App para expandir o trading de cripto

De acordo com a ChainCatcher, a Public anunciou a aquisição da plataforma de serviços de investimento em IA Treasury App para reforçar o seu negócio de corretagem orientado por IA. O montante da aquisição não foi divulgado. Atualmente, a Public apoia a negociação de ações, obrigações e criptomoedas, incluindo Bitcoin, Ethereum, a

GateNews9h atrás

A Blitzy concluiu $200M ronda de financiamento liderada pela Northzone

De acordo com a ChainCatcher, a Blitzy, uma empresa de codificação com IA cofundada pelo antigo arquitecto da Nvidia Sid Pardeshi, concluiu uma ronda de financiamento de 200 milhões de dólares liderada pela Northzone. Battery Ventures, Jump Capital e Morgan Creek Digital participaram na ronda. A plataforma consegue analisar sistemas complexos com

GateNews10h atrás

A UE proíbe pornografia deepfake gerada por IA a 7 de maio

De acordo com a agência noticiosa Xinhua, a 7 de maio, os membros do Parlamento Europeu e os Estados-Membros chegaram a um consenso para proibir os sistemas de inteligência artificial de gerarem conteúdos pornográficos deepfake. A proibição será incorporada em alterações ao Regulamento de Inteligência Artificial de 2024. Parlamento Europeu

GateNews10h atrás

A Tether lança o modelo de IA médica MedPsy QVAC, atingindo uma pontuação de 62,62 na versão com 17 mil milhões de parâmetros

De acordo com a Odaily, o Tether AI Research Group lançou o QVAC MedPsy, um modelo de IA médica concebido para funcionar localmente em smartphones e dispositivos vestíveis, sem dependência de nuvem. A versão com 1,7 mil milhões de parâmetros obteve 62,62 em sete benchmarks médicos, superando o MedGemma-1.5-4B da Google em 11,42 poi

GateNews10h atrás
Comentar
0/400
Nenhum comentário