Relatório técnico do Zhipu GLM-5V-Turbo: Design2Code super Claude Opus4.6, escreva código diretamente a partir da captura de tela

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Zhipu AI lançou o relatório técnico do GLM-5V-Turbo. O modelo já está disponível na API Z.ai e OpenRouter desde o início de abril, esta é uma divulgação da metodologia complementar, o modelo não foi open source. O GLM-5V-Turbo é o primeiro modelo multimodal de base de programação da Zhipu, suportando cerca de 200K de contexto, podendo se conectar a frameworks de agentes como Claude Code e OpenClaw. Diferentemente da maioria das abordagens que tratam a visão como um anexo ao modelo de linguagem, este modelo incorpora percepção visual desde a fase de pré-treinamento em todo o processo de raciocínio, planejamento, chamada de ferramentas e execução.

A arquitetura do modelo possui três designs-chave. Primeiro, o novo codificador visual CogViT, treinado com destilação dupla usando SigLIP2 e DINOv3 como professores, e posteriormente alinhado com aprendizado contrastivo usando 8 bilhões de dados bilíngues chinês-inglês com imagens e textos. Segundo, previsão multimodal de múltiplos tokens (MMTP), que substitui a transmissão direta de embeddings visuais por um token especial <|image|> compartilhado e treinável, reduzindo a complexidade de comunicação entre fases do pipeline e tornando o treinamento mais estável. Terceiro, aprendizado reforçado conjunto de mais de 30 tarefas, cobrindo níveis de percepção, raciocínio e execução de agentes.

A melhoria na fase de RL é ampla: localização de imagens 2D +4,8%, compreensão de vídeos +5,6%, localização 3D +7,7%, OCR +4,2%, compreensão de gráficos +7,7%, agente GUI (OSWorld) +4,9%, chamadas de ferramentas de busca multimodal +3,5%. A equipe destacou no artigo que o RL multitarefa difere do SFT, que geralmente sofre de interferência entre domínios, pois as habilidades podem melhorar de forma estável em conjunto, e até mesmo padrões de raciocínio aprendidos em um domínio podem ser transferidos para outros.

Resultados específicos: Design2Code 94,8, superando Claude Opus em 4,6; OSWorld 62,3, AndroidWorld 75,7; busca multimodal MMSearch 72,9, BrowseComp-VL 51,9; programação em texto puro no backend do CC-Bench-V2 (22,8), frontend (68,4) e exploração de repositórios de código (72,2), superando sua base de texto puro, o GLM-5-Turbo. MMSearch-Plus obteve 30,0, quase 8 vezes superior ao GLM-4.6V da geração anterior; a base de busca profunda visual autônoma ImageMining obteve 30,7.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar