Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.
A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.
O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
A Public adquire o app do Treasury da plataforma de investimentos em IA para expandir a negociação de criptomoedas
De acordo com a ChainCatcher, a Public anunciou a aquisição da plataforma de serviços de investimento em IA Treasury App para fortalecer seu negócio de corretagem orientado por IA. O valor da aquisição não foi divulgado. Atualmente, a Public oferece suporte à negociação de ações, títulos e criptomoedas, incluindo Bitcoin, Ethereum, a
GateNews1h atrás
Blitzy conclui rodada de financiamento $200M liderada pela Northzone
De acordo com a ChainCatcher, a Blitzy, uma empresa de programação com IA cofundada pelo ex-arquiteto da Nvidia Sid Pardeshi, concluiu uma rodada de financiamento de US$ 200 milhões liderada pela Northzone. A Battery Ventures, a Jump Capital e a Morgan Creek Digital participaram da rodada. A plataforma pode analisar sistemas complexos com
GateNews2h atrás
UE proíbe pornografia deepfake gerada por IA em 7 de maio
De acordo com a Agência de Notícias Xinhua, em 7 de maio, membros do Parlamento Europeu e estados-membros chegaram a um consenso para banir sistemas de inteligência artificial de gerar conteúdo pornográfico deepfake. A proibição será incorporada a emendas ao Ato de Inteligência Artificial de 2024. Parlamento Europeu
GateNews2h atrás
Tether lança modelo de IA médica MedPsy QVAC e atinge nota 62,62 na versão de 17 bilhões de parâmetros
De acordo com a Odaily, o Tether AI Research Group lançou o QVAC MedPsy, um modelo de IA médica projetado para rodar localmente em smartphones e dispositivos vestíveis, sem depender de nuvem. A versão com 1,7 bilhão de parâmetros obteve 62,62 em sete benchmarks médicos, superando a MedGemma-1.5-4B do Google em 11,42 poi
GateNews2h atrás
A API da B.AI lança quatro novos modelos, incluindo o GPT-5,5 Instant, dentro de 48 horas após a divulgação do OpenAI
A API do B.AI lançou quatro novos modelos: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 e GLM-5.1. O GPT-5.5 Instant concluiu a adaptação subjacente e a integração da interface em 48 horas após o lançamento da OpenAI, permitindo acesso sem atraso a
GateNews2h atrás
O modelo de IA médica da Tether, de US$ 1,7 bilhão, supera hoje um concorrente 16 vezes maior
De acordo com a equipe de pesquisa em IA da Tether, a empresa lançou hoje os modelos de linguagem médica da série QVAC MedPsy, projetados para implantação local em smartphones e dispositivos vestíveis, sem dependência da nuvem. A versão com 1,7 bilhão de parâmetros obteve 62,62 em sete benchmarks médicos, superando o Google MedGemma-4B
GateNews3h atrás