DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.

La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.

El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Nvidia invertirá hasta 2,1 mil millones de dólares en la empresa de centros de datos IREN

Según Bloomberg Terminal, Nvidia anunció el jueves que invertirá hasta 2,1 mil millones de dólares en el desarrollador de centros de datos IREN Ltd. como parte de una asociación para acelerar la construcción de la infraestructura de inteligencia artificial. IREN le ha concedido a Nvidia una orden de compra (warrant) de cinco años para adquirir hasta 30 millones de sh

GateNewsHace5m

CZ dice que YZi Labs asigna el 70% a blockchain y el 20% a IA en Consensus Miami 2026

Según ChainCatcher, en Consensus Miami 2026, Zhao Changpeng (CZ) afirmó que YZi Labs asigna el 70% de la financiación a blockchain, el 20% a IA y el 10% a biotecnología. CZ añadió que BNB debería posicionarse como una moneda nativa para agentes de IA, y que todas las blockchains deben estar “listas para la IA” para respaldar

GateNewshace5h

Public adquiere la aplicación Treasury de la plataforma de inversión en IA para ampliar el trading de cripto

Según ChainCatcher, Public anunció la adquisición de la plataforma de servicios de inversión en IA Treasury App para fortalecer su negocio de corretaje impulsado por IA. No se divulgó el monto de la adquisición. Public actualmente admite la negociación de acciones, bonos y criptomonedas, incluidos Bitcoin, Ethereum, a

GateNewshace7h

Blitzy completa una ronda de financiación $200M liderada por Northzone

Según ChainCatcher, Blitzy, una empresa de codificación con IA cofundada por el ex arquitecto de Nvidia Sid Pardeshi, ha completado una ronda de financiación de 200 millones de dólares liderada por Northzone. Battery Ventures, Jump Capital y Morgan Creek Digital participaron en la ronda. La plataforma puede analizar sistemas complejos con

GateNewshace8h

La UE prohíbe la pornografía deepfake generada por IA el 7 de mayo

Según la agencia Xinhua, el 7 de mayo, los miembros del Parlamento Europeo y los Estados miembros alcanzaron un consenso para prohibir que los sistemas de inteligencia artificial generen contenido pornográfico deepfake. La prohibición se incorporará en las enmiendas de la Ley de Inteligencia Artificial de 2024. Parlamento Europeo

GateNewshace8h

Tether lanza el modelo de IA médica MedPsy QVAC y logra una puntuación de 62,62 en la versión de 17 mil millones de parámetros

Según Odaily, Tether AI Research Group lanzó QVAC MedPsy, un modelo de IA médica diseñado para ejecutarse localmente en teléfonos inteligentes y dispositivos portátiles sin depender de la nube. La versión de 1,7 mil millones de parámetros obtuvo 62,62 en siete evaluaciones médicas, superando a MedGemma-1.5-4B de Google por 11,42 poi

GateNewshace8h
Comentar
0/400
Sin comentarios