Message d’actualité de Gate, 24 avril — DeepSeek a publié la série V4 de modèles open-source sous la licence MIT, avec des poids désormais disponibles sur Hugging Face et ModelScope. La série comprend deux modèles (MoE) de type mixture-of-experts : V4-Pro avec 1,6 billion de paramètres au total et 49 milliards activés par jeton, et V4-Flash avec 284 milliards de paramètres au total et 13 milliards activés par jeton. Les deux prennent en charge une fenêtre de contexte d’1 million de jetons.
L’architecture présente trois mises à niveau clés : un mécanisme d’attention hybride combinant l’attention clairsemée compressée (CSA) et l’attention fortement compressée (HCA) qui réduit considérablement la surcharge pour les longs contextes — pour V4-Pro, les FLOPs d’inférence pour un contexte de 1M ne sont que 27 % de ceux de V3.2, et le cache KV (VRAM destiné au stockage d’informations historiques pendant l’inférence) n’est que 10 % de celui de V3.2 ; des hyperconnexions à contraintes de manifold (mHC) remplaçant les connexions résiduelles traditionnelles afin d’améliorer la stabilité de la propagation du signal entre les couches ; et l’optimiseur Muon pour une convergence d’entraînement plus rapide. Le préentraînement a utilisé plus de 32 trillions de jetons de données.
Le post-entraînement emploie une approche en deux étapes : d’abord entraîner des experts spécifiques au domaine via un fine-tuning supervisé (SFT) et l’apprentissage par renforcement GRPO, puis les fusionner en un seul modèle grâce à une distillation en ligne. V4-Pro-Max (plus haut mode d’inférence) affirme être le modèle open-source le plus puissant, avec des benchmarks de codage de premier plan et des écarts nettement réduits par rapport aux modèles de pointe propriétaires sur les tâches de raisonnement et d’agents. V4-Flash-Max atteint des performances de raisonnement de niveau Pro avec un budget de calcul suffisant, mais est limité par l’échelle des paramètres sur les tâches de connaissance pure et les tâches d’agents complexes. Les poids sont stockés dans une précision mixte FP4+FP8.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Le public acquiert l’application Treasury d’une plateforme d’investissement en IA pour développer le trading crypto
D’après ChainCatcher, Public a annoncé l’acquisition de la plateforme de services d’investissement en IA Treasury App afin de renforcer son activité de courtage axée sur l’IA. Le montant de l’acquisition n’a pas été divulgué. Public prend actuellement en charge le trading d’actions, d’obligations et de cryptomonnaies, notamment Bitcoin, Ethereum, un
GateNewsIl y a 1h
Blitzy finalise le tour de financement $200M mené par Northzone
D'après ChainCatcher, Blitzy, une société de codage par IA cofondée par l’ancien architecte de Nvidia Sid Pardeshi, a achevé un tour de financement de 200 millions de dollars mené par Northzone. Battery Ventures, Jump Capital et Morgan Creek Digital ont participé à ce tour. La plateforme peut analyser des systèmes complexes avec
GateNewsIl y a 1h
L’UE interdit la pornographie deepfake générée par IA le 7 mai
Selon l'agence de presse Xinhua, le 7 mai, des membres du Parlement européen et des États membres sont parvenus à un accord pour interdire aux systèmes d'intelligence artificielle de générer du contenu pornographique deepfake. L'interdiction sera intégrée aux amendements de la loi de 2024 sur l'intelligence artificielle. Parlement européen
GateNewsIl y a 2h
Tether publie le modèle d’IA médicale MedPsy QVAC, atteignant un score de 62,62 sur la version de 17 milliards de paramètres
D'après Odaily, le groupe de recherche en IA de Tether a publié QVAC MedPsy, un modèle d'IA médicale conçu pour fonctionner localement sur des smartphones et des appareils portables sans dépendance au cloud. La version de 1,7 milliard de paramètres a obtenu 62,62 sur sept références médicales, surpassant MedGemma-1.5-4B de Google de 11,42 poi
GateNewsIl y a 2h
Lancement de l’API B.AI avec quatre nouveaux modèles, dont GPT-5.5 Instant, dans les 48 heures suivant la sortie de OpenAI
L’API de B.AI a lancé quatre nouveaux modèles : GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 et GLM-5.1. GPT-5.5 Instant a terminé l’adaptation sous-jacente et l’intégration de l’interface dans les 48 heures suivant la sortie d’OpenAI, permettant un accès sans délai à
GateNewsIl y a 2h
Le modèle d’IA médicale de Tether, d’une valeur de 1,7 milliard, surpasse aujourd’hui un concurrent 16 fois plus grand
D’après l’équipe de recherche IA de Tether, la société a lancé aujourd’hui la série de modèles de langage médical QVAC MedPsy, conçue pour un déploiement local sur des smartphones et des objets connectés, sans dépendance au cloud. La version de 1,7 milliard de paramètres a obtenu 62,62 sur sept benchmarks médicaux, dépassant Google MedGemma-4B
GateNewsIl y a 2h