Message de Gate News, 24 avril — La responsable de l’équipe de grands modèles de langage chez Xiaomi, Luo Fuli, a révélé dans une interview approfondie que le modèle MiMo-V2-Pro compte au total 1 trillion de paramètres et nécessitait des milliers de GPUs pour l’entraînement. Elle a noté que l’échelle de 1T représente le seuil minimum pour obtenir des performances se rapprochant du niveau de Claude Opus 4.6 et obtenir un billet d’entrée compétitif pour la phase suivante d’agents IA
D’un point de vue technique, la version Pro utilise un mécanisme d’attention éparse extrême avec un ratio de 7:1 entre l’attention globale et l’attention par fenêtre glissante, afin de maîtriser les coûts d’inférence pour le traitement de longs contextes. Le modèle conserve également l’architecture MTP (Multi-Token Prediction) pour tirer parti de la puissance de calcul disponible afin d’accélérer l’inférence.
Côté gestion, l’équipe MiMo de 100 personnes ne compte que 30 à 40 personnes directement impliquées dans les itérations cœur. L’équipe fonctionne sans hiérarchies formelles ni divisions explicites en sous-groupes, ni de dates limites de livraison. Lorsqu’elle rencontre des problèmes numériques instables tels que des pics de perte d’entraînement, l’équipe donne la priorité à l’arrêt de l’entraînement pour investigation, même si cela implique d’arrêter les opérations pendant une à deux semaines et d’engendrer des coûts de calcul se chiffrant en millions de dollars.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Le rallye boursier en Corée du Sud surpasse les marchés mondiaux avec l’essor de l’IA
Le marché boursier sud-coréen enregistre des gains sans précédent, portés par les valeurs des semi-conducteurs liées à l’intelligence artificielle, l’indice KOSPI étant en hausse de 78% depuis le début de l’année, devançant tous les autres grands marchés dans le monde, d’après des données de Financial Modeling Prep citées dans une analyse d’Axios.
AI
CryptoFrontierIl y a 1m
DeepL réduit de 25 % ses effectifs (environ 250 employés) pour restructurer son activité liée à l’IA
D’après Bloomberg, la société de traduction DeepL a annoncé aujourd’hui, le 7 mai, qu’elle allait licencier environ 25 % de ses effectifs, soit quelque 250 employés, afin de s’adapter à des changements structurels portés par l’intelligence artificielle. Le PDG Jarek Kutylowski a déclaré sur LinkedIn que l’entreprise réduira le management
GateNewsIl y a 32m
NVIDIA lance Nemotron 3 Nano Omni open source, un modèle multimodal
NVIDIA a annoncé Nemotron 3 Nano Omni, un modèle multimodal open source, qui intègre la vision, la parole et le langage au sein d’un seul modèle, comme couche de perception pour les agents IA. Le cœur est constitué d’un MoE 30B-A3B, d’un contexte de 256K et d’un débit de 9x ; il prend en charge des entrées texte, image, audio, vidéo, etc., et génère une sortie sous forme de texte. En synergie avec Nemotron 3 Super/Ultra, il vise des cas d’usage comme l’exploitation de l’ordinateur, l’intelligence documentaire et la compréhension audio-vidéo, tout en publiant les poids et les données d’entraînement, avec un déploiement couvrant le local, NIM et des plateformes tierces.
ChainNewsAbmediaIl y a 58m
Cursor révèle une méthode de formation à l'installation automatique et améliore les performances de Composer 2 de 14 points de pourcentage
D’après la divulgation récente de Cursor, la société a dévoilé une technique d’entraînement appelée autoinstall pour sa série de modèles Composer : utiliser un modèle de génération précédente pour configurer automatiquement des environnements exécutables pour le prochain génération de l’apprentissage par renforcement. Lors de l’entraînement de Composer 2, Cursor
GateNewsIl y a 1h
OpenAI DevDay 2026 aura lieu le 29/09 à San Francisco
OpenAI annonce que DevDay 2026 se tiendra en présentiel le 29/09 à San Francisco, avec un concours de créations utilisant GPT-5.5 et Image Gen. Codex sélectionnera automatiquement 2–3 projets chaque semaine ; les gagnants recevront des billets gratuits ainsi que des vols et des hôtels pour traverser les villes. L’événement se concentrera sur l’écosystème GPT-5.5 et sur l’évaluation de la collaboration homme-machine ; pour participer, il faut avoir au moins 18 ans et ne pas être un membre de la famille directe employé d’OpenAI. Les axes d’observation incluent le nouveau modèle, l’intégration d’agents et les stratégies multi-cloud.
ChainNewsAbmediaIl y a 1h
Nvidia investit dans la jeune pousse suédoise de legaltech en IA, Legora, avec Jude Law comme ambassadeur de marque mondial
Nvidia réalise un investissement d’extension de Série D de 50 millions de dollars dans Legora, portant le financement total de Legora à 600 millions de dollars et sa valorisation à 5,6 milliards de dollars. Atlassian, Adams Street Partners et Insight Partners participent. Legora se concentre sur la legaltech IA, offrant des outils tels que la vérification automatisée, l’analyse de contrats et la recherche juridique. Le ARR dépasse 100 millions de dollars, et le nombre d’employés passe de 40 à 400. Jude Law devient l’ambassadeur mondial de la marque, avec le slogan publicitaire « Law just got more attractive ».
ChainNewsAbmediaIl y a 1h