Xiaomi Reveals MiMo-V2-Pro Training Details: 1T Model Parameters, Thousands of GPUs Deployed

Gate News message, April 24 — Xiaomi’s large language model team lead Luo Fuli disclosed in an in-depth interview that the MiMo-V2-Pro model has 1 trillion parameters in total and required thousands of GPUs for training. She noted that the 1T scale represents the minimum threshold to achieve performance approaching Claude Opus 4.6 level and secure a competitive entry ticket for the next phase of AI agents.

Technically, the Pro version employs an extreme sparse attention mechanism with a 7:1 ratio between global attention and sliding window attention, controlling inference costs for long-context processing. The model also retains the MTP (Multi-Token Prediction) architecture to leverage surplus compute power for faster inference.

On the management side, the 100-person MiMo team has only 30-40 people directly engaged in core iterations. The team operates without formal hierarchies or explicit sub-group divisions and delivery deadlines. When encountering unstable numerical issues such as training loss spikes, the team prioritizes halting training for investigation, even if it means stopping operations for one or two weeks and incurring millions of dollars in compute costs.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

CZ заявив, що YZi Labs виділяє 70% на блокчейн і 20% на ШІ на Consensus Miami 2026

За даними ChainCatcher, на Consensus Miami 2026 Чжао Чанпэн (CZ) заявив, що YZi Labs спрямовує 70% фінансування на блокчейн, 20% на AI і 10% на біотехнології. CZ додав, що BNB має бути позиціонована як нативна валюта для AI-агентів, а всі блокчейни мають бути «AI-ready», щоб підтримувати

GateNews5год тому

Публічна компанія придбала AI-інвестиційну платформу Treasury App, щоб розширити криптовалютну торгівлю

Згідно з ChainCatcher, Public оголосила про придбання платформи AI-інвестиційних сервісів Treasury App, щоб посилити свій брокерський бізнес, керований ШІ. Суму угоди не розкрили. Наразі Public підтримує торгівлю акціями, облігаціями та криптовалютами, зокрема Bitcoin, Ethereum, a

GateNews6год тому

Blitzy завершила раунд фінансування $200M під керівництвом Northzone

За даними ChainCatcher, Blitzy — компанія з розробки коду за допомогою ШІ, співзасновником якої є колишній архітектор Nvidia Сід Пардеші, — завершила раунд фінансування на $200 мільйонів, який очолила Northzone. Battery Ventures, Jump Capital і Morgan Creek Digital також взяли участь у раунді. Платформа може аналізувати складні системи з

GateNews7год тому

ЄС забороняє порнографію з дипфейками, створеними за допомогою ШІ, 7 травня

За повідомленням агентства Xinhua News Agency, 7 травня члени Європейського парламенту та держави-члени досягли консенсусу щодо заборони системам штучного інтелекту створювати порно-контент із використанням deepfake. Заборону буде включено до поправок до Закону ЄС про штучний інтелект 2024 року. Європейський парламент

GateNews7год тому

Tether випускає медичну AI-модель QVAC MedPsy та досягає оцінки 62,62 на версії з 17 млрд параметрів

За даними Odaily, Tether AI Research Group випустила QVAC MedPsy — медичну AI-модель, призначену для локального запуску на смартфонах і носимих пристроях без залежності від хмари. Версія на 1,7 мільярда параметрів набрала 62,62 на семи медичних бенчмарках, випередивши MedGemma-1.5-4B від Google на 11,42 poi

GateNews8год тому

B.AI запускає чотири нові моделі, зокрема GPT-5.5 Instant, протягом 48 годин після релізу OpenAI

B.AI API запустив чотири нові моделі: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 і GLM-5.1. GPT-5.5 Instant завершив базову адаптацію та інтеграцію інтерфейсу протягом 48 годин після релізу OpenAI, забезпечивши доступ без затримок до

GateNews8год тому
Прокоментувати
0/400
Немає коментарів