小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署成千上万台 GPU

Gate News 消息,4月24日——小米的大语言模型团队负责人罗福丽在一场深入采访中透露,MiMo-V2-Pro 模型的总参数量达到 1 万亿,并且训练过程中需要成千上万台 GPU。她表示,1T 规模代表要实现接近 Claude Opus 4.6 等级的性能,并为下一阶段 AI 智能体抢占具备竞争力的入场券所达到的最低门槛

从技术层面看,Pro 版本采用极端稀疏注意力机制,在全局注意力与滑动窗口注意力之间的比例为 7:1,从而在长上下文处理时控制推理成本。模型还保留了 MTP (Multi-Token Prediction) 架构,以利用富余的计算能力实现更快的推理。

在管理层面,100 人规模的 MiMo 团队中,直接参与核心迭代的只有 30-40 人。团队在没有正式层级或明确子分组划分的情况下运作,也没有交付截止期限。遇到诸如训练损失突增这类不稳定的数值问题时,团队会优先考虑停止训练以进行排查,即使这意味着停止业务一到两周,并产生数百万美元的计算成本。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

阿斯利康通过 2027 扩展与 Immunai 的 AI 合作

根据 Calcalist 报道,阿斯利康已将其与总部位于纽约的 AI 生物科技公司 Immunai 的合作扩展至 2027 年。根据扩展后的协议,随着这家药企继续将其平台整合到肿瘤药物中,Immunai 有资格在 2026 年和 2027 年获得最高 3750 万美元。

Crypto Frontier7 分钟前

DeepL 在人工智能竞争加剧的情况下裁撤 250 个岗位(占员工总数的 25%)

据彭博社报道,DeepL 于 5 月 7 日裁减 250 个岗位,占其员工总数的 25%。首席执行官 Jarek Kutylowski 将此次举措归因于由 AI 驱动的“巨大的结构性转变”。这家总部位于科隆的翻译软件初创公司成立于 2017 年,最初作为 Google Translate 的竞争对手,如今面临加剧的

GateNews7 分钟前

OpenAI 于周四推出 GPT-5.5-Cyber 模型,面向经过审查的网络安全团队

周四(5 月 8 日),OpenAI 宣布其最新 AI 模型变体 GPT-5.5-Cyber 现已面向经审核的网络安全团队提供有限预览。该专用版本针对与安全相关的任务进行了优化,包括漏洞识别与优先级排序、补丁验证、以及 an

GateNews10 分钟前

英伟达计划投资至多21亿美元的数据中心公司 IREN

据 Bloomberg Terminal 称,英伟达周四宣布,将作为一项合作的一部分,向数据中心开发商 IREN Ltd 投资最高 21 亿美元,以加速人工智能基础设施建设。IREN 已向英伟达授予一份为期五年的权证,允许其购买多达 3000 万股

GateNews3小时前

CZ 表示 YZi Labs 在 2026 年 Consensus Miami 将 70% 分配给区块链,20% 分配给 AI

根据 ChainCatcher,在 2026 年 Consensus Miami 上,赵长鹏(CZ)表示,YZi Labs 将 70% 的资金投向区块链,20% 投向 AI,10% 投向生物技术。CZ 补充称,BNB 应被定位为 AI 代理的本币,并且所有区块链都需要“具备 AI 就绪能力”以支持

GateNews9小时前

Public 收购 AI 投资平台 Treasury App 以扩展加密交易

据 ChainCatcher,Public 公布收购 AI 投资服务平台 Treasury App,以加强其由 AI 驱动的经纪业务。收购金额未披露。Public 目前支持交易股票、债券和加密货币,包括 Bitcoin、Ethereum、a

GateNews10小时前
评论
0/400
暂无评论