"MOE"的搜索结果
今天
04:05

蚂蚁集团 Ling-2.6-flash 模型开源:1040B 参数、7.4B 有效参数,达成多项 SOTA 基准

Gate 新闻简报,4月29日——蚂蚁集团的 Ling-2.6-flash 模型权重现已开源;此前这些权重仅通过 API 提供。该模型总参数量为 1040 亿,单次推理激活为 74 亿,拥有 256K 上下文窗口,并采用 MIT 许可。提供 BF16、FP8 和 INT4 精度版本,现已在 HuggingFace 与 ModelScope 上提供。 Ling-2.6-flash 相较 Ling 2.0 引入了混合线性注意力改进:将原始的 GQA 升级为 1:7 MLA,并结合 Lightning Linear 的混合架构,同时配合高度稀疏的 MoE。推理效率显著超过同类模型:在 4x H20 GPU 上,峰值生成速度达到 340 tokens/s;在可比的开源模型上,prefill 与 decode 的吞吐量约高出 4 倍。与智能体相关的基准测试显示出强劲表现:BFCL-V4、TAU2-bench、SWE-bench Verified 61.2%、Claw-Eval 以及 PinchBench 达到或接近 SOTA 水平。在完整的 Artificial Analysis 基准测试套件中,总 token 消耗仅为 1500 万。在 AIME 2026 上,该模型得分为 73.85%。 蚂蚁集团的官方网站同样列出了 Ling-2.6-1T 万亿参数旗舰版本 以及 Ling-2.6-mini 轻量版本 ;不过截至发布,权重仍未在 HuggingFace 上发布,当前仅提供 flash 系列下载。
展开
16:30

NVIDIA 发布 Nemotron 3 Nano Omni 多模态模型,吞吐量提升 9 倍

Gate News 消息,4 月 28 日——NVIDIA 已发布 Nemotron 3 Nano Omni,这是一款开源的多模态模型,采用 30B-A3B 专家混合(mixture-of-experts)(MoE) 架构,并支持 256K 上下文窗口。该模型在单一框架中统一处理视频、音频、图像和文本输入。 与可比的开源多模态模型相比,Nemotron 3 Nano Omni 实现了 9 倍的吞吐量提升,显著降低推理成本并增强可扩展性。该模型现已在 Hugging Face、OpenRouter 和 NVIDIA NIM 上提供,并已被包括 Aible、Applied Scientific Intelligence 和 H Company 在内的企业采用。
展开
03:21

DeepSeek V4 训练数据翻倍至 33T,导致不稳定性并延迟了发布

Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts MoE 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。
展开
01:51

美团开源LongCat-Next:3B参数统一视觉理解、生成与语音

美团龙猫团队开源的 LongCat-Next 是一款基于 MoE 架构的多模态模型,整合了文本、视觉理解、图像生成、语音等五种能力。其核心设计 DiNA 通过离散 token 实现统一任务处理,视觉方面采用的 dNaViT 使图像生成表现出色。与同类模型比较,LongCat-Next 的各项基准表现领先,显示出其在多模态理解与生成领域的优势。
展开
02:27

美团开源560B参数定理证明模型,72次推理通过率97.1%刷新开源SOTA

美团LongCat团队于3月21日开源了LongCat-Flash-Prover,一个5600亿参数的MoE模型,专注于Lean4形式化定理证明。模型分为自动形式化、草图生成和完整证明生成三项能力,结合推理工具与Lean4编译器实现实时验证。训练采用Hybrid-Experts Iteration Framework和HisPO算法,防止奖励作弊。基准测试表明,该模型在自动形式化和定理证明方面刷新了开源权重模型的记录。
展开