News | Gate.com

今天

04:05

蚂蚁集团 Ling-2.6-flash 模型开源：1040B 参数、7.4B 有效参数，达成多项 SOTA 基准

Gate 新闻简报，4月29日——蚂蚁集团的 Ling-2.6-flash 模型权重现已开源；此前这些权重仅通过 API 提供。该模型总参数量为 1040 亿，单次推理激活为 74 亿，拥有 256K 上下文窗口，并采用 MIT 许可。提供 BF16、FP8 和 INT4 精度版本，现已在 HuggingFace 与 ModelScope 上提供。 Ling-2.6-flash 相较 Ling 2.0 引入了混合线性注意力改进：将原始的 GQA 升级为 1:7 MLA，并结合 Lightning Linear 的混合架构，同时配合高度稀疏的 MoE。推理效率显著超过同类模型：在 4x H20 GPU 上，峰值生成速度达到 340 tokens/s；在可比的开源模型上，prefill 与 decode 的吞吐量约高出 4 倍。与智能体相关的基准测试显示出强劲表现：BFCL-V4、TAU2-bench、SWE-bench Verified 61.2%、Claw-Eval 以及 PinchBench 达到或接近 SOTA 水平。在完整的 Artificial Analysis 基准测试套件中，总 token 消耗仅为 1500 万。在 AIME 2026 上，该模型得分为 73.85%。蚂蚁集团的官方网站同样列出了 Ling-2.6-1T 万亿参数旗舰版本以及 Ling-2.6-mini 轻量版本；不过截至发布，权重仍未在 HuggingFace 上发布，当前仅提供 flash 系列下载。

展开

16:30

NVIDIA 发布 Nemotron 3 Nano Omni 多模态模型，吞吐量提升 9 倍

AI 行业动态

Gate News 消息，4 月 28 日——NVIDIA 已发布 Nemotron 3 Nano Omni，这是一款开源的多模态模型，采用 30B-A3B 专家混合（mixture-of-experts）(MoE) 架构，并支持 256K 上下文窗口。该模型在单一框架中统一处理视频、音频、图像和文本输入。与可比的开源多模态模型相比，Nemotron 3 Nano Omni 实现了 9 倍的吞吐量提升，显著降低推理成本并增强可扩展性。该模型现已在 Hugging Face、OpenRouter 和 NVIDIA NIM 上提供，并已被包括 Aible、Applied Scientific Intelligence 和 H Company 在内的企业采用。

展开

03:21

DeepSeek V4 训练数据翻倍至 33T，导致不稳定性并延迟了发布

AI 行业动态

Gate News 消息，4月24日——DeepSeek 的 V4 技术报告显示，V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练，相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”，损失尖峰反复出现，是由于 Mixture-of-Experts MoE 层中的异常；路由机制本身会加剧这些异常，而简单的回滚也无法解决问题。

展开

03:04

DeepSeek发布V4开源模型系列，参数达1.6T并采用MIT许可证

AI 行业动态

Gate News消息，4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型，权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型：V4-Pro 总参数达1.6万亿，且每token激活49亿

展开

08:52

腾讯发布并开源混元 Hy3 预览版：295B 参数

AI 行业动态

快讯，4月23日——腾讯发布并开源了混元 Hy3 预览版，这是一种融合快慢思考的混合专家（MoE）语言模型。该模型总参数量为 2950 亿，其中激活参数为 210 亿，支持最长 256K 的上下文长度

展开

13:41

阿里巴巴的 Qwen Lab 发布采用稀疏 MoE 架构的 Qwen3.6-35B-A3B 开源模型

AI 行业动态

阿里巴巴的 Qwen Lab 已发布 Qwen3.6-35B-A3B，这是一款开源的大语言模型，采用稀疏混合专家（mixture-of-experts）架构，具备 350 亿参数规模以及面向智能体的编程能力，便于与第三方代码助手集成。

展开

01:51

美团开源LongCat-Next：3B参数统一视觉理解、生成与语音

美团龙猫团队开源的 LongCat-Next 是一款基于 MoE 架构的多模态模型，整合了文本、视觉理解、图像生成、语音等五种能力。其核心设计 DiNA 通过离散 token 实现统一任务处理，视觉方面采用的 dNaViT 使图像生成表现出色。与同类模型比较，LongCat-Next 的各项基准表现领先，显示出其在多模态理解与生成领域的优势。

展开

06:36

Cursor发布Composer2技术报告：RL环境完全模拟真实用户场景，底座模型得分提升70%

Cursor 发布了 Composer 2 技术报告，介绍了其 Kimi K2.5 MoE 架构的完整训练方案，包括两阶段训练和自研基准 CursorBench。经过训练，Composer 2 的表现显著提升，并在推理成本上优于其他前沿模型。

展开

06:27

Cursor 发布 Composer 2 技术报告，底座模型得分提升 70%

项目进展

Cursor于3月25日发布Composer 2技术报告，揭示了Kimi K2.5模型的训练方案，采用MoE架构，参数量达到1.04万亿。训练分为两阶段，使用真实场景模拟进行强化学习，最终在CursorBench基准上取得61.3分，提升70%，且推理成本低于其他大模型API。

展开

02:27

美团开源560B参数定理证明模型，72次推理通过率97.1%刷新开源SOTA

美团LongCat团队于3月21日开源了LongCat-Flash-Prover，一个5600亿参数的MoE模型，专注于Lean4形式化定理证明。模型分为自动形式化、草图生成和完整证明生成三项能力，结合推理工具与Lean4编译器实现实时验证。训练采用Hybrid-Experts Iteration Framework和HisPO算法，防止奖励作弊。基准测试表明，该模型在自动形式化和定理证明方面刷新了开源权重模型的记录。

展开