DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

CZ 表示 YZi Labs 在 2026 年 Consensus Miami 将 70% 分配给区块链,20% 分配给 AI

根据 ChainCatcher,在 2026 年 Consensus Miami 上,赵长鹏(CZ)表示,YZi Labs 将 70% 的资金投向区块链,20% 投向 AI,10% 投向生物技术。CZ 补充称,BNB 应被定位为 AI 代理的本币,并且所有区块链都需要“具备 AI 就绪能力”以支持

GateNews9 分钟前

Public 收购 AI 投资平台 Treasury App 以扩展加密交易

据 ChainCatcher,Public 公布收购 AI 投资服务平台 Treasury App,以加强其由 AI 驱动的经纪业务。收购金额未披露。Public 目前支持交易股票、债券和加密货币,包括 Bitcoin、Ethereum、a

GateNews1小时前

Blitzy 完成由 Northzone 领投的 $200M 融资轮次

据 ChainCatcher,Blitzy,这家由前 Nvidia 架构师 Sid Pardeshi 联合创立的 AI 编程公司,已完成一轮 2 亿美元的融资,领投方为 Northzone。Battery Ventures、Jump Capital 和 Morgan Creek Digital 参与了本轮融资。该平台可以解析复杂系统并

GateNews2小时前

欧盟于 5 月 7 日禁止 AI 生成的换脸色情内容

据新华社报道,5 月 7 日,欧盟议会成员及成员国达成共识,禁止人工智能系统生成深度伪造色情内容。该禁令将纳入对 2024 年《人工智能法案》的修订中。欧洲议会

GateNews2小时前

Tether 发布 QVAC MedPsy 医疗 AI 模型,在 17B 参数版本上取得 62.62 分

据 Odaily,Tether AI Research Group 发布了 QVAC MedPsy,一种面向医疗的 AI 模型,旨在无需云端依赖、可在智能手机和可穿戴设备上本地运行。该 17 亿参数版本在七项医学基准测试中得分 62.62,较 Google 的 MedGemma-1.5-4B 高出 11.42 poi

GateNews3小时前

B.AI API 推出四款新模型,包括 GPT-5.5 Instant,并在 OpenAI 发布后 48 小时内推出

B.AI API 已推出四款新模型:GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7 和 GLM-5.1。GPT-5.5 Instant 已在 OpenAI 发布后的 48 小时内完成底层适配和接口集成,实现对

GateNews3小时前
评论
0/400
暂无评论