DeepSeek 发布 V4 开源模型系列:1.6T 参数与 MIT 许可

Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家(Mixture-of-Experts)模型:V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿,以及 V4-Flash 总参数 2840 亿、每 token 激活 13 亿。两者都支持 100 万 token 的上下文窗口。

该架构包含三项关键升级:混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro 在 100 万上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于推理过程中存储历史信息的 KV cache (VRAM) 也仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及用于更快训练收敛的 Muon 优化器。预训练使用了超过 32 万亿个 token 的数据。

后训练采用两阶段策略:首先通过监督微调 (SFT) 和基于 GRPO 的强化学习训练领域专属专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称是最强的开源模型,拥有顶级编码基准,并在推理与智能体任务上显著缩小了与闭源前沿模型之间的差距。V4-Flash-Max 在足够的计算预算下达到 Pro 级推理性能,但在纯知识与复杂智能体任务上会受限于参数规模。权重以混合 FP4+FP8 精度存储。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

CZ 表示 YZi Labs 在 Consensus Miami 2026 將 70% 分配給區塊鏈,20% 分配給 AI

根據 ChainCatcher 報導,在 Consensus Miami 2026 上,趙長鵬(CZ)表示 YZi Labs 將 70% 的資金投向區塊鏈、20% 投向 AI、10% 投向生物科技。CZ 進一步補充,BNB 應被定位為 AI 代理的原生貨幣,且所有區塊鏈都需要「AI ready」以支援

GateNews4小時前

Public 收購 AI 投資平台 Treasury App 以擴大加密貨幣交易

根據 ChainCatcher,Public 宣布收購 AI 投資服務平台 Treasury App,以強化其由 AI 驅動的經紀業務。收購金額未予披露。Public 目前支援交易股票、債券與加密貨幣,包括 Bitcoin、Ethereum、a

GateNews5小時前

Blitzy 完成 $200M 融資輪,領投方為 Northzone

根據 ChainCatcher,Blitzy(一家由前 Nvidia 架構師 Sid Pardeshi 共同創立的 AI 編碼公司)已完成一輪由 Northzone 領投的 2 億美元 融資。Battery Ventures、Jump Capital 和 Morgan Creek Digital 參與了該輪融資。該平台可以解析複雜系統,並

GateNews6小時前

歐盟在 5 月 7 日禁止 AI 生成的深偽色情內容

根據新華社,5 月 7 日,歐洲議會議員與成員國達成共識,禁止人工智慧系統生成深度偽造色情內容。該禁令將被納入對 2024 年《人工智慧法案》的修正之中。歐洲議會

GateNews7小時前

Tether 發布 QVAC MedPsy 醫療 AI 模型,並在 17B 參數版本上取得 62.62 分

根據 Odaily,Tether AI Research Group 釋出了 QVAC MedPsy,這是一款醫療 AI 模型,旨在不依賴雲端的情況下可在智慧型手機與穿戴式裝置上本地運行。這款 17 億參數版本在七項醫療基準上取得 62.62 分,表現優於 Google 的 MedGemma-1.5-4B,領先 11.42 poi

GateNews7小時前

B.AI API 推出四款新模型,包括在 OpenAI 發布後 48 小時內推出的 GPT-5.5 Instant

B.AI API 已推出四款新模型:GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7 和 GLM-5.1。GPT-5.5 Instant 在 OpenAI 發布後 48 小時內完成底層適配與介面整合,實現零延遲存取以

GateNews7小時前
留言
0/400
暫無留言