DeepSeek 的 V4 訓練數據翻倍至 33T,引發不穩定性並延遲發布
Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts MoE 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題,loss spi