MIT 何恺明团队提出语言扩散模型 ELF（Embedded Language Flows），在连续嵌入空间扩散去噪，最后一步再将向量转回离散 token，避免自回归或独立解码器。ELF 以连续空间去噪为主，使用共享权重实现离散化。实验显示 ELF-B 105M 参数、32 步采样在 OpenWebText Gen. PPL 约 24.1，训练 token 仅约 45B，比对方法通常超 500B。这表明，语言的连续扩散路径仍具可行性，问题多出在建模接口与采样设计。

区块律动

2026-05-13 05:20:33

摘要生成中

据动察 Beating 监测，MIT 何恺明团队发布语言扩散模型 ELF（Embedded Language Flows）。它没有沿用 GPT 式的自回归「预测下一个 token」路线，而是把文本生成放进连续 embedding 空间里完成，直到最后一步才转换回离散 token。

扩散模型在图像生成里已经成熟，但放到文本上一直很别扭：图像天然是连续信号，语言却由离散 token 组成。此前不少连续扩散文本模型，要么在生成轨迹中反复引入 token 级监督，要么需要额外独立解码器。ELF 的做法更干净：大部分步骤只在连续向量空间里去噪，最终一步再用共享权重网络完成离散化。

实验结果也有冲击力。在 OpenWebText 无条件生成评测中，105M 参数的 ELF-B 用 32 步采样达到约 24.1 的 Gen. PPL，优于多种离散和连续扩散语言模型基线。更关键的是，ELF-B 只用了约 45B 训练 token，而对比方法通常超过 500B，训练 token 少了约一个数量级。这个结果至少说明，连续扩散路线在语言建模里并没有被「语言离散性」堵死，之前的问题更可能出在建模接口和采样设计上。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
股票交易挑战最高赢17000U
1619.31万热度
#
美军打击伊朗
930.48万热度
#
Gate预测市场升级聪明钱追踪
1435.08万热度
#
机构资金从BTC轮动至HYPE和XRP
1432.89万热度
#
交易CFD送黄金
283.61万热度

何恺明团队ELF：语言扩散模型终于跑通

热门话题

股票交易挑战最高赢17000U

美军打击伊朗

Gate预测市场升级聪明钱追踪

机构资金从BTC轮动至HYPE和XRP

交易CFD送黄金

置顶