谷歌发布并开源Gemma 4系列的多token预测（MTP）草稿模型，采用投机解码，在保留主模型最终权重的前提下实现最高3倍推理提速且不损输出质量。MTP利用闲置算力提前预测多路未来token，并由重型目标模型并行验证；若同意草稿，则一次性接收整段序列并共享激活状态与KV缓存。为E2B/E4B嵌入层引入聚类。MTP已全面开源，支持VLLM、SGLang、Ollama等框架，能在消费级显卡上流畅运行26B MOE与31B稠密模型，并降低移动端实时AI的功耗。

币界网

2026-05-06 00:37:51

摘要生成中

币界网消息，谷歌发布并开源了Gemma 4系列的多token预测（MTP）草稿模型。该模型采用投机解码架构，能够在主模型保留最终验证权的基础上，实现最高3倍的推理提速，且不损耗输出质量。MTP方案利用闲置算力，提前预测多个未来token，再交由重型目标模型并行验证。若目标模型同意草稿，就会一次性接收整段序列。草稿模型共享目标模型的激活状态和KV缓存，针对E2B和E4B模型，团队在嵌入层引入聚类技术。目前，MTP模型已全面开源，支持VLLM、SGLang和Ollama等主流推理框架。这次优化显著降低了应用门槛，使开发者能在普通消费级显卡上流畅运行26B MOE和31B稠密模型，也能在移动设备上以更低功耗支撑实时AI交互。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
37.13万热度
#
比特币站稳8万关口
9428.68万热度
#
加密市场回升
11.12万热度
#
Aave起诉要求解冻7300万美元ETH
184.23万热度
#
Polymarket每日热点
82.56万热度

谷歌开源Gemma 4全系MTP投机解码模型，最高提速3倍

热门话题

Gate广场五月交易分享

比特币站稳8万关口

加密市场回升

Aave起诉要求解冻7300万美元ETH

Polymarket每日热点

置顶