10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
谷歌找到让本地AI提速最多3倍的方法——无需新硬件
###简要介绍
在自己的电脑上运行AI模型很棒——直到不再如此。 承诺是隐私、无订阅费用、数据不离开你的设备。现实中,大多数人看到的却是句子之间光标闪烁五秒。 这个瓶颈有个名字:推理速度。它与模型的智能程度无关,而是硬件问题。标准AI模型一次生成一个词碎片——称为Token——。硬件必须将数十亿参数从内存传输到计算单元,才能生成每一个Token。这是有意为之的缓慢。在消费者硬件上,这令人痛苦。
大多数人采用的解决方案是运行更小、更弱的模型——或称为量化模型的高度压缩版本,牺牲一些质量以换取速度。这两种方案都不理想。你可以运行,但这不是你真正想要的模型。 现在谷歌有了不同的想法。公司刚刚发布了其Gemma 4系列开源模型的多Token预测(MTP)草稿器——一种在不影响模型质量或推理能力的情况下,最高可实现3倍加速的技术。
这种方法叫做投机解码,作为概念已经存在多年。谷歌的研究人员在2022年发表了基础论文。直到现在,这一想法才成为主流,因为它需要合适的架构才能在大规模上实现。
简要介绍其工作原理。不是让强大的大模型单独完成所有任务,而是将其与一个微型“草稿”模型配对。草稿模型快速且廉价——它能在比主模型生成一个Token所需时间更短的时间内同时预测多个Token。然后大模型在一次传递中验证所有这些猜测。如果猜测正确,就以一次前向传递的成本获得完整序列。 谷歌表示,“如果目标模型与草稿一致,它会在一次前向传递中接受整个序列——甚至在此过程中生成额外的Token。” 没有任何牺牲:比如Gemma 4的31B密集版本,仍然验证每个Token,输出质量完全一致。你只是利用了在缓慢部分闲置的计算能力。 谷歌称,草稿模型共享目标模型的KV缓存——一种存储已处理上下文的内存结构——因此它们不会浪费时间重新计算大模型已知的内容。对于为手机和Raspberry Pi设备设计的小型边缘模型,团队甚至构建了一种高效的聚类技术,进一步缩短生成时间。 这并不是AI界唯一尝试实现文本生成并行化的方法。基于扩散的语言模型——如Inception Labs的Mercury——采用了完全不同的方式:不是逐个预测Token,而是从噪声开始,逐步细化整个输出。纸面上速度很快,但扩散式LLMs难以达到传统变换器模型的质量,使它们更像是研究中的好奇对象,而非实用工具。 投机解码不同之处在于,它根本不改变基础模型。它是一种服务优化,而非架构替代。你已经在运行的Gemma 4模型变得更快。 实际效果是显著的。根据谷歌的基准测试,在Nvidia RTX Pro 6000台式GPU上运行的Gemma 4 26B模型启用MTP草稿器后,处理的Token数大约翻倍。在Apple Silicon上,批处理大小为4到8个请求时,速度提升约2.2倍。虽然未达到每种场景的3倍上限,但仍是“几乎可以用”到“真正足够快”的重要差异。
这里的背景很重要。当中国模型DeepSeek在2025年1月震惊市场——一天内抹去了6000亿美元的Nvidia市值——核心教训是:效率提升比纯粹增加算力更有冲击力。更聪明地运行比硬件堆砌更有效。谷歌的MTP草稿器正是朝这个方向迈出的一步,目标直指消费者市场。 整个AI行业目前处于推理、训练和存储的三角形中。每一项突破都能带动整个生态系统的提升或震动。DeepSeek的训练方法(用较低端硬件实现强大模型)就是一个例子,而谷歌的TurboQuant(在不损失质量的前提下缩减AI存储)论文也是如此。这些都曾引发市场动荡,促使公司思考下一步。
谷歌表示,草稿器能“提升响应速度:大幅降低近实时聊天、沉浸式语音应用和智能工作流程的延迟”——这些任务都需要低延迟才能真正有用。 应用场景一目了然:一个本地编码助手,不会卡顿;一个在你忘记提问前就响应的语音界面;一个不让你在步骤间等待三秒的智能工作流程。所有这些,都可以在你已有的硬件上实现。 MTP草稿器现已在Hugging Face、Kaggle和Ollama上提供,采用Apache 2.0许可证。它们可以开箱即用,支持vLLM、MLX、SGLang和Hugging Face Transformers。