Google tìm ra cách làm AI cục bộ nhanh gấp 3 lần—Không cần phần cứng mới

###Tóm tắt ngắn gọn

  • Google đã phát hành bản nháp Dự đoán Đa Token (MTP) cho Gemma 4, mang lại tốc độ tăng gấp 3 lần trong quá trình suy luận mà không làm giảm chất lượng đầu ra.
  • Kỹ thuật—gọi là giải mã dự đoán—sử dụng một mô hình “nháp” nhẹ để dự đoán nhiều token cùng lúc, sau đó mô hình chính xác nhận chúng song song, bỏ qua nút thắt của việc xử lý từng token một.
  • Các bản nháp MTP có sẵn trên Hugging Face, Kaggle, và Ollama dưới cùng giấy phép Apache 2.0 như Gemma 4, và hoạt động với các công cụ như vLLM, MLX, và SGLang.

Chạy một mô hình AI trên máy tính của riêng bạn thật tuyệt—cho đến khi không còn nữa. Lời hứa là quyền riêng tư, không phí đăng ký, và không dữ liệu nào rời khỏi máy của bạn. Thực tế, đối với phần lớn mọi người, là xem con trỏ nhấp nháy trong năm giây giữa các câu. Nút thắt đó có tên: tốc độ suy luận. Và nó không liên quan gì đến mức độ thông minh của mô hình. Đó là một vấn đề phần cứng. Các mô hình AI tiêu chuẩn tạo ra văn bản từng mảnh một—gọi là token—một lần. Phần cứng phải chuyển hàng tỷ tham số từ bộ nhớ đến các đơn vị tính toán của nó chỉ để tạo ra mỗi token đơn lẻ. Nó chậm theo thiết kế. Trên phần cứng tiêu dùng, điều đó thật đau đớn.

Giải pháp tạm thời mà hầu hết mọi người chọn là chạy các mô hình nhỏ hơn, yếu hơn—hoặc các phiên bản nén chặt, gọi là mô hình lượng tử, hy sinh một phần chất lượng để tăng tốc. Cả hai giải pháp đều không lý tưởng. Bạn có thứ chạy được, nhưng không phải là mô hình bạn thực sự muốn. Giờ đây Google có một ý tưởng khác. Công ty vừa phát hành các bản nháp Dự đoán Đa Token (MTP) cho dòng mô hình mở Gemma 4—một kỹ thuật có thể mang lại tốc độ tăng gấp 3 lần mà không ảnh hưởng đến chất lượng hoặc khả năng suy luận của mô hình.

Phương pháp này gọi là giải mã dự đoán, và nó đã tồn tại như một khái niệm trong nhiều năm. Các nhà nghiên cứu của Google đã công bố bài báo nền tảng vào năm 2022. Ý tưởng này chưa phổ biến rộng rãi cho đến bây giờ vì nó đòi hỏi kiến trúc phù hợp để hoạt động quy mô lớn.

Dưới đây là phiên bản ngắn gọn về cách hoạt động của nó. Thay vì để mô hình lớn, mạnh mẽ làm tất cả công việc một mình, bạn kết hợp nó với một mô hình “nháp” nhỏ bé. Mô hình nháp nhanh và rẻ—nó dự đoán nhiều token cùng lúc trong ít thời gian hơn so với mô hình chính. Sau đó, mô hình lớn kiểm tra tất cả các dự đoán đó trong một lượt duy nhất. Nếu các dự đoán đúng, bạn có toàn bộ chuỗi với chi phí của một lượt chạy tiến tới. Theo Google, “nếu mô hình mục tiêu đồng ý với bản nháp, nó chấp nhận toàn bộ chuỗi trong một lượt tiến tới—và thậm chí tạo ra một token bổ sung của riêng nó trong quá trình đó.” Không có gì bị hy sinh: Mô hình lớn—ví dụ như phiên bản 31B của Gemma 4—vẫn xác minh từng token, và chất lượng đầu ra vẫn giữ nguyên. Bạn chỉ đang tận dụng sức mạnh tính toán thừa thãi đã bị bỏ phí trong các phần chậm.  Google nói rằng các mô hình nháp chia sẻ bộ đệm KV của mô hình mục tiêu—một cấu trúc bộ nhớ lưu trữ ngữ cảnh đã xử lý—để chúng không lãng phí thời gian tính toán lại những thứ mô hình lớn đã biết. Đối với các mô hình nhỏ hơn dành cho điện thoại và Raspberry Pi, nhóm còn xây dựng một kỹ thuật phân cụm hiệu quả để rút ngắn thời gian sinh ra hơn nữa. Đây không phải là nỗ lực duy nhất của thế giới AI trong việc song song hóa quá trình tạo văn bản. Các mô hình ngôn ngữ dựa trên khuếch tán—như Mercury của Inception Labs—đã thử một cách tiếp cận hoàn toàn khác: Thay vì dự đoán một token một lần, chúng bắt đầu với nhiễu và lặp lại tinh chỉnh toàn bộ đầu ra. Điều này nhanh trên lý thuyết, nhưng các mô hình LLM dựa trên khuếch tán vẫn gặp khó khăn trong việc bắt kịp chất lượng của các mô hình transformer truyền thống, khiến chúng chủ yếu là một nghiên cứu hơn là một công cụ thực tế. Giải mã dự đoán khác biệt vì nó không thay đổi mô hình nền tảng. Đây là một tối ưu hóa dịch vụ, không phải thay thế kiến trúc. Cùng một Gemma 4 mà bạn đã chạy sẽ trở nên nhanh hơn. Lợi ích thực tế là rõ ràng. Một mô hình Gemma 4 26B chạy trên GPU bàn làm việc Nvidia RTX Pro 6000 đạt khoảng gấp đôi số token mỗi giây khi bật bản nháp MTP, theo các thử nghiệm của Google. Trên Apple Silicon, các lô yêu cầu từ 4 đến 8 yêu cầu mở khóa tốc độ tăng khoảng 2,2 lần. Không hoàn toàn đạt mức 3 lần tối đa trong mọi trường hợp, nhưng vẫn là một sự khác biệt đáng kể giữa “hầu như không thể sử dụng” và “thực sự đủ nhanh để làm việc.”

Ngữ cảnh ở đây rất quan trọng. Khi mô hình Trung Quốc DeepSeek gây sốc thị trường vào tháng 1 năm 2025—xóa sạch 600 tỷ đô la khỏi vốn hóa của Nvidia trong một ngày—bài học chính là các cải tiến về hiệu quả có thể tác động mạnh hơn cả sức mạnh tính toán thô. Chạy thông minh hơn tốt hơn là đổ nhiều phần cứng hơn vào vấn đề. Bản nháp MTP của Google là một bước đi khác trong hướng đó, nhưng hướng tới thị trường tiêu dùng. Toàn bộ ngành công nghiệp AI hiện nay là một tam giác xem xét suy luận, huấn luyện và bộ nhớ. Mỗi đột phá trong một lĩnh vực đều có xu hướng thúc đẩy hoặc gây sốc toàn bộ hệ sinh thái. Phương pháp huấn luyện của DeepSeek (đạt được các mô hình mạnh mẽ với phần cứng thấp hơn) là một ví dụ, trong khi bài báo của Google về TurboQuant (giảm kích thước bộ nhớ AI mà không mất chất lượng) là một ví dụ khác. Cả hai đều gây sốc thị trường khi các công ty cố gắng tìm cách thích nghi. Google nói rằng bản nháp mở khóa “tăng khả năng phản hồi: giảm đáng kể độ trễ cho trò chuyện gần như thời gian thực, các ứng dụng thoại nhập vai và quy trình làm việc có tính chất đại diện”—những nhiệm vụ yêu cầu độ trễ thấp để cảm thấy hữu ích. Các trường hợp sử dụng nhanh chóng trở nên rõ ràng: Một trợ lý lập trình cục bộ không bị lag; một giao diện thoại phản hồi trước khi bạn quên mình đã hỏi gì; một quy trình làm việc có tính đại diện không khiến bạn phải chờ ba giây giữa các bước. Tất cả những điều này, trên phần cứng bạn đã sở hữu. Các bản nháp MTP hiện có trên Hugging Face, Kaggle, và Ollama, dưới giấy phép Apache 2.0. Chúng hoạt động ngay với vLLM, MLX, SGLang, và Hugging Face Transformers.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim