Theo giám sát của Dongcha Beating, nhóm nghiên cứu Perplexity đã công bố một bài báo kỹ thuật chi tiết về quá trình hậu huấn luyện cho tác nhân tìm kiếm web của mình. Quá trình này dựa trên các mô hình mã nguồn mở Qwen3.5-122B-A10B và Qwen3.5-397B-A17B, sử dụng phương pháp hai giai đoạn: đầu tiên, fine-tuning có giám sát (SFT) được sử dụng để thiết lập các hành vi cần thiết cho triển khai, chẳng hạn như tuân thủ hướng dẫn và nhất quán ngôn ngữ; sau đó, học tăng cường chính sách trực tuyến (RL) tối ưu hóa độ chính xác tìm kiếm và hiệu quả sử dụng công cụ. Giai đoạn RL sử dụng thuật toán GRPO, với dữ liệu huấn luyện gồm hai phần: đầu tiên, bộ dữ liệu câu hỏi và trả lời xác minh đa bước do tự phát triển, xây dựng các câu hỏi yêu cầu suy luận từ 2 đến 4 bước dựa trên các truy vấn hạt giống nội bộ và xác minh tính duy nhất của câu trả lời bằng nhiều bộ giải pháp độc lập; thứ hai, dữ liệu hội thoại chung dựa trên tiêu chí chấm điểm (rubric), chuyển đổi các yêu cầu triển khai như tuân thủ hướng dẫn và giới hạn định dạng thành các điều kiện nguyên tử có thể kiểm tra khách quan để ngăn chặn sự suy giảm hành vi đã thiết lập trong SFT trong giai đoạn RL. Trọng tâm của thiết kế phần thưởng là tổng hợp có kiểm soát: điểm ưu tiên chỉ được xem xét trong tính toán khi cơ sở là đúng (tức là câu hỏi và câu trả lời đúng hoặc tất cả các tiêu chí chấm điểm đều đạt), ngăn chặn tín hiệu ưu tiên cao che khuất lỗi thực tế. Các khoản phạt về hiệu quả được áp dụng bằng phương pháp neo nhóm nội bộ, trong đó các câu trả lời đúng trong cùng một nhóm làm cơ sở để áp đặt các khoản phạt mượt mà đối với số lần gọi công cụ quá mức và độ dài của câu tạo ra. Đánh giá cho thấy rằng Qwen3.5-397B-SFT-RL hậu huấn luyện hoạt động tối ưu trên nhiều benchmark tìm kiếm. Trên FRAMES, một lần gọi công cụ đạt 57,3%, vượt GPT-5.4 thêm 5,7 điểm phần trăm và Sonnet 4,6 thêm 4,7 điểm phần trăm. Trong ngân sách trung bình (4 lần gọi công cụ), nó đạt 73,9%, với chi phí 2,0 cent mỗi truy vấn; trong cùng điều kiện, GPT-5.4 đạt 67,8% với 8,5 cent, và Sonnet 4,6 đạt 62,4% với 15,3 cent. Dữ liệu chi phí được tính dựa trên giá API công khai của từng nhà cung cấp, không bao gồm tối ưu hóa bộ nhớ đệm.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
395.45K Phổ biến
#
#FedHoldsRateButDividesDeepen
17.67K Phổ biến
#
IsraelStrikesIranBTCPlunges
36.45K Phổ biến
#
#DailyPolymarketHotspot
720.52K Phổ biến
#
BitcoinSpotVolumeNewLow
162.66M Phổ biến

Ghim

sơ đồ trang web

Perplexity tiết lộ phương pháp sau đào tạo cho Trình Tìm Kiếm, Mô Hình Qwen3.5 vượt qua GPT-5.4 về độ chính xác và chi phí

Chủ đề thịnh hành

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Ghim