Perplexity 公布网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。

强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。

评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Trưởng nhóm Claude Code, Boris: AI agent nâng cao năng suất của con người, viết lại lịch sử phát triển phần mềm

Người phụ trách Claude Code, Boris Cherny, trong cuộc phỏng vấn với CNBC cho biết các công cụ AI agent như Co-Work có thể giao các tác vụ phức tạp cho AI xử lý; kỹ sư chuyển từ người thao tác thành người hướng dẫn, đồng thời có thể kích hoạt nhiều agent để xử lý việc gỡ lỗi, qua đó cải thiện đáng kể năng suất. Doanh nghiệp cần coi AI như lõi để tái cấu trúc quy trình; AI đã chứng minh giá trị trong mọi lĩnh vực. Phát triển phần mềm sẽ chuyển từ việc viết mã sang hợp tác do logic và hội thoại dẫn dắt, rào cản kỹ thuật giảm xuống, và đổi mới, khởi nghiệp sẽ có sự tăng trưởng bùng nổ.

ChainNewsAbmedia3phút trước

Reid Hoffman: NFT có thể quay trở lại khi các tác nhân AI cần niềm tin từ crypto

Reid Hoffman, đối tác của Greylock và đồng sáng lập LinkedIn, cho biết các tác nhân tự động sẽ cần các hệ thống niềm tin dựa trên crypto để giao dịch trên internet mở, gợi ý rằng NFT có thể quay trở lại, theo tuyên bố của ông. Tác nhân AI và hạ tầng niềm tin Nhận xét của Hoffman cho thấy khả năng tiềm tàng

CryptoFrontier1giờ trước

IBM Mở rộng bộ sản phẩm AI doanh nghiệp với các công cụ mới dựa trên tác tử tại Think 2026

Theo IBM, công ty đã công bố mở rộng năng lực AI doanh nghiệp tại hội nghị Think 2026 ở Boston, triển khai các công cụ mới dựa trên tác nhân để giúp các tổ chức tích hợp trí tuệ nhân tạo vào hoạt động hằng ngày. Context Studio, hiện đã phát hành rộng rãi, cho phép doanh nghiệp

GateNews2giờ trước

Anthropic ra mắt Claude Dreams: Agent tự sắp xếp trí nhớ giữa các công việc, loại bỏ trùng lặp và mâu thuẫn

Anthropic tại sự kiện Code with Claude đã công bố Dreams, cho phép Claude Managed Agents tự động sắp xếp ký ức giữa nhiều phiên hội thoại, loại bỏ trùng lặp và mâu thuẫn, đồng thời cập nhật các mục cũ; xuất ra một kho ký ức đã được xử lý để có thể kiểm chứng. Giới hạn đầu vào là 100 session và 4.096 ký tự, chạy bất đồng bộ, hoàn tất trong vài phút đến vài chục phút, hỗ trợ quan sát theo thời gian thực. Bản xem trước nghiên cứu cần đăng ký; hiện chỉ hỗ trợ claude-opus-4-7 và claude-sonnet-4-6, thời điểm ra mắt chính thức vẫn chưa được xác định.

ChainNewsAbmedia6giờ trước

Cloudflare hợp tác với Stripe để phát triển Agent tự đàm phán: AI có thể tự tạo tài khoản, mua tên miền và triển khai ứng dụng

Cloudflare và Stripe ngày 30 tháng 4 cùng ra mắt một giao thức mới, cho phép AI Agent tự động tạo tài khoản Cloudflare, đăng ký gói thanh toán, đăng ký tên miền, lấy API token và trực tiếp triển khai ứng dụng mà không cần con người can thiệp. Theo bài đăng trên blog chính thức của Cloudflare, toàn bộ quy trình từ đầu đến cuối không cần con người vào bảng điều khiển, không phải sao chép-dán token hay nhập thông tin thẻ tín dụng; người dùng chỉ cần cấp quyền trước và chấp nhận điều khoản sử dụng của Cloudflare. Trong tuần này, thông tin đăng tải đã nhận được 548 điểm trên Hacker News, trở thành một trong những tin tức hạ tầng tiêu biểu cho AI Agent tự chủ thực thi nhiệm vụ. Kiến trúc 3 lớp: khám phá dịch vụ, ủy quyền danh tính, thanh toán phi tập trung hóa bằng token Cloudflare-Stripe

ChainNewsAbmedia6giờ trước

Kỹ sư Coinbase: AI Agents có thể làm gián đoạn mô hình quảng cáo trên web

Erik Reppel, một kỹ sư tại Coinbase, cho biết các tác nhân trí tuệ nhân tạo có thể làm suy yếu một cách căn bản mô hình kinh doanh của internet vốn phụ thuộc vào quảng cáo. Theo Reppel, nền kinh tế web phụ thuộc nhiều vào doanh thu quảng cáo do người dùng tạo ra, nhưng các tác nhân AI sẽ vượt qua cơ chế đó

CryptoFrontier6giờ trước
Bình luận
0/400
Không có bình luận