Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

封鎖新聞訊息,4 月 23 日 — Perplexity 的研究團隊發布了一篇技術文章,詳述其用於 Web 搜尋代理的後訓練方法。該方法使用兩個開源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 與 Qwen3.5-397B-A17B),並採用兩階段流程:先進行監督式微調 (SFT) 以建立遵循指令與語言一致性,接著透過線上強化學習 (RL) 以最佳化搜尋準確性與工具使用效率。

RL 階段使用 GRPO 演算法,且有兩種資料來源:一個專有的多跳可驗證問答資料集,係由內部種子查詢構建而成,要求推理 2–4 個跳步,並透過多解算器驗證;以及基於規則量表的通用對話資料,將部署需求轉換為可客觀檢查的原子條件,以防止 SFT 行為退化。

獎勵設計採用閘控聚合——只有在達到基準正確性時((question-answer match))或所有規則量表準則均滿足時,偏好分數才會被計入,以避免高偏好訊號掩蓋事實錯誤。效率懲罰則使用同組錨定,對超出同組中正確答案基準的工具呼叫與生成長度套用平滑懲罰。

評估顯示 Qwen3.5-397B-SFT-RL 在各類搜尋基準上達到業界一流的表現。在 FRAMES 上,單次工具呼叫可達 57.3% 準確率,較 GPT-5.4 高出 5.7 個百分點,並較 Claude Sonnet 4.6 高出 4.7 個百分點。在中等預算 (four tool calls) 下,它以每次查詢 $0.02 達到 73.9% 準確率;相比之下,GPT-5.4 為 67.8%(每次查詢 $0.085),Sonnet 4.6 為 62.4%(每次查詢 $0.153)。成本數據基於各供應商的公開 API 定價,且不包含快取最佳化。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Virtuals Protocol 推出 OpenGradient Titan 空投,今部分發 50 萬 OPG

根據 Virtuals Protocol 的官方公告,OpenGradient Titan Launch 空投已於 5 月 7 日正式上線。符合資格的用戶可直接從其 Virtuals 帳戶領取 OPG 代幣。今天將發放總計 500,000 OPG 代幣,以獎勵對 Virtuals 的貢獻者。

GateNews3小時前

NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態

NVIDIA 公布 Nemotron 3 Nano Omni 開源多模態模型,將視覺、語音與語言整合於單一模型,作為 AI 代理的感知層。核心為 30B-A3B MoE、256K context、9x 吞吐,支援文字、影像、音訊、影片等輸入,輸出為文字。與 Nemotron 3 Super/Ultra 協同,適用電腦操作、文件智慧與音畫理解等場景,並公開權重與訓練資料,部署覆蓋本地、NIM 與第三方平台。

鏈新聞abmedia4小時前

NeoSoul 與 AllScale 今日宣布在代理信貸與穩定幣結算方面的策略合作

根據 ChainCatcher,AI Agent Economy 專案 NeoSoul 於今日(5 月 7 日)宣布與 AllScale 建立策略合作夥伴關係,藉此探索用於自主 Agent 協作的信用生成與穩定幣結算機制。該合作夥伴關係將聚焦於自動化 Agent 之間的付款流程——作為

GateNews4小時前

FIS 與 Anthropic 開發用於反洗錢的 AI 代理,並計畫在 2026 年下半年部署至 BMO 以及 Amalgamated Bank

FIS 和 Anthropic 正在開發用於自動化金融犯罪調查的 AI 代理程式,先從反洗錢作業開始。金融犯罪 AI 代理程式將從銀行系統提取資料,並將交易與已知手法進行比對評估,以協助調查人員審閱其相關內容

GateNews6小時前

Prime Intellect Lab 於 5 月 7 日推出一般可用(GA),並在測試版完成 10,000+ 次訓練執行

根據 Prime Intellect,該公司旗下的 Lab 平台於 2026 年 5 月 7 日退出測試版,並轉為一般可用,作為用於自我強化 AI 代理的端到端訓練環境。統一式管線整合了模型改進工作流程,使使用者能夠定義任務、設定並配置

GateNews6小時前

Cloudflare 在 Consensus 2026 上每天觸發 10 億筆 HTTP 402 回應,並與 Visa 與 Experian 推出「Agent Trust Framework」

根據 Foresight News,Cloudflare 首席安全官 Stephanie Cohen 於 2026 年的 Consensus 上宣布,該平台每天觸發約 10 億次 HTTP 402 回應,反映出 AI 代理對付費存取網頁內容的需求。該公司與 Visa 和 Experian 共同推出了 Agent Trust

GateNews9小時前
留言
0/400
暫無留言