封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。
强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Cardano 创始人:AI 代理将于 2035 年超越人类互联网活动,并扰乱以广告驱动的模式
据 CoinDesk 报道,Cardano 创始人 Charles Hoskinson 在 5 月 7 日的 Consensus 大会上预测,AI 代理将在 2035 年前在互联网搜索、商务和交易方面超过人类活动。Hoskinson 表示,由于 AI 代理不会点击广告,也不会表现出品牌偏好,因此他说这将 w
GateNews1小时前
Claude Code 负责人 Boris:AI 代理提升人類生产力,改寫软體开发歷史
Claude Code 负责人 Boris Cherny 在 CNBC 访谈指出,AI 代理工具如 Co-Work 能将繁琐任务交给 AI 处理,工程师从操作者转为引导者,能够同时启动多个代理处理除错,显著提升产能。企业须把 AI 当作核心重组流程,AI 在各行各业都展现价值,软件开发将由编写转向以逻辑与对话指引的协作,技术门槛降低,创新创业将出现爆发性增长。
鏈新聞abmedia1小时前
里德·霍夫曼:随着 AI 代理需要加密信任,NFT 可能会卷土重来
Reid Hoffman,Greylock 合伙人以及 LinkedIn 联合创始人表示,自主代理将需要基于加密货币的信任系统,才能在开放互联网中进行交易;据他在声明中所说,NFT 可能会卷土重来。
AI 代理与信任基础设施
Hoffman 的言论指向一个潜在的
Crypto Frontier3小时前
IBM 在 Think 2026 上通过新的基于智能体的工具扩展企业 AI 套件
根据 IBM,该公司在波士顿举行的 Think 2026 会议上宣布扩展其企业 AI 能力,推出新的基于智能体的工具,帮助组织将人工智能嵌入日常运营。Context Studio 现已普遍可用,使企业能够
GateNews4小时前
Anthropic 推出 Claude Dreams:Agent 在任务之间自动整理记忆,消除重复与矛盾
Anthropic 在 Code with Claude 大会公布 Dreams,让 Claude Managed Agents 在多场会話间自动整理記憶、消除重複与矛盾、更新陳舊條目,输出可審核的整理后記憶庫;输入上限为 100 个 session 与 4,096 字元,非同步執行,數分鐘至數十分鐘完成,支援串流觀察。研究预覽需申请,暫只支援 claude-opus-4-7 与 claude-sonnet-4-6,正式上市未定。
鏈新聞abmedia7小时前
Cloudflare 携手 Stripe 推出 Agent 自主协议:AI 可自行创建账户、购买域名、部署应用
Cloudflare 与 Stripe 4 月 30 日共同推出新协议,让 AI Agent 可在无人工介入下自行建立 Cloudflare 账户、订阅付费方案、注册域名、获取 API token,并直接部署应用程序。Cloudflare 官方博客说明,整套流程从头到尾不需要人类进入后台、复制粘贴 token、或输入信用卡资料;用户只需先给予许可,并接受 Cloudflare 的使用条款。本周此公告在 Hacker News 取得 548 分,成为 AI Agent 自主执行任务的标志性基础建设新闻之一。
三层协议架构:服务发现、身份授权、付款代币化
Cloudflare-Stripe
鏈新聞abmedia8小时前