Perplexity 公开 Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

拦截新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其用于 Web 搜索代理的后训练方法。该方案使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,再进行在线强化学习 (RL) 以优化搜索准确性和工具使用效率。

强化学习阶段采用 GRPO 算法,包含两个数据来源:一个专有的多跳可验证问答数据集,该数据集由内部种子查询构建,要求进行 2–4 步推理,并通过多求解器进行验证;以及基于评分准则的通用对话数据,将部署需求转换为客观可检验的原子条件,以防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或所有评分准则均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最优表现。在 FRAMES 上,它在单次工具调用下达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (四次工具调用) 下,其准确率达到 73.9%,成本为每次查询 $0.02;相比之下,GPT-5.4 的准确率为 67.8%,每次查询 $0.085,Sonnet 4.6 的准确率为 62.4%,每次查询 $0.153。费用数据基于各提供方的公开 API 定价,并不包含缓存优化。

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Пророк запускает AI-рынок прогнозов с онлайн-торговым траншем на $10 000 сегодня

Согласно MetaversePost, Prophet запустила сегодня (6 мая) AI-ориентированный рынок прогнозов, выделив $10 000 в USDC на живую торговлю. Пользователи могут торговать напрямую против AI-контрагента, который формирует вероятностное ценообразование для каждого рынка, при этом некоторые контракты могут быть урегулированы в течение 24 часов

GateNews4ч назад

Tessera Labs закрывает раунд Series A под руководством a16z; команда из шести человек в области ИИ заменяет 60 SAP-консультантов

По данным Beating, Tessera Labs, компания по интеграции AI-систем, завершила раунд финансирования Series A под руководством a16z. Стартап, основанный в 2024 году, использует многоагентную платформу для автоматизации миграций SAP ECC на S/4HANA, которые традиционно занимают 3–5 лет и обходятся в $100 миллионов до $500 миллионов per

GateNews5ч назад

Фьючерс на Тайвань удержался выше 40 000 пунктов, США установили новый максимум, но разве индустрия ИИ только не на ранней стадии?

Goldman Sachs заявил, что спрос на ИИ значительно вырастет из-за потребительских агентных рабочих нагрузок, что приведёт к резкому росту потребления токенов: к 2030 году рост может превысить 12 раз, а месячные токен-вычисления достигнут 60 трлн; разница между не-агентными и consumer agent в том, что последние выполняют задачи в течение долгого времени за счёт автоматизации, и если это сбудется, ИИ войдёт в агентный рабочий процесс. Larry Fink заявил, что предложение вычислительных мощностей крайне ограничено, в будущем возможно появятся фьючерсы на вычислительные мощности; оба фактора вместе поддержат бычий тезис по развитию ИИ-инфраструктуры. В статье отмечается, что ИИ по-прежнему находится на ранней стадии.

ChainNewsAbmedia5ч назад

WLFI-экосистема AI-проект WorldClaw представила агентную операционную систему: даже без раскрытия бренда все равно можно продать за $10 000?

Семья Трампа вновь запускает криптопроект World Liberty Financial (WLFI) — в партнёрстве с WorldClaw представлен универсальный вход для AI-моделей WorldRouter. Платформа нацелена на объединение агентской экосистемы, включающей 300 AI-моделей: максимальный платный тариф стоит почти 10 000 долларов, но в комплекте вместо чего-то ожидаемого идёт аппаратное устройство с «не раскрытыми брендом и операционной системой», что вызвало сомнения у внешнего сообщества. @WorldClawAI расширяет доступ к AI, а $WLFI играет ключевую роль в экосистеме. Пользователи могут получать доступ к 300+ моделям через WorldRouter, а агенты могут

ChainNewsAbmedia8ч назад

Meta разрабатывает ИИ-ассистента Hatch в конкуренции с OpenClaw, планирует завершить внутреннее тестирование до конца июня

Согласно сообщению Financial Times от 5 мая, Meta разрабатывает AI-ассистента Hatch для обычных пользователей, черпая вдохновение из OpenClaw от OpenAI. Цель — завершить внутренние тесты к концу июня; параллельно Meta планирует до четвертого квартала этого года интегрировать автономный агентский инструмент для покупок в свои сервисы Instagram.

MarketWhisper9ч назад

Cloudflare: доля не-человеческого трафика сейчас превысила большинство, x402 Foundation адреса фонда Web Economics

Главный директор по стратегии Cloudflare заявил, что теперь более половины интернет-трафика приходится на не-человеческие источники, подчеркнув сдвиг в моделях использования веба, обусловленный ИИ-агентами. Компания указывает на x402 Foundation как на ключевую инициативу по созданию инфраструктуры для поддержки устойчивой цифровой экономики контента

CryptoFrontier11ч назад
комментарий
0/400
Нет комментариев