Gate News message, 23 квітня — Дослідницька команда Perplexity опублікувала технічну статтю, яка детально описує її методологію пост-тренування для агентів веб-пошуку. Підхід використовує дві моделі Qwen3.5 із відкритим кодом (Qwen3.5-122B-A10B та Qwen3.5-397B-A17B) і застосовує конвеєр у два етапи: контрольоване донавчання (SFT) для формування дотримання інструкцій і мовної узгодженості, а потім онлайн підкріплювальне навчання (RL) для оптимізації точності пошуку та ефективності використання інструментів.
Фаза RL використовує алгоритм GRPO із двома джерелами даних: власним багатокроковим верифікованим набором запитань-відповідей, зібраним із внутрішніх стартових запитів, що вимагають 2–4 кроків міркування з верифікацією за допомогою кількох розв’язувачів, та розмовними даними загального призначення на основі рубрики, які перетворюють вимоги розгортання на об’єктивно перевірювані атомарні умови, щоб запобігти деградації поведінки SFT.
Дизайн винагород використовує gated aggregation — лише коли досягнуто базової правильності (відповідність питання-відповіді або коли виконано всі критерії рубрики), бали преференцій додаються, запобігаючи тому, щоб сигнали високої преференції маскували фактичні помилки. Штрафи за ефективність використовують прив’язку в межах групи, застосовуючи згладжені штрафи до викликів інструментів і довжини генерації, що перевищує базовий рівень правильних відповідей у тій самій групі.
Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає результатів найвищого класу на пошукових бенчмарках. На FRAMES він досягає 57,3% точності за одного виклику інструмента, випереджаючи GPT-5.4 на 5,7 відсоткового пункта та Claude Sonnet 4.6 на 4,7 відсоткового пункта. За помірного бюджету (чотири виклики інструментів) він досягає 73,9% точності при $0,02 за запит, порівняно з 67,8% точності GPT-5.4 при $0,085 за запит і 62,4% точності Sonnet 4.6 при $0,153 за запит. Показники вартості базуються на публічному ціноутворенні кожного провайдера через API та виключають оптимізації кешування.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
IBM розширює набір Enterprise AI Suite новими інструментами на базі агентів на Think 2026
Згідно з IBM, компанія оголосила про розширення своїх можливостей корпоративного ШІ на конференції Think 2026 у Бостоні, запустивши нові інструменти на основі агентів, щоб допомогти організаціям вбудовувати штучний інтелект у щоденну діяльність. Context Studio, який уже доступний загалом, дає змогу підприємствам
GateNews52хв. тому
Anthropic представляє Claude Dreams: агент самостійно впорядковує пам’ять між задачами, усуває дублікати та суперечності
Anthropic на Code with Claude оголосила про Dreams, щоб Claude Managed Agents автоматично впорядковували пам’ять між кількома сесіями розмов, усували дублікати й суперечності, оновлювали застарілі записи та виводили таку, яку можна перевірити, відформатовану базу пам’яті; ліміт на введення становить 100 сесій і 4 096 символів, виконання асинхронне, завершується за кілька хвилин — кілька десятків хвилин, підтримує спостереження в реальному часі через стрім. Попередній доступ до дослідження потрібно запитувати: наразі доступні лише claude-opus-4-7 і claude-sonnet-4-6, дата офіційного запуску не визначена.
ChainNewsAbmedia4год тому
Cloudflare у партнерстві зі Stripe представили автономні протоколи для агентів: ШІ може створювати власні акаунти, купувати домени та розгортати застосунки
Cloudflare і Stripe 30 квітня спільно представили новий протокол, який дозволяє AI-агентам без ручного втручання самостійно створювати обліковий запис Cloudflare, оформлювати підписку на платні плани, реєструвати домени, отримувати API token і безпосередньо розгортати застосунки. Офіційний блог Cloudflare пояснює, що вся процедура від початку до кінця не потребує участі людини в адмінпанелі, копіювання token чи введення даних кредитної картки; користувачеві потрібно лише спершу надати дозвіл і погодитися з умовами використання Cloudflare. Цього тижня це оголошення на Hacker News набрало 548 балів і стало однією з найбільш показових новин про базову інфраструктуру для того, щоб AI-агенти автономно виконували завдання.
Три рівні протоколів: виявлення сервісів, авторизація ідентичності, токенізація платежів
Cloudflare-Stripe
ChainNewsAbmedia4год тому
Інженер Coinbase: ШІ-агенти можуть порушити модель вебреклами
Ерік Реппел, інженер Coinbase, заявив, що агенти штучного інтелекту можуть фундаментально підірвати бізнес-модель інтернету, яка залежить від реклами. За словами Реппела, вебекономіка значною мірою спирається на рекламні надходження, що генеруються людськими користувачами, але AI-агенти обходять цю систему
CryptoFrontier4год тому
Пророк запускає AI-орієнтований ринок прогнозів із живим торговим траншем на $10 000 сьогодні
За MetaversePost, Prophet запустив сьогодні (6 травня) ринок прогнозів із підтримкою ШІ, виділивши $10 000 у USDC для активних торгів. Користувачі можуть торгувати безпосередньо проти AI-сторони, яка генерує ціни на основі ймовірностей для кожного ринку, причому деякі контракти врегульовуються протягом 24
GateNews11год тому
Tessera Labs закриває раунд Series A, очолений a16z; команда з шести людей для AI замінює 60 SAP-консультантів
Beating повідомляє, що Tessera Labs — компанія з інтеграції AI-систем — завершила раунд Series A, який очолила a16z. Заснований у 2024 році стартап використовує платформу з багатьма агентами для автоматизації міграцій з SAP ECC на S/4HANA, які традиційно потребують 3–5 років і 100 мільйонів – 500 мільйонів доларів на
GateNews11год тому