推送新闻消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍其用于网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。
RL 阶段采用 GRPO 算法,并使用两种数据来源:其自有的多跳可验证问答数据集——由内部种子查询构建,要求进行 2–4 跳的推理,并通过多求解器验证;以及基于评分标准的通用对话数据——将部署需求转化为客观可检查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时((question-answer match 或所有评分标准条件均满足)),偏好分数才会生效,从而避免高偏好信号掩盖事实错误。效率惩罚采用组内锚定:对工具调用以及生成长度中超过同组正确答案基线的部分施加平滑惩罚。
评估显示,Qwen3.5-397B-SFT-RL 在各类搜索基准上实现同类最佳表现。在 FRAMES 上,单次工具调用的准确率为 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Claude Sonnet 4.6 高 4.7 个百分点。在适度预算 (四次工具调用) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方的公开 API 定价,并不包含缓存优化。
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Prophet Meluncurkan Pasar Prediksi Berbasis AI dengan Kupon Perdagangan Langsung $10.000 Hari Ini
Menurut MetaversePost, Prophet meluncurkan pasar prediksi bertenaga AI hari ini (6 Mei) dengan $10.000 dalam USDC yang dialokasikan untuk perdagangan langsung. Pengguna dapat berdagang langsung melawan pihak lawan AI yang menghasilkan harga berbasis probabilitas untuk setiap pasar, dengan beberapa kontrak yang akan diselesaikan dalam waktu 24
GateNews4jam yang lalu
Tessera Labs Menutup Pendanaan Seri A yang Dipimpin oleh a16z; Tim AI Beranggotakan Enam Orang Menggantikan 60 Konsultan SAP
Menurut Beating, Tessera Labs, perusahaan integrasi sistem AI, menyelesaikan pendanaan Seri A yang dipimpin oleh a16z. Startup tersebut, yang didirikan pada 2024, menggunakan platform multi-agen untuk mengotomatiskan migrasi SAP ECC ke S/4HANA, yang secara tradisional membutuhkan 3-5 tahun dan 100 juta dolar AS hingga 500 juta dolar AS per
GateNews4jam yang lalu
Indeks berjangka Taiwan bertahan di atas 40.000 poin, saham AS mencetak rekor tertinggi baru, tetapi industri AI baru memasuki tahap awal?
Goldman Sachs mengatakan bahwa permintaan AI akan meningkat secara signifikan karena beban kerja agent konsumtif, dengan konsumsi token yang bisa tumbuh lebih dari 12 kali pada tahun 2030; komputasi token bulanan dapat mencapai 60 triliun. Perbedaan non-agent dan consumer agent ada pada otomatisasi tugas jangka panjang; jika itu benar, AI akan masuk ke alur kerja yang bersifat agentic. Larry Fink menyatakan bahwa pasokan daya komputasi sangat kurang, dan ke depannya mungkin muncul futures daya komputasi. Keduanya bersama-sama menjadi dasar tesis bullish untuk pembangunan infrastruktur AI; artikel itu berpendapat bahwa AI masih berada pada tahap awal.
ChainNewsAbmedia5jam yang lalu
Proyek AI di ekosistem WLFI, WorldClaw, meluncurkan sistem operasi agen; bahkan tanpa mengungkap merek, masih bisa dijual 10.000 dolar AS?
Keluarga Trump meluncurkan langkah baru untuk proyek kripto World Liberty Financial (WLFI), bekerja sama dengan WorldClaw untuk memperkenalkan AI model single entry WorldRouter. Mengusung platform agen yang mengintegrasikan 300 model AI, paket berbayar tertinggi dibanderol mendekati 10.000 dolar AS, namun bonus yang diberikan justru berupa perangkat keras dengan “merek dan sistem operasi yang tidak diungkap”, memicu keraguan publik.
@WorldClawAI memperluas akses ke AI dan $WLFI memainkan peran kunci dalam ekosistem. Pengguna dapat mengakses 300+ model dengan WorldRouter, dan agen dapat
ChainNewsAbmedia8jam yang lalu
Meta mengembangkan asisten AI Hatch untuk menyaingi OpenClaw, menyelesaikan uji internal sebelum akhir Juni
Menurut Financial Times pada 5 Mei, Meta sedang mengembangkan asisten AI untuk konsumen umum (Hatch), terinspirasi dari OpenClaw milik OpenAI, dengan target menyelesaikan uji internal sebelum akhir Juni; Meta juga berencana sebelum kuartal keempat tahun ini mengintegrasikan alat belanja berbasis agen yang berdiri sendiri ke layanan Instagram miliknya.
MarketWhisper9jam yang lalu
Cloudflare: Lalu Lintas Non-Manusia Kini Menjadi Mayoritas, x402 Alamat Dana Yayasan dalam Ekonomi Web
Chief Strategy Officer Cloudflare menyatakan bahwa lebih dari setengah lalu lintas internet kini berasal dari non-manusia, menyoroti pergeseran pola penggunaan web yang didorong oleh agen AI. Perusahaan menunjuk x402 Foundation sebagai inisiatif kunci untuk membangun infrastruktur guna mendukung ekonomi konten digital yang berkelanjutan
CryptoFrontier11jam yang lalu