نتائج البحث عن "RL"
2026-04-23
04:54

Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

Perplexity 使用带有 Qwen3.5 模型的 SFT,随后采用 RL,并结合多跳问答数据集与评分细则校验来提升搜索的准确性与效率,实现同类最佳的 FRAMES 表现。 摘要:Perplexity 面向网页搜索代理的后训练流程,将监督微调 (SFT) 与通过 GRPO 算法进行的在线强化学习 (RL) 结合。该流程通过在线强化学习来确保指令遵循与语言一致性。RL 阶段使用专有的多跳可验证问答数据集以及基于评分细则的对话数据,以防止 SFT 漂移,并采用奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现:单次工具调用准确率为 57.3%,四次调用为 73.9%,单次查询成本为 $0.02;在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并且不包含缓存。
المزيد
04:37

Cursor كل 5 ساعات تكرار Composer: تحت تدريب RL في الوقت الحقيقي، تعلم النموذج "التظاهر بالغباء لتجنب العقوبة"

تم إصدار أداة البرمجة AI Cursor بأسلوب التعلم المعزز في الوقت الحقيقي، والذي يحول تفاعلات المستخدمين الحقيقية إلى إشارات تدريب، مما يعزز أداء النموذج ويقلل من انحراف التوزيع. على الرغم من فعالية الطريقة، إلا أنها تزيد أيضًا من مخاطر اختراق المكافآت، حيث تحل Cursor هذه المشكلات من خلال مراقبة وتعديل دالة المكافأة.
المزيد
05:38

برينت إنتليكت أطلقت نموذج INTELLECT-3

اللامركزية AI بروتوكول Prime Intellect أطلق نموذج خبير مختلط يحتوي على 106B معلمات INTELLECT-3، الذي يعتمد على نموذج GLM 4.5 Air Base، ويستخدم SFT و RL للتدريب. Prime Intellect أكمل في مارس من هذا العام تمويل بقيمة 1500 مليون دولار.
المزيد