Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

发布新闻消息,4 月 23 日——Perplexity 的研究团队发表了一篇技术文章,详细介绍其面向网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,这些查询需要 2–4 跳推理,并通过多解算器验证;以及基于评分细则的通用对话数据,它将部署需求转换为客观可核查的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入,即 (question-answer match 或所有评分细则条件都满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 的成本实现 73.9% 的准确率;相比之下,GPT-5.4 在每次查询 $0.085 下准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 下准确率为 62.4%。成本数据基于各提供方的公开 API 定价,并排除缓存优化。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

يطلق بروفيت سوق تنبؤات مدعومًا بالذكاء الاصطناعي مع شريحة تداول حي بقيمة 10,000 دولار اليوم

بحسب MetaversePost، أطلق Prophet سوق تنبؤ مدعوم بالذكاء الاصطناعي اليوم (6 مايو) مع تخصيص 10,000 دولار من USDC للتداول المباشر. يمكن للمستخدمين التداول مباشرةً مقابل طرف مقابل للذكاء الاصطناعي يولّد تسعيراً قائماً على الاحتمالات لكل سوق، مع تسوية بعض العقود خلال 24

GateNewsمنذ 4 س

أغلقت شركة Tessera Labs جولة التمويل من السلسلة A التي قادتها شركة a16z؛ واستُبدل فريق من ستة أشخاص متخصصين في الذكاء الاصطناعي بـ 60 مستشاراً من شركة SAP

وفقاً لبياتينغ، أكملت شركة Tessera Labs، وهي شركة لتكامل أنظمة الذكاء الاصطناعي، جولة تمويل من الفئة A بقيادة a16z. تأسست الشركة الناشئة في 2024، وتستخدم منصة متعددة الوكلاء لأتمتة ترحيل SAP ECC إلى S/4HANA، وهو ما يتطلب تقليدياً 3-5 سنوات و100 مليون إلى 500 مليون دولار لكل

GateNewsمنذ 4 س

هل وقفت العقود الآجلة التايوانية عند 40,000 نقطة، وسجلت الأسهم الأمريكية مستويات قياسية جديدة، لكن صناعة الذكاء الاصطناعي لا تزال في بداياتها؟

أشار Goldman Sachs إلى أن الطلب على الذكاء الاصطناعي سيشهد قفزة كبيرة في استهلاك الرموز بسبب أحمال عمل وكلاء موجهة نحو المهام الاستهلاكية، ومن المتوقع أن ينمو بحلول عام 2030 بما يزيد على 12 ضعفا، وقد يصل استهلاك الرموز شهريا إلى 60 تريليون؛ والفرق بين غير الوكلاء و"الوكلاء الاستهلاكيين" يتمثل في أن الأولى تتعلق بالأتمتة على مدى فترات طويلة للمهام، وإذا تحقق ذلك فسيصبح الذكاء الاصطناعي جزءا من سير عمل قائم على الوكلاء. وقال Larry Fink إن إمدادات القدرة الحاسوبية تعاني نقصا حادا، وقد تظهر مستقبلا عقود آجلة للقدرة الحاسوبية، وكلاهما يدعم الأطروحة الصعودية لبناء البنية التحتية للذكاء الاصطناعي؛ وتعتقد المقالة أن الذكاء الاصطناعي ما يزال في مراحله المبكرة.

ChainNewsAbmediaمنذ 5 س

مشروع AI في منظومة WLFI من شركة WorldClaw يطلق نظام تشغيل للعاملين بالوكالة، دون الكشف عن العلامة التجارية: هل لا يزال بوسعه البيع مقابل 10,000 دولار؟

عائلة ترامب تُطلق مرة أخرى تحركات جديدة في مشروعها التشفيري World Liberty Financial (WLFI)، بالتعاون مع WorldClaw لإطلاق نموذج الذكاء الاصطناعي كمدخل موحد بعنوان WorldRouter. ويُروَّج له كمنصة للـوكلاء تهدف إلى دمج 300 نموذج ذكاء اصطناعي، وتصل أعلى باقات الدفع إلى ما يقارب 10 آلاف دولار، لكن الهدية المرفقة هي جهاز عتاد «غير مُعلن عن الشركة المصنّعة ونظام التشغيل»، ما أثار مخاوف لدى المراقبين. @WorldClawAI is expanding access to AI and $WLFI plays a key role in the ecosystem. Users can access 300+ models with WorldRouter, and agents can

ChainNewsAbmediaمنذ 8 س

تطوّر شركة Meta مساعدًا ذكاءً اصطناعيًا باسم Hatch يَستهدف منافسة OpenClaw، على أن يتم الانتهاء من الاختبارات الداخلية بحلول نهاية يونيو

أفادت صحيفة «فاينانشال تايمز» في 5 مايو أن «ميتا» تعمل على تطوير مساعد ذكاء اصطناعي موجّه للمستهلكين (Hatch)، مستوحى من OpenClaw التابعة لـ OpenAI، بهدف إتمام الاختبارات الداخلية بحلول نهاية يونيو؛ كما تخطط «ميتا» لدمج أداة مستقلة للتسوق بنمط الوكلاء ضمن خدمات «إنستغرام» قبل الربع الرابع من هذا العام.

MarketWhisperمنذ 9 س

Cloudflare: حركة المرور غير البشرية باتت تشكل الأغلبية الآن، و402 عنوانًا ضمن مؤسسة x402 تعكس اقتصاد الويب

صرّح كبير مسؤولي الاستراتيجية لدى Cloudflare بأن أكثر من نصف حركة مرور الإنترنت أصبحت غير بشرية، مشيراً إلى تحوّل في أنماط استخدام الويب مدفوعاً بعوامل الذكاء الاصطناعي. وتُشير الشركة إلى مؤسسة x402 باعتبارها مبادرة رئيسية تعمل على بناء بنية تحتية لدعم اقتصاد مستدام للمحتوى الرقمي

CryptoFrontierمنذ 11 س
تعليق
0/400
لا توجد تعليقات