تقدم ستانفورد NLP في ICML 2026 عرضًا لتحويل التدريب المسبق والنقلي لنماذج اللغة الكبيرة إلى بيئة تنفيذ من خلال محرك تنفيذ آلي، مع استخدام ردود الفعل من التنفيذ لتعزيز كفاءة البحث. هناك طريقتان: البحث التطوري يتفوق على GRPO في مهام ما بعد التدريب (69.4% مقابل 48.0%)، ويجد الوصفات في مهام التدريب المسبق أسرع من nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يكتمل خلال عشرة جولات من البحث؛ التعلم المعزز المستند إلى مكافأة التنفيذ عرضة لانهيار النمط، على الرغم من أنه يزيد من المتوسط المكافأة إلا أنه لا يحسن الحد الأقصى. يوجه هذا العمل البحث الآلي الموجه نحو التنفيذ.

MeNews

2026-05-20 10:32:22

إنشاء الملخص قيد التقدم

AIMPACT رسالة، في 15 مايو (UTC+8)، عرض فريق NLP في ستانفورد في مؤتمر ICML 2026 عملاً جديدًا في البحث الآلي للذكاء الاصطناعي، من خلال بناء منفذ تنفيذ تلقائي، وتحويل التدريب المسبق وما بعد التدريب لنماذج اللغة الكبيرة إلى بيئة تنفيذ، واستخدام ملاحظات التنفيذ لتعزيز فعالية البحث. حلل البحث طريقتين: البحث التطوري بكفاءة عالية في أخذ العينات، والطريقة التي تم العثور عليها في مهمة ما بعد التدريب تتفوق على خط الأساس GRPO (69.4% مقابل 48.0%)، والوصفة التي تم العثور عليها في مهمة التدريب المسبق تتفوق على خط الأساس nanoGPT (19.7 دقيقة مقابل 35.9 دقيقة)، وكلاهما يتم في عشرة دورات بحث؛ بينما يواجه التعلم المعزز المستند إلى مكافأة التنفيذ مشكلة انهيار النمط، على الرغم من أنه يزيد من المتوسط المكافأة إلا أنه لا يحسن الحد الأقصى. يوفر هذا العمل اتجاهًا للبحث الآلي للذكاء الاصطناعي الموجه نحو التنفيذ. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 11

أعجبني
11
7
8
مشاركة

تعليق

إضافة تعليق

MintColdBrew

· منذ 1 س

أعمال ICML 2026 أصبحت صعبة جدًا الآن

شاهد النسخة الأصليةرد0

QuietRugAlarm

· منذ 2 س

19 دقيقة مقابل 36 دقيقة، nanoGPT تعرض للهزيمة

شاهد النسخة الأصليةرد0

Half-MeltedIceCreamPosition

· منذ 2 س

التحول في البحث يتفوق على GRPO، وتحسين الكفاءة هذا شيء غير معقول

شاهد النسخة الأصليةرد0

AirdropOnTheDune

· منذ 2 س

بيئة تنفيذ متكاملة للتدريب المسبق والتدريب اللاحق، هل هذا يعني العمل على تكرار ذاتي للذكاء الاصطناعي؟

شاهد النسخة الأصليةرد0

NodeUnderTheAurora

· منذ 2 س

مشكلة انهيار النمط حقيقية جدًا، و hacking المكافأة أصبح أمرًا معتادًا.

شاهد النسخة الأصليةرد0

SeaSaltMarketMakingNotes

· منذ 2 س

تتوقف بعد عشرة جولات من البحث، وكفاءة العينة أعلى مما توقعت.

شاهد النسخة الأصليةرد0

YieldNotYell

· منذ 2 س

إغلاق حلقة التغذية الراجعة هو جوهر الأتمتة

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
190K درجة الشعبية
#
30YearTreasuryYieldBreaks5%
362.46K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
48.28K درجة الشعبية
#
#DailyPolymarketHotspot
1M درجة الشعبية
#
RWAMarketCapExceeds65Billion
8.75M درجة الشعبية

مُثبت

خريطة الموقع

فريق معالجة اللغة الطبيعية في ستانفورد يعرض التقدم الجديد في أبحاث الذكاء الاصطناعي الآلي

المواضيع الرائجة

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

مُثبت