تتعاون MIT مع NVIDIA لتطوير تقنية TLT، مما يحقق أعلى تسريع في تدريب نماذج الذكاء الاصطناعي التوليدية بمعدل زيادة يصل إلى 210%

robot
إنشاء الملخص قيد التقدم

أعلن موقع IT之家 في 28 فبراير أن موقع MIT News نشر في 26 فبراير مقالًا، أفاد بأن معهد ماساتشوستس للتكنولوجيا (MIT) بالتعاون مع شركة Nvidia وغيرها من الجهات قد طورت تقنية “ترويض الذيل الطويل” (TLT)، والتي يمكنها تحسين كفاءة تدريب نماذج اللغات الكبيرة للاستدلال (LLM) بشكل كبير.

وبحسب ما نقلته IT之家 عن المقال، فإن نماذج الاستدلال الكبيرة تتفوق في حل المشكلات المعقدة من خلال تفكيك الخطوات، لكن خلال تدريب التعلم المعزز (RL) تكون تكاليف الحوسبة واستهلاك الطاقة ضخمة للغاية.

اكتشف فريق البحث أن مرحلة “الاستدلال” (rollout) التي تتضمن توليد عدة إجابات بديلة تشغل ما يصل إلى 85% من وقت التدريب. وبسبب اختلاف طول الإجابات التي تولدها معالجات مختلفة، يتم إجبار المعالجات التي تنهي بسرعة على الخمول، في انتظار إنجاز المعالجات الأخرى لمهام النصوص الطويلة، ما يؤدي إلى اختناق خطير في الكفاءة.

ولمعالجة هذه المشكلة، اقترح باحثو MIT، بالتعاون مع Nvidia ومعهد الاتحاد السويسري للتكنولوجيا وغيرها، حلًا تكيفيًا يُسمى “ترويض الذيل الطويل” (TLT).

تتمثل الفكرة الأساسية في استخدام تقنية “فك الترميز الاستباقي” بشكل مبتكر، إذ يتم تدريب نموذج أصغر يُسمى “نموذج المسودة” (drafter) للتنبؤ بسرعة بمخرجات النموذج الكبير المستقبلية، ثم يقوم النموذج الكبير بالتحقق دفعة واحدة من هذه التخمينات. وبهذه الطريقة، لا يحتاج النموذج الكبير إلى توليد المخرجات خطوة بخطوة وبشكل تسلسلي، مما يسرّع عملية المعالجة بشكل كبير.

在 فك الترميز الاستباقي التقليدي، غالبًا ما يتم تدريب نموذج المسودة مرة واحدة فقط ثم يبقى ثابتًا. ومع ذلك، في التعلم المعزز يحتاج النموذج الرئيسي إلى التحديث آلاف المرات، لذا يصبح نموذج المسودة الثابت غير صالح بسرعة.

لذلك، يُدخل نظام TLT “مدرب المسودة التكيفي”. بمجرد أن تنجز بعض المعالجات الاستعلامات القصيرة ويدخل النظام في حالة خمول، يقوم النظام فورًا بجدولة تلك المعالجات لتدريب نموذج المسودة في الوقت الحقيقي.

وفي الوقت نفسه، تقوم “محرك الاستدلال التكيفي” بضبط استراتيجية فك الترميز تلقائيًا وفقًا لخصائص حمل العمل، لضمان بقاء نموذج المسودة متزامنًا بدرجة عالية مع النموذج الكبير المستهدف، دون زيادة أي تكلفة إضافية في الحوسبة.

تُظهر الاختبارات على مجموعات بيانات واقعية أن تقنية TLT ترفع سرعة تدريب عدة نماذج لغات كبيرة للاستدلال بنسبة تتراوح بين 70% إلى 210% مع الحفاظ على دقة النموذج دون أي خسارة.

والأمر لا يتوقف عند ذلك؛ إذ يمكن أيضًا استخدام نموذج المسودة الخفيف المدرب كمنتج ثانوي مجاني مباشرة لعمليات النشر اللاحقة بكفاءة أعلى. ويخطط فريق البحث في المستقبل لإدماج هذه التقنية في المزيد من أطر التدريب والاستدلال، بهدف خفض تكاليف تطوير الذكاء الاصطناعي وتحسين كفاءة استغلال الطاقة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.49Kعدد الحائزين:3
    1.98%
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.15%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت