لقد رأيت للتو أن سايمون قام باختبار عملي على Mac لنموذج VibeVoice-ASR الجديد مفتوح المصدر من مايكروسوفت، وهذا النموذج فعلاً مميز.


9 مليار معلمة، يعالج 60 دقيقة من الصوت المستمر مرة واحدة، ويمكنه أيضًا إخراج من يتحدث، ومتى يتحدث، وماذا قال.
الحلول التقليدية تتطلب دمج Whisper و pyannote، الآن نموذج واحد ينجز كل ذلك، ويدعم أكثر من 50 لغة ودمج الصينية والإنجليزية في الحديث.
استخدم نسخة التكميم ذات 4 بت (5.71 جيجابايت) على جهاز M5 Max لتحويل بودكاست مدته ساعة، واستغرق الأمر 8 دقائق و45 ثانية، وكانت ذروة الذاكرة 61.5 جيجابايت، ولا يمكن لجهاز لابتوب عادي بذاكرة 32 جيجابايت أن يعمل به.
المثير للاهتمام أن النموذج اعتبر حوار بين شخصين ثلاث أشخاص، لأن ليني يتحدث في بيئات تسجيل مختلفة.
التشغيل المحلي يتطلب على الأقل 64 جيجابايت من الذاكرة، بالنسبة لتحويل البودكاست وكتابة محاضر الاجتماعات، يمكن الآن تقليل العمليات المتعددة إلى استنتاج واحد فقط.

ما رأيكم في هذا النموذج؟
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت