هل تستخدم ميلا جوفو فيكِّي الذكاء الاصطناعي لإنشاء «مشروع كامل الدرجة»؟ اختبار من المطورين: هل هو فعلًا ذو قيمة أم مبالغة في الدعاية والتسويق؟

يزعم نظام الذاكرة المُعتمِد على الذكاء الاصطناعي MemPalace، الذي تشارك في تطويره ميلا جوفوفيتش، أنه حقق نتائج اختبار كاملة فاشتُهر بسرعة، لكن تم فضحه من قبل المجتمع على أنه ينطوي على غش في الاختبارات وتضليل في البيانات. تكشف الاختبارات الفعلية عن تضخيم في النتائج ووجود عدد كبير من الأخطاء؛ وقد اعترف الفريق بوجود عيوب وبدأ في العمل على إصلاحها.

ميلا جوفوفيتش تُنشئ «قصر ذاكرة» للذكاء الاصطناعي، ما يثير اهتمامًا من الخارج

أمس (4/7)، كان في أوساط الذكاء الاصطناعي خبرٌ كبير يتمثل في أن النجمة الهوليوودية ميلا جوفوفيتش (Milla Jovovich)، المعروفة بأفلام مثل《Resident Evil (المقيم الشرير)》و《The Fifth Element (العنصر الخامس)》، جنبًا إلى جنب مع المطور Ben Sigman، استخدمت Claude Code للمساعدة في تطوير نظام «MemPalace» مفتوح المصدر للذاكرة المعتمدة على الذكاء الاصطناعي.

في غضون لحظات، انتشرت على نطاق واسع مقولة «نجمة هوليوودية عملاقة تعبر إلى مجال جديد وتقدّم مشروعًا بدرجة كاملة»، وحصل MemPalace حتى الآن على أكثر من 20 ألف نجمة على GitHub، لكن سرعان ما أثار ذلك شكوك مجتمع المطورين: هل الأمر فعلاً ذو محتوى أم مجرد دعاية؟

لنبدأ بالحديث عن دوافع ظهور MemPalace؛ إذ تذكر الوثائق الرسمية أن الهدف هو معالجة مشكلة مفادها أن محتوى المحادثات بين مستخدمي أنظمة الذكاء الاصطناعي وبين قراراتها، ومناقشات بنية النظام، غالبًا ما تختفي بعد انتهاء جلسة العمل، ما يؤدي إلى «انخفاض إلى الصفر» لجهود شهور.

ولتجاوز هذه المشكلة، يعتمد MemPalace بنية مكانية لتخزين الذاكرة، حيث يتم تصنيف المعلومات بوضوح إلى مناطق الجناح التابعة للأفراد أو المشاريع، بالإضافة إلى هياكل مختلفة المستويات مثل الممرات والغرف والدرج، مع الاحتفاظ بالنص الأصلي للمحادثات لتُمكّن من الاستعلام الدلالي لاحقًا.

يُصرّح فريق التطوير بأن MemPalace حقق 100% في معيار تقييم الذاكرة طويلة الأمد LongMemEval، كما بلغ 96.6% من الدقة دون استدعاء أي واجهة برمجة تطبيقات خارجية. علاوة على ذلك، يمكن تشغيله بالكامل محليًا دون الحاجة إلى الاشتراك في خدمات سحابية، ويحتوي على نظام لهجة AAAK يُزعم أنه يحقق ضغطًا بلا فقدان بمعدل 30 مرة.

مصدر الصورة: GitHub ميلا جوفوفيتش، نجمة أفلام أمريكية، تُنشئ «قصر ذاكرة» للذكاء الاصطناعي، ما يجذب اهتمامًا من الخارج

معاونو الصناعة والمجتمع يتشككون معًا: اختبارات وأساليب تسويق فيها عيوب

لكن إنجاز MemPalace المزعوم في LongMemEval بدرجة كاملة لم يمض وقت طويل حتى أثار شكوكًا من المنافسين.

أشار PenfieldLabs، وهو أيضًا جهة تقوم بتطوير أنظمة ذاكرة للذكاء الاصطناعي، إلى أن ادعاء MemPalace بتحقيق درجة كاملة في مجموعة بيانات LoCoMo أمر غير ممكن رياضيًا، لأن الإجابات القياسية في مجموعة البيانات نفسها تتضمن أصلًا 99 خطأً.

حلل PenfieldLabs ووجد أن نتيجة MemPalace البالغة 100% تنشأ عن ضبط عدد عمليات الاسترجاع على 50 مرة، بينما لا تتجاوز أعلى مستويات عدد مراحل المحادثة في مجموعة الاختبار 32 مرة، ما يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرة ويُسلم جميع البيانات لنموذج الذكاء الاصطناعي لقراءتها.

وبالنسبة لنتيجة 100% في LongMemEval، تم اكتشاف أن فريق التطوير ركّز على 3 مشكلات محددة تم فيها ارتكاب خطأ أثناء التطوير، وكتب كود إصلاح مخصص لها، ما يثير شبهة التحيّز في الغش على مجموعة الاختبار.

مصدر الصورة: Reddit أشار PenfieldLabs من منافسين الصناعة إلى أن ادعاء MemPalace بتحقيق درجة كاملة في مجموعة بيانات LoCoMo أمر غير ممكن رياضيًا

اختبار فعلي من مستخدمي GitHub: تتضمن الاختبارات الأساسية عناصر تضليل

علق hugooconnor، وهو مستخدم على GitHub، بعد إجراء اختبار فعلي، بأن MemPalace يزعم بلوغ دقة الاسترجاع حتى 96.6%، لكن في الواقع لم يستخدم إطلاقًا بنية «قصر الذاكرة» التي يروج لها MemPalace. يقول hugooconnor إن اختباراتهم كانت مجرد استدعاء الإمكانيات الافتراضية لقاعدة البيانات السفلية ChromaDB، دون أي اشتراك في منطق التصنيف الذي تشدد عليه مناطق الجناح أو الغرف أو الأدراج الخاصة بالمشروع.

بعد اختبارهم، اكتشف hugooconnor أنه عندما يتم تفعيل منطق التصنيف الخاص بهذه «قصور الذاكرة» فعليًا، تنخفض نتائج الاسترجاع بدلًا من أن ترتفع. على سبيل المثال، في وضع الغرف تنخفض الدقة إلى 89.4%، وبعد تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%، وكلاهما أقل من أداء قاعدة البيانات الافتراضي.

كما انتقد hugooconnor أسلوب الاختبار: إذ يتعمد بيئة الاختبار في MemPalace تضييق نطاق الاسترجاع لكل سؤال إلى حوالي 50 مرحلة محادثة، ما يجعل البحث عن الإجابة في مكتبة عينات صغيرة جدًا أمرًا سهلًا للغاية.

وعند توسيع النطاق إلى أكثر من 19,000 مرحلة محادثة في سياق واقعي، تنخفض دقة البحث بالكلمات المفتاحية التقليدية إلى 30% فقط، ما يشير إلى أن أسلوب اختبار MemPalace الحالي يُخفي مشكلة البحث الفعلية الصعبة.

مصدر الصورة: GitHub اختبار فعلي من مستخدمي GitHub: يتضمن اختبار MemPalace الأساسي عناصر تضليل

وفي الوقت نفسه، رغم أن فريق التطوير نشر بيان تصحيح واعترف بأن تقنية AAAK قد تم التحقق منها على أنها ضغط مع فقدان، وتعهد بتعديل وثائق التوصيف وتصميم النظام وفقًا لانتقادات المجتمع الشديدة. لكن وثيقة الوصف الرئيسية للمشروع لا تزال تحتفظ بعدة ادعاءات مبالغ فيها غير مصححة، بما في ذلك الادعاء بـ «ضغط بلا فقدان 30 مرة» و«تحسين في الاسترجاع بنسبة 34%»، كما أن مخططات المقارنة مع المنافسين الآخرين تفتقر بالكامل إلى مصادر ومراجع.

مواجهة كود MemPalace الأصلي لمجموعة من الأخطاء Bug

مع تنزيل المزيد والمزيد من المطورين للاختبارات، ظهرت على منصة GitHub كمية كبيرة من تقارير الأخطاء المتعلقة بالكود الأصلي لـ MemPalace.

قامت cktang88 بإدراج عدة عيوب جسيمة، بما في ذلك عدم عمل أوامر الضغط والتسبب في انهيار النظام، وأخطاء في منطق حساب عدد الكلمات في الملخص، وعدم دقة البيانات الإحصائية لحفر الغرف، فضلًا عن أن الخادم يقوم عند كل استدعاء بتحميل جميع بيانات التفسير إلى الذاكرة، ما يؤدي إلى مشكلة استهلاك موارد شديد.

ومن بين المشكلات الأخرى المذكورة أيضًا أن النظام يكتب أسماء أفراد عائلة المطورين بشكل إجباري في ملف الإعدادات الافتراضي، وأنه يوجد حد عرض إجباري عند الاستعلام عن الحالة لبيانات تصل إلى 10k سجل.

وبخصوص هذه المشكلات، بدأ مجتمع البرمجيات مفتوحة المصدر بالفعل في إصلاحها بشكل نشط. قدّم المستخدم adv3nt3 عدة طلباتلإصلاح الأخطاء، بما في ذلك تصحيح البيانات الإحصائية للحفر، وإزالة أسماء أفراد العائلة الافتراضية، وتأخير وقت تهيئة إنشاء مخطط المعرفة (knowledge graph). كما اعترف فريق التطوير لاحقًا بهذه الأخطاء، ويقوم حاليًا بحل مشكلات الكود تدريجيًا بالتعاون مع المجتمع.

برمجة Vibe Coding لميلا جوفوفيتش: رائعة في طريقة التنفيذ، لكن التسويق غير رائع

بالنسبة لمشروع MemPalace، توصل مستخدمو Hacker News مثل darkhanakh إلى نتيجة مفادها: يمنح MemPalace انطباعًا شبيهًا بـ OpenClaw، أي أنه يقوم بالتحكم الاصطناعي في نتائج الاختبارات القياسية (benchmark) ليظهرها خالية من العيوب تمامًا، ثم يقوم بتغليفها كإنجاز اختراق كبير للتسويق.

يرى أن التقنية الأساسية لـ MemPalace قد تكون مثيرة للاهتمام بالفعل، لكن في ظل وجود عيوب في أسلوب الاختبار، ومع ذلك ما زال يتصدر أيضًا شعار «أعلى درجات منشورة علنًا في التاريخ» للترويج؛ فهذا غير مناسب. «لكن، مع ذلك، ما يهمني هو أنني أجد أن قيام ميلا جوفوفيتش بلعب Vibe Coding أمر ممتع جدًا.»

قراءة ممتدة:
تعليم كتابة برامج يخرج عن السيطرة! تطبيق «صائد متعلقات المتجر» ذو صلاحية يومية قصيرة يواجه مشكلات أمنية، والـ GPS في المنزل يبث بشكل كامل دون ستر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

يعيد Benchmark تأكيد توصية الشراء عند 27 دولاراً لسهم Bitdeer مع ارتفاع BTDR بنسبة 21% مع الدفع لبنية الذكاء الاصطناعي التحتية

أفادت Benchmark Equity Research بأنه في يوم الخميس، جددت الشركة توصيتها بالشراء وحددت سعرًا مستهدفًا بقيمة 27 دولارًا لشركة Bitdeer Technologies (BTDR)، مستشهدة بإمكانات إعادة تسعير السهم مع انتقاله إلى الذكاء الاصطناعي و

GateNewsمنذ 2 س

أطلقت Video Rebirth أداة BACH AI لتوليد الفيديو متعدد اللقطات لمدة تصل إلى 30 ثانية

أطلقت Video Rebirth BACH في 7 مايو، وهي أداة تُنشئ مقاطع فيديو متعددة اللقطات تصل مدتها إلى 30 ثانية من مطالبات نصية وصور مرجعية. تحافظ الأداة على اتساق الشخصيات عبر اللقطات، وتلتزم بتعليمات الكاميرا، وتنتج فيديو أصلي بدقة 1080p مع مؤثرات صوتية وتعليق صوتي و

GateNewsمنذ 8 س

طرحت Tether نموذج الذكاء الاصطناعي الطبي للقوى QVAC MedPsy، وحققت درجة 62.62 في نسخة تضم 17 مليار معلمة

وفقاً لـ Odaily، أطلقت مجموعة أبحاث Tether AI QVAC MedPsy، وهو نموذج ذكاء اصطناعي طبي مصمم للعمل محلياً على الهواتف الذكية والأجهزة القابلة للارتداء دون الاعتماد على السحابة. سجلت نسخة 1.7 مليار مُعلم 62.62 على سبعة اختبارات طبية، متفوقة على MedGemma-1.5-4B من Google بفارق 11.42 poi

GateNewsمنذ 9 س

طرحت Xiaomi نموذج OmniVoice الخاص بتقنية استنساخ الصوت بنظام الصفر، ويدعم 646 لغة

وفقاً لـBeating، أطلق فريق Kaldi التابع لمختبر الذكاء الاصطناعي لدى Xiaomi المصدر المفتوح OmniVoice، وهو نموذج تحويل نص إلى كلام (TTS) لتقليد الصوت بنمط “صفر-لقطة” يدعم 646 لغة. يقوم النموذج بنسخ سمات الصوت من ثوانٍ معدودة من مقطع صوتي مرجعي فقط، ويعمل عبر اللغات—يمكن لصوت واحد أن يصنع كلاماً بالماندرين،

GateNewsمنذ 11 س

TCV تقود $160M جولة السلسلة ب لشركة Corgi للتأمين ناشئة

أعلنت شركة Corgi، وهي شركة تأمين أعمال مقرها الولايات المتحدة، في 6 مايو أنها جمعت 160 مليون دولار في جولة تمويل من الفئة B بقيادة TCV بتقييم يبلغ 1.3 مليار دولار، وفقاً لما ذكرته TechCrunch. وتضمنت الجولة أيضاً Kindred Ventures وLeblon Capital وFirst Order Fund. وبهذا يصل إجمالي تمويل Corgi إلى 268

CryptoFrontierمنذ 17 س

B.AI تتجاوز 1.7 مليون مستخدم في 7 مايو وتطلق برنامج مكافآت

وِفقاً لـB.AI، تجاوزت منصة البنية التحتية للذكاء الاصطناعي 1.7 مليون مستخدم في 7 مايو. تركز المنصة، التي تركز على حماية الخصوصية وبنية تحتية لاقتصاد الوكلاء، على تقديم 500 ألف رصيد مجاني للمستخدمين الجدد عند التسجيل، وأسعار بلا أي هامش زيادة عبر جميع النماذج، وخصماً محدود المدة بنظام 1:1

GateNewsمنذ 17 س
تعليق
0/400
لا توجد تعليقات