خمسة نماذج رائدة للذكاء الاصطناعي في Frontier تتعارض على 67% من مزاعم التحقق من الحقائق، تكشف دراسة
وجدت دراسة نُشرت هذا الشهر من الباحث كوستا جوردانوف في Lenz Research أن خمسة نماذج ذكاء اصطناعي في الطليعة اختلفت على 67% من 1,000 ادعاء للتحقق من الوقائع من واقع الحياة، مع حدوث اتفاق بالإجماع على 328 ادعاء فقط. اختبرت الدراسة GPT-5.4 وClaude Opus 4.7 وGemini 3 Pro وGemini 3 Pro مع البحث وSonar Pro على ادعاءات قدّمها مستخدمون فعليون إلى منصة للتحقق من الوقائع. حققت النماذج درجة Krippendorff's alpha قدرها 0.639، متراجعة عن عتبة 0.8 التي يعتبرها الباحثون عمومًا موثوقة. حدثت الخلافات رغم قيام جميع
OliverGrant·05-29 17:33

