Sakana AI Fugu Ultra vs Fable 5: So sánh Benchmark bị nghi vấn về khác biệt trong khung thử nghiệm
Theo dõi của Beating, hệ thống đa tác tử Fugu Ultra của Sakana AI tự nhận đã vượt qua Fable 5 của Anthropic trong các điểm chuẩn về lập luận khoa học và lập trình, nhưng vấp phải sự hoài nghi rộng rãi từ cộng đồng AI. Các nhà phê bình cho rằng điểm số điểm chuẩn phụ thuộc nhiều vào khung thử nghiệm được sử dụng trong quá trình đánh giá. Các khung thử nghiệm khác nhau có thể tạo ra chênh lệch 10-20 điểm, nghĩa là sự khác biệt hiệu suất được báo cáo có thể phản ánh tối ưu hóa kỹ thuật hệ thống hơn
GateNews·19phút trước
