يعيش قطاع الذكاء الاصطناعي العالمي في عام 2025 ما يمكن وصفه ب"أزمة مقياس الذكاء" مع تسارع وتيرة تطوير النماذج وتعدد الشركات المنتجة لها، بينما يظل قياس قدرات هذه النماذج بدقة مسألة شائكة ومعقدة. وعلى الرغم من الاستثمارات الضخمة التي تضخها الشركات التقنية الكبرى، فإن غياب معايير تقييم موحدة يجعل من الصعب على المؤسسات والمستثمرين وصناع القرار تحديد ما إذا كانت هذه النماذج تحقق بالفعل تقدما نوعيا أم أنها مجرد تحسينات شكلية على أدوات متشابهة.
وأشارت دراسة نشرها موقع "ذي ريجستر" إلى أن المعايير التقليدية المتداولة لقياس أداء النماذج، مثل "نسبة الدقة" أو "الملاءمة" أو "بيربلكسيتي"، أصبحت عاجزة عن قياس القدرات المركبة للنماذج الحديثة، خاصة تلك القادرة على معالجة النصوص والصور والأصوات واتخاذ قرارات في الوقت الفعلي. وأظهر تقرير "مؤشر الذكاء الاصطناعي" لجامعة ستانفورد أن أداء النماذج سجل تحسنا تراوح بين 18.8 بالمائة و67.3 بالمائة في اختبارات معيارية خلال عام 2024، غير أن هذه الزيادة لا تعكس بالضرورة تقدما حقيقيا، لأن العديد من تلك الاختبارات نفسها أصبحت مستهلكة ومشبعة، حيث تمكنت النماذج الحالية من بلوغ سقفها الأقصى تقريبا. وتبرز مشكلة "تشبّع المعايير" كإحدى أبرز الإشكالات، إذ تحقق النماذج الحالية درجات شبه كاملة في الاختبارات التي صممت أصلا لنماذج أقل تطورا، وبالتالي لم تعد هذه الاختبارات قادرة على التفريق بين نموذج وآخر. وأشارت دراسة ل"ماكينزي آند كومباني" إلى أن 78% من المؤسسات حول العالم اعتمدت الذكاء الاصطناعي في عملياتها بحلول عام 2025، مقارنة ب55% فقط في 2023، غير أن أغلبها يواجه صعوبة في حساب الجدوى الاقتصادية الدقيقة لهذه الأدوات، بسبب غياب مقاييس واضحة لقياس الأداء. كما يحذر محللون من مخاطر تضخيم قدرات النماذج في تقارير الشركات دون وجود تدقيق مستقل، ما قد يؤدي إلى قرارات استثمارية أو تنظيمية خاطئة. وتتعرض أيضا "فرضية التوسع" التي تقول إن زيادة حجم النموذج وكمية البيانات المضافة إليه تولد ذكاء أعلى، إلى مراجعة نقدية واسعة. فقد أصبحت النقاشات على منصات مثل "إكس" (تويتر سابقا) تشير إلى ظواهر مثل "تراجع العوائد" و"جدران البيانات" و"اهتزاز الموثوقية". وأكد المحللون أن مجرد زيادة المعالجة لا يؤدي بالضرورة إلى ذكاء أكثر استقرارا. وأشار تقرير ستانفورد إلى أن حجم الاستثمارات الأميركية الخاصة في الذكاء الاصطناعي وصل إلى 109.1 مليار دولار في 2024، لكن الغموض حول معايير القياس يثير تساؤلات حول مدى فعالية هذا الإنفاق. وإزاء هذه الفجوة، بدأت مؤسسات بحثية وشركات تقنية في العمل على تطوير منهجيات تقييم جديدة، تشمل اختبارات متعددة الأبعاد تحاكي سيناريوهات واقعية، وليس مجرد أسئلة معرفة أو لغة. حيث يوجد هناك اتجاه متزايد نحو التركيز على تقييم "النماذج الوكيلية" القادرة على تنفيذ مهام بشكل مستقل، وليس مجرد الإجابة عن الأسئلة. كما أن أن حوكمة الأخلاقيات والشفافية أصبحت جزءا من عملية التقييم نفسها، وليس مجرد خطوة لاحقة على الإنتاج. ويجمع الخبراء على أن حل أزمة "مقياس الذكاء الاصطناعي" يمر عبر تعاون دولي بين الجامعات والشركات والمشرعين، لتطوير إطار مشترك للتقييم، يساعد في تحديد مستوى قدرات كل نموذج، ويمنع التضخيم أو التهويل أو الاختزال. فمع توسع استخدام الذكاء الاصطناعي في قطاعات حساسة مثل الرعاية الصحية والتعليم والخدمات الحكومية، يصبح قياس الأداء بدقة مسألة تتجاوز المنافسة التجارية إلى قضية مصلحة عامة.