يتوقع مطورون أن تتمكن أنظمة الذكاء الاصطناعي خلال بضعة أشهر فقط من تحقيق العلامة الكاملة في أحد أصعب الاختبارات المعرفية في العالم، المعروف باسم «الامتحان الأخير للبشرية» (HLE). وأفاد تقرير نشرته صحيفة «ديلي ميل» أن هذا الاختبار صممه مسؤولون في قطاع التكنولوجيا لقياس مستوى ذكاء الأنظمة، ويتكون من 2500 سؤال مختارة بعناية، تغطي نحو مائة موضوع مختلف، من بينها علوم الصواريخ والأساطير وعلم وظائف الأعضاء. ويتطلب كل سؤال مستوى فهم لا يقل عن درجة الدكتوراه، ويعد أي شخص يحصل على نتيجة قريبة من 100 بالمئة «خبيرا عالميا». وأظهرت النتائج قبل عامين أن نظام «جي بي تي» من شركة «أوبن أي آي» حصل على 3 بالمئة فقط في هذا الاختبار، كما لم تكن نتائج أنظمة «غوغل» و»أنثروبك» أفضل بكثير، وهو ما ساهم حينها في تقليل المخاوف بشأن تفوق الذكاء الاصطناعي، عبر إبراز الفجوة بين نماذج اللغة الكبيرة وأبرز الأكاديميين في العالم. وتشير المعطيات الحديثة إلى تغير هذا الوضع بشكل سريع، إذ سجل نظام «جيميني» التابع ل»غوغل» نسبة 45.9 بالمئة الشهر الماضي، بعد أن كان قد حقق 18.8 بالمئة فقط قبل أشهر قليلة من محاولته الأولى. وقال كالفن تشانغ، رئيس الأبحاث في شركة Scale المسؤولة عن الاختبار: «أردنا إنشاء اختبار أكاديمي بمستوى خبراء بشر، لا يستطيع حله سوى حفنة من الناس على وجه الأرض، لكننا رأينا تقدما مذهلا في نماذج اللغة خلال السنوات الماضية، والمطورون يقومون بعمل رائع في تحسين قدرات هذه النماذج على التفكير». وأوضحت كيت أولشيفسكا، مديرة المنتج في Google DeepMind: «إذا كان هذا هو هدفنا الوحيد في الحياة، أعتقد أننا سنصل إليه بسرعة كبيرة»، فيما حققت شركة Anthropic، المطورة لنظام Claude AI، نسبة 34.2 بالمئة مع تحسن مستمر في الأداء. ويمثل الوصول إلى نسبة 100 بالمئة في هذا الاختبار تحولا مهما، إذ يشير مبتكروه إلى أنه «مصمم ليكون آخر اختبار أكاديمي مغلق من نوعه»، ما يعني أن تجاوز الذكاء الاصطناعي له سيفرض مستقبلا اختبارات بأسئلة لا يعرف أي إنسان إجاباتها. وتم تطوير الاختبار بالتعاون مع «مركز سلامة الذكاء الاصطناعي»، وهو منظمة غير ربحية، بهدف قياس مدى المعرفة وعمق التفكير لدى الأنظمة الذكية. وأطلق القائمون على الاختبار في أيلول/ سبتمبر 2024 دعوة عالمية لتقديم الأسئلة، مع رصد جائزة قدرها 500 ألف دولار، حيث استجاب خبراء من نحو 50 دولة وقدموا 70 ألف سؤال، بشرط أن تكون الإجابات قصيرة وواضحة وغير متاحة بسهولة على الإنترنت. وجرى استبعاد الأسئلة التي تمكنت نماذج الذكاء الاصطناعي الحالية من الإجابة عليها، ما خفض العدد إلى 13 ألف سؤال، قبل اختيار 2500 سؤال نهائي، مع إجراء تعديلات لاحقة بناء على ملاحظات المستخدمين، فيما لا يزال عدد كبير من الأسئلة سريا لمنع الأنظمة من الاستفادة من الإجابات المتداولة. ويعيد هذا التقدم إلى الأذهان فوز حاسوب IBM «ديب بلو» على بطل العالم في الشطرنج غاري كاسباروف عام 1997، وهو الحدث الذي خالف توقعات العديد من الخبراء، كما جرى لاحقا تجاوز اختبارات بارزة في مجال الذكاء الاصطناعي، من بينها اختبار «المهام المتعددة الضخمة لفهم اللغة» (MMLU) الذي أطلق عام 2020، قبل أن يتم إيقافه بعد أن أصبحت الأنظمة تحقق فيه نتائج تتجاوز 90 بالمئة. وترى أولشيفسكا أن اقتراب الذكاء الاصطناعي من إتقان الاختبارات البشرية يدفع المطورين للتركيز على تجاوز حدود المعرفة البشرية الحالية، بينما يعتقد تشانغ أن هناك مجالات ستبقى عصية على الإتقان الكامل، مثل الجراحة والمهارات القائمة على اتخاذ القرار والحكم السليم والإبداع.