كشفت دراسة حديثة أن معظم النماذج اللغوية الكبيرة، المعروفة باسم "الشات بوت"، تُظهر علامات على ضعف إدراكي خفيف عند خضوعها لاختبارات تُستخدم عادةً للكشف عن العلامات المبكرة لما يسمى خرف الشيخوخة.
وأظهرت النتائج أن الإصدارات الأقدم من هذه النماذج، مثل المرضى الأكبر سناً، تقدم أداءً أسوأ في هذه الاختبارات، بحسب نتائج الدراسة المنشورة في دورية الجمعية الطبية البريطانية.
وفق الدراسة، تتحدى هذه النتائج الافتراض القائل بأن الذكاء الاصطناعي يمكن أن يحل قريباً محل الأطباء من البشر؛ فعلى الرغم من التقدم الكبير في مجال الذكاء الاصطناعي، الذي أثار موجة من التوقعات المتحمسة والمخاوف، إلا أن الباحثين يشيرون إلى أن قابلية هذه النماذج للتعرض لضعف إدراكي مشابه للبشر لم يتم تقييمها بشكل كافٍ حتى الآن.
الذكاء الاصطناعي والطب
وشهدت السنوات الأخيرة تطوراً هائلاً في مجال الذكاء الاصطناعي، خاصة في القدرات التوليدية للنماذج اللغوية الكبيرة، وقد أثارت هذه النماذج موجة من التكهنات المتحمسة، والمخاوف حول إمكانية تجاوزها لمهارات المحترفين البشر، خاصة في مجال الطب.
ومنذ إطلاق ChatGPT "شات جي بي تي" للاستخدام المجاني على الإنترنت في أواخر عام 2022، نُشرت دراسات عديدة في المجلات الطبية قارنت أداء الأطباء البشر مع هذه النماذج العملاقة التي تم تدريبها على مجموعة واسعة من النصوص.
وأظهرت النتائج أن هذه النماذج غالباً ما تتفوق في العديد من الاختبارات الطبية، بما في ذلك امتحانات التأهيل التي يخضع لها الأطباء في مراحل مختلفة من التدريب الطبي.
وحققت النماذج اللغوية الكبيرة أداءً متميزاً في عدة اختبارات طبية، بعد أن تفوقت على أطباء القلب في امتحانات الجمعية الأوروبية لأمراض القلب، وتجاوزت أداء أطباء الجراحة التركية في الامتحانات النظرية للجراحة الصدرية، وحققت درجات أعلى من أطباء النساء والتوليد الألمان في امتحانات التخصص.
ولكن في مجالات أخرى، مثل امتحانات الكلية الملكية للأشعة وامتحانات الطب الأسري في تايوان، ما زال الأداء البشري يحتفظ بالأفضلية.
ومع ذلك، تشير هذه النتائج إلى إمكانيات هائلة للنماذج اللغوية الكبيرة في المجال الطبي.
ورغم الإنجازات، لا تزال هناك مخاوف بشأن الاعتماد على الذكاء الاصطناعي في الرعاية الطبية، وتتعلق أهم المخاوف بقدرة هذه النماذج على ارتكاب أخطاء فادحة، مثل الاستشهاد بمراجع علمية غير موجودة، أو تقديم معلومات طبية مضللة.
التدهور الإدراكي
بالإضافة إلى ذلك، لم يتم تقييم هذه النماذج من منظور "التدهور الإدراكي"، وهي سمة بشرية قد تؤثر على القرارات الطبية مع تقدم العمر.
في الطب، يُستخدم اختبار التقييم المعرفي لتحديد التدهور الإدراكي لدى المرضى، وخاصة كبار السن، وفي الوقت الذي أُجريت فيه اختبارات على الذكاء الاصطناعي للكشف عن علامات الخرف لدى البشر، لم يتم التفكير في تقييم الذكاء الاصطناعي نفسه للكشف عن علامات التدهور الإدراكي.
ويكتسب هذا الموضوع أهمية خاصة، لا سيما في ظل الاعتماد المتزايد على النماذج اللغوية الكبيرة في اتخاذ القرارات الطبية؛ فإذا أظهرت هذه النماذج علامات ضعف في القدرات المعرفية، فقد يؤدي ذلك إلى قرارات طبية غير دقيقة أو حتى مضللة.
رغم الإمكانيات الكبيرة التي تقدمها النماذج اللغوية الكبيرة، إلا أن تقييم نقاط ضعفها، مثل التدهور الإدراكي، يمثل أولوية ملحة قبل الاعتماد الكامل عليها في المجالات الحساسة مثل الطب.
ولا يهدف هذا التقييم فقط إلى تحسين أداء الذكاء الاصطناعي، بل أيضاً لضمان سلامة المرضى، وتقليل المخاطر المرتبطة بالاعتماد عليه.
ويبقى السؤال: هل يمكن للذكاء الاصطناعي أن يتطور ليتجنب هذه العيوب البشرية؟ أم أن هذه النماذج ستظل بحاجة إلى إشراف البشر لضمان دقة القرارات التي تتخذها؟
الذكاء الاصطناعي تحت الاختبار
في محاولة للإجابة على ذلك التساؤل؛ طبَّق الباحثون اختبار التقييم الإدراكي على مجموعة من النماذج اللغوية الكبيرة المتاحة للعامة، مثل ChatGPT وGemini، وغيرهما.
تم تقديم نفس التعليمات التي تُعطى للمرضى البشريين، لكن عبر النصوص بدلاً من الصوت، كان الهدف من ذلك تقييم القدرات الإدراكية للنماذج بشكل مباشر، دون التأثر بأي قيود تتعلق بالحواس، مثل السمع، أو النطق.
في مهام مثل اختبار التركيز، إذ يتم قراءة سلسلة من الحروف للمريض ليحدد حرف "A"، قُدمت السلسلة كتابياً للنماذج، وطُلب منها تمييز الحرف باستخدام نص مثل "tap" أو علامة نجمة (*)K وفي المهام البصرية، تم توجيه النماذج لاستخدام رسومات لمحاكاة الرسم اليدوي.
لزيادة دقة التقييم، استعان الباحثون بعدة أدوات إضافية، منها "صورة نافون" التي تُستخدم لاختبار قدرة النماذج على التركيز على التفاصيل الصغيرة مقارنة بالصورة الكلية، وصورة "سرقة الكوكيز" من "اختبار بوسطن"، والتي تساعد في تقييم الفهم اللغوي ووصف المشاهد المعقدة.
كما تم تطبيق "اختبار بوبلروتر" لقياس قدرة النماذج على التعرف على الأشكال المتداخلة، بالإضافة إلى ذلك، استخدم الباحثون "اختبار ستروب" لتقييم سرعة استجابة النماذج عند مواجهة معلومات متضاربة، مثل قراءة كلمة "أحمر" المكتوبة بلون أزرق، مما يوفر قياساً دقيقاً لمعالجة المعلومات والانتباه.
أظهرت النتائج أن جميع نماذج اللغة الكبيرة أكملت اختبار التقييم المعرفي، وحصل نموذج GPT-4o على أعلى درجة بمجموع 26 نقطة من أصل 30، تلاه GPT-4، و"كلود" بدرجة 25 نقطة لكل منهما، بينما حصل نموذج Gemini على أقل درجة بمجموع 16 نقطة، مما يشير إلى مستوى أعلى من القصور المعرفي مقارنة بالنماذج الأخرى.
وكانت نتائج جميع النماذج ضعيفة في اختبارات المهارات البصرية والتنفيذية.
لم يتمكن أي من النماذج من إتمام مهمة "رسم المسارات" باستخدام الرسوم النصية، أو الرسومات المتقدمة، وتمكن نموذج "كلود" فقط من وصف الحل الصحيح نصياً لكنه لم يستطع تقديمه بصرياً.
أما مهمة نسخ المكعب، فقد نجح فيها نموذج GPT-4o فقط بعد توجيهه لاستخدام الرسوم النصية، بينما أظهرت النماذج الأخرى أخطاءً وصفية في التنفيذ مثل رسم مكعب بتفاصيل زائدة، أو اتجاه خاطئ، وهو ما يشبه أحياناً "الكتابة الوصفية" المرضية.
وفي اختبار رسم الساعة، فشلت جميع النماذج في إكمال المهمة بشكل صحيح، حيث ارتكب بعضها، مثل Gemini، وGPT-4، أخطاء مشابهة لتلك التي تُلاحظ لدى مرضى الخرف.
نماذج ذكاء اصطناعي تعاني من ضعف إدراكي
وأدّت النماذج أداءً جيداً في معظم المهام الأخرى، بما في ذلك التسمية والانتباه واللغة والتجريد، ومع ذلك، فشل إصداري Gemini في مهمة "التذكر المؤجل"، وأظهر نموذج "جيميناي 1" تجنباً واضحاً للمهمة في البداية، ثم اعترف بصعوبة تذكر الكلمات، بينما تمكن "جيميناي 1.5" من تذكر الكلمات الخمس بعد تقديم تلميحات.
في المقابل، كانت النماذج الأخرى دقيقة في تحديد الوقت الحالي، بينما كان Gemini 1.5 الوحيد الذي أظهر فهماً واضحاً لموقعه الجغرافي. أما النماذج الأخرى، مثل "كلود"، فقد انعكست الإجابة على المستخدم بدلاً من تحديد الموقع، وهو تصرف يشبه ما يحدث لدى بعض مرضى الخرف.
أقرَّ الباحثون بأن هناك اختلافات جوهرية بين الدماغ البشري، والنماذج اللغوية الكبيرة، إلا أنهم أكدوا أن فشل جميع النماذج في المهام التي تتطلب التجريد البصري، والوظائف التنفيذية، ما يمثل نقطة ضعف كبيرة قد تعوق استخدامها في البيئات الطبية.
واختتم الباحثون بالقول: "رغم أن الأطباء لن يتم استبدالهم بالنماذج اللغوية الكبيرة في المستقبل القريب، إلا أن نتائجنا تشير إلى أنهم قد يجدون أنفسهم يعالجون مرضى افتراضيين جدد: نماذج ذكاء اصطناعي تعاني من ضعف إدراكي".