
قال كبير علماء الذكاء الاصطناعي في شركة ميتا، يان لوكان، إن النماذج الحالية للذكاء الاصطناعي، وعلى رأسها النماذج اللغوية الضخمة، تفتقر إلى 4 سمات أساسية تشكل جوهر الذكاء البشري، مشدداً على أن تجاوز هذه الفجوة يتطلب تغييراً جوهرياً في طرق التدريب المتبعة حالياً.
وخلال مشاركته في قمة AI Action Summit في باريس مطلع هذا العام، والتي جمعت بين قادة سياسيين وخبراء في مجال الذكاء الاصطناعي لمناقشة مستقبل هذه التقنية، عرض لوكان رؤيته لمفهوم الذكاء أثناء جلسة نقاشية مع أنتوني أنونزياتا، أحد قادة الذكاء الاصطناعي في شركة IBM.
وأوضح لوكان: "هناك 4 خصائص أساسية للسلوك الذكي يمكن لأي كائن ذكي، سواء كان حيواناً أو بشراً، أن يمتلكها: فهم العالم الفيزيائي، والاحتفاظ بالذاكرة على المدى الطويل، والقدرة على الاستدلال، والقدرة على التخطيط، ولا سيما التخطيط المعقد القائم على التسلسل الهرمي".
وأضاف أن نماذج الذكاء الاصطناعي المعاصرة، وعلى رأسها النماذج اللغوية الكبيرة، لم تصل بعد إلى هذه الدرجة من الذكاء.
ولفت إلى أن سد هذه الفجوة يتطلب تحولاً في طريقة تدريب هذه النماذج، وهو ما دفع شركات التكنولوجيا الكبرى إلى اللجوء إلى ما وصفه بـ"الحلول المؤقتة" من خلال دمج قدرات إضافية على نماذج قائمة.
وتابع: "لفهم العالم الفيزيائي، نقوم بتدريب نظام رؤية مستقل ثم نُرفقه بالنموذج اللغوي.. أما في ما يتعلق بالذاكرة، فيمكن استخدام تقنيات مثل RAG، وهي اختصار لـ(استرجاع المعلومات المعزز بالتوليد)، أو يمكننا إضافة ذاكرة ترابطية أو ببساطة توسيع حجم النموذج نفسه".
أسلوب مختلف للتدريب
ورغم أن هذه الأساليب تُستخدم حالياً لتعزيز قدرات النماذج، فإن لوكان اعتبرها مجرد "حيل تقنية"، وأشار إلى أن السبيل الأمثل يتمثل في ما يسميه "نماذج قائمة على العالم" (World-Based Models)، وهي نماذج يتم تدريبها على سيناريوهات واقعية، وتتمتع بمستويات معرفية أعلى من تلك التي تعتمد فقط على أنماط البيانات.
وقال: "يكون لدى النموذج تصور معين عن حالة العالم في لحظة زمنية محددة، ثم يتخيل اتخاذ إجراء ما، فيقوم نموذج العالم بالتنبؤ بما ستكون عليه الحالة المستقبلية للعالم بعد تنفيذ ذلك الإجراء".
وأشار إلى أن العالم يتغير وفق مجموعة غير نهائية وغير متوقعة من الاحتمالات، موضحاً أن الطريقة الوحيدة لتدريب نماذج الذكاء الاصطناعي على التعامل مع هذه التعقيدات هي من خلال "التجريد" (Abstraction).
وفي هذا السياق، بدأت "ميتا" بالفعل في تجريب هذا النهج عبر نموذج يُعرف باسم "V-JEPA"، أطلقته الشركة للجمهور في فبراير الماضي. ووصفت "ميتا" هذا النموذج بأنه غير توليدي (Non-Generative)، ويعتمد على التعلم من خلال التنبؤ بالأجزاء المفقودة أو المحجوبة من مقاطع الفيديو.
وأوضح لوكان: "الفكرة الأساسية هي ألا يقوم النموذج بالتنبؤ على مستوى البكسل، بل يتم تدريبه على تمثيل تجريدي للفيديو يسمح له بإجراء التنبؤات ضمن هذا التمثيل. والأمل هو أن يؤدي هذا التمثيل إلى استبعاد جميع التفاصيل التي لا يمكن التنبؤ بها".
وقارن لوكان هذا المفهوم بالكيفية التي أنشأ بها الكيميائيون التسلسل الهرمي الأساسي لبنية المادة، قائلاً: "قمنا بابتكار تجريدات تبدأ بالجسيمات، ثم الذرات، فالجزيئات، وصولاً إلى المواد. وفي كل مرة ننتقل فيها إلى مستوى أعلى، نُسقط كماً هائلاً من المعلومات غير الضرورية من المستويات الأدنى، لأنها لا تخدم الغرض الذي نسعى إلى تحقيقه".
وأكد أن هذا النهج يمثل جوهر قدرتنا كبشر على فهم العالم الفيزيائي من خلال بناء طبقات من التجريدات الهرمية.