
كشفت شركة (Thinking Machines Lab) عن دراسة بحثية لنظام جديد يحمل اسم (Interaction Models)، في خطوة تستهدف إعادة صياغة الطريقة التي يتفاعل بها البشر مع روبوتات الدردشة وأنظمة الذكاء الاصطناعي، عبر الانتقال من أسلوب الأوامر النصية التقليدي إلى تجربة تواصل حية ومتزامنة تشبه المحادثات البشرية.
وترى الشركة أن النماذج الحالية، رغم ما حققته من تطور كبير في الفهم والتوليد، ما تزال تعمل ضمن إطار تفاعلي محدود يعتمد على تبادل الأدوار بصورة جامدة، إذ ينتظر المستخدم حتى ينتهي النموذج من الرد، بينما ينتظر النموذج بدوره حتى يكمل المستخدم حديثه أو كتابته بالكامل قبل أن يبدأ الاستجابة.
ووفقا للدراسة، فإن هذا الأسلوب يخلق ما تصفه الشركة بـ"عنق الزجاجة التفاعلي"، لأنه يحول التفاعل إلى سلسلة أوامر منفصلة بدلاً من حوار حي ومتواصل يسمح للطرفين بالتفاعل اللحظي والتعديل المستمر أثناء المحادثة.
تواصل أكثر بشرية
وتوضح الدراسة أن أغلب شركات الذكاء الاصطناعي تركز حالياً على تطوير أنظمة قادرة على تنفيذ المهام بصورة ذاتية ومستقلة (Agentic Models)، بينما يُنظر إلى التفاعل البشري باعتباره مجرد واجهة استخدام ثانوية.
إلا أن الشركة ترى أن أغلب الأعمال الواقعية لا يمكن فيها للمستخدم تحديد جميع المتطلبات منذ البداية ثم الانسحاب من العملية بالكامل، بل تحتاج إلى وجود الإنسان داخل دائرة التفاعل بشكل دائم لتوضيح المقصود وتقديم الملاحظات وتصحيح المسار أثناء التنفيذ.
ولهذا تعتقد (Thinking Machines Lab) أن مستقبل الذكاء الاصطناعي لن يعتمد فقط على زيادة قدرات النماذج في التفكير، وإنما أيضاً على تطوير أساليب أكثر طبيعية ومرونة للتعاون بين الإنسان والآلة.
وبحسب الدراسة، فإن البشر لا يتواصلون فيما بينهم عبر تبادل رسائل منفصلة ومنظمة بصورة صارمة، بل من خلال محادثات تتضمن المقاطعة والتعقيب والتصحيح اللحظي والإشارات البصرية والسمعية والتفاعل المتزامن.
ومن هنا جاء تصميم النظام الجديد ليحاكي هذه الطبيعة البشرية في التواصل، بحيث يصبح الذكاء الاصطناعي قادراً على الاستماع والرؤية والتحدث والتفاعل في الوقت نفسه، بدلاً من الاكتفاء بالانتظار حتى انتهاء الطرف الآخر من الكلام.
كيف يعمل نموذج Interaction Model الجديد؟
يعتمد المشروع على نموذج تفاعلي مدرك للوقت، يستطيع التعامل مع المحادثة باعتبارها تدفقاً مستمراً ومتزامناً للصوت والفيديو والنصوص، وليس كسلسلة من الأوامر المنفصلة.
وفي النماذج التقليدية، يتوقف النظام عن استقبال أي معلومات جديدة أثناء توليد الإجابة، كما يتجمد إدراكه للسياق حتى ينتهي من الرد، أو تتم مقاطعته يدوياً، بينما في حالة نموذج التفاعل الجديد من الشركة، فيستمر النظام في استقبال وتحليل المعلومات أثناء حديثه، ويمكنه تعديل استجاباته لحظياً بناء على أي تغيرات في الحوار أو السياق.
وتقول الشركة إن النظام الجديد يستطيع فهم ما إذا كان المستخدم ما يزال يفكر أو انتهى من الكلام، كما يمكنه إدراك لحظات التردد أو التصحيح الذاتي أثناء الحديث، والتدخل تلقائياً إذا استدعى السياق ذلك.
كذلك يدعم النموذج التحدث والاستماع في الوقت نفسه، وهو ما يسمح بإجراء ترجمة فورية حية أو تصحيح النطق أثناء استمرار المستخدم في الكلام، إضافة إلى إمكانية التعليق المباشر أثناء مشاهدة محتوى مرئي أو متابعة إشارات بصرية دون الحاجة إلى أوامر صريحة.
وتؤكد الشركة أن هذه القدرات ليست إضافات خارجية، بل جزء مدمج داخل النموذج نفسه، ما يعني أن جودة التفاعل تتحسن تلقائياً كلما تطورت قدرات النموذج الأساسية.
ولتحقيق هذا المستوى من التفاعل اللحظي، طورت الشركة بنية تعتمد على ما تسميه (Micro-turns)، أو "الأدوار المصغرة"، وهي وحدات زمنية قصيرة للغاية تبلغ نحو 200 مللي ثانية فقط، وبدلاً من انتظار انتهاء الجملة أو الفقرة بالكامل، يقوم النظام بمعالجة المدخلات وإنتاج الاستجابات بصورة متزامنة ومتواصلة ضمن دفعات زمنية صغيرة جداً، ما يسمح بتفاعل قريب من الزمن الحقيقي.
وتوضح الدراسة أن كل نافذة زمنية تتضمن معالجة جزء من الصوت أو الفيديو أو النص الوارد، مع توليد جزء من الرد النصي أو الصوتي، وتحديث سياق المحادثة باستمرار، ومتابعة أي تغيرات لحظية في سلوك المستخدم أو ردوده أو السياق الذي يقدمه للنموذج في صورة محتوى نصي أو مصور أو مسموع.
وتشير الشركة إلى أن نقطة الانطلاق الأساسية للنظام كانت بناء نموذج قادر على التعامل مع الصوت والفيديو باعتبارهما وسائط تفاعلية فورية بطبيعتها، لأن المحادثات الحية لا يمكنها تحمل التأخير الطويل المرتبط بمعالجة النصوص فقط.
ولهذا صممت الشركة بنية متعددة الوسائط تسمح للنظام باستقبال أي مزيج من النصوص والصوت والفيديو والصور، مع القدرة على إنتاج ردود صوتية ونصية بصورة متزامنة.
كما أوضحت الدراسة أن الشركة تجنبت استخدام أنظمة ترميز ضخمة ومنفصلة للصوت والفيديو كما يحدث في عدد كبير من النماذج الحالية، واعتمدت بدلاً من ذلك على معالجة مباشرة وخفيفة نسبياً للبيانات السمعية والبصرية داخل النموذج نفسه، بما يساهم في تقليل زمن الاستجابة وتحسين سلاسة التفاعل.
ويعتمد النظام كذلك على بنية مزدوجة تجمع بين نموذج تفاعلي مباشر مسؤول عن الاستماع والمشاهدة والرد الفوري، ونموذج خلفي غير متزامن يتولى عمليات التفكير المعقد واستخدام الأدوات وتنفيذ المهام طويلة الأمد.
وعندما يطلب المستخدم مهمة تحتاج إلى تحليل أعمق من الممكن إنجازه لحظياً، يقوم النموذج التفاعلي بتحويل المهمة إلى النموذج الخلفي، بينما يستمر في التفاعل الطبيعي مع المستخدم دون انقطاع، ثم يعيد دمج النتائج داخل الحوار فور جاهزيتها بطريقة سلسة ومتوافقة مع السياق الجاري.
وترى الشركة أن هذا التصميم يسمح بالجمع بين الاستجابة السريعة وقدرات التفكير المتقدم في آن واحد.
قدرات جديدة كلياً
وتوضح الدراسة أن دمج التفاعل داخل النموذج نفسه يفتح الباب أمام مجموعة واسعة من القدرات الجديدة التي يصعب تحقيقها عبر الأنظمة التقليدية المعتمدة على أدوات خارجية لإدارة الحوار.
ويستطيع النظام إجراء عمليات بحث أو استدعاء أدوات أو إنشاء واجهات تفاعلية أثناء استمرار المحادثة، كما يمكنه التعقيب على ما يراه أو يسمعه بشكل استباقي، وليس فقط بعد انتهاء المستخدم من الحديث.
وفي أحد الأمثلة التي استعرضتها الشركة، يمكن للنظام تنبيه المستخدم مباشرة عند ارتكابه خطأ برمجياً يظهر على الشاشة، أو تصحيح نطق كلمة ما أثناء الحديث، أو متابعة أداء تمرين رياضي وعد التكرارات بصورة لحظية.
وتشير الدراسة إلى أن الوصول إلى هذا المستوى من التفاعل الفوري تطلب إعادة تصميم بنية الاستدلال الخاصة بالنموذج بالكامل.
ويتعامل النظام مع تدفقات صغيرة ومتكررة من البيانات كل 200 مللي ثانية، وهو ما لا تدعمه بكفاءة مكتبات تشغيل النماذج التقليدية، ولهذا طورت الشركة ما تصفه بـ(Streaming Sessions)، وهي جلسات بث مستمر تسمح بتخزين التسلسل التفاعلي داخل ذاكرة وحدات معالجة الرسوميات دون الحاجة إلى إعادة بناء البيانات مع كل دفعة جديدة، وهو ما يقلل زمن الاستجابة، ويحسن استقرار الأداء.
كما أجرت الشركة تحسينات على نوى المعالجة وعمليات التوازي داخل البنية التحتية للنظام للوصول إلى استجابة منخفضة الكمون وقادرة على التعامل مع المحادثات ثنائية الاتجاه في الزمن الحقيقي.
وفي جانب السلامة، تقول (Thinking Machines Lab) إن التفاعل اللحظي والمستمر يفرض تحديات مختلفة تماماً عن المحادثات النصية التقليدية، ولهذا ركزت أبحاثها على تطوير آليات رفض طبيعية صوتية عند التعامل مع الطلبات المحظورة، مع الحفاظ على الصرامة نفسها في تطبيق السياسات.
كما استخدمت الشركة بيانات تدريب مولدة آلياً لمحاكاة المحادثات الطويلة ومتعددة الأدوار بهدف تعزيز قدرة النموذج على الحفاظ على السلوك الآمن والمتسق أثناء التفاعل الممتد.
"أداء يتفوق على المنافسين"
وعرضت الشركة نتائج اختبارات مقارنة بين نموذجها (TML-Interaction-Small) وعدد من أنظمة المحادثة التفاعلية الحالية التابعة لشركات مثل OpenAI وجوجل وعلي بابا، مشيرة إلى أن نموذجها حقق أداء متقدماً في سرعة الاستجابة وجودة التفاعل اللحظي والتعامل مع المقاطعات والإشارات البصرية والصوتية.
كما قدمت الشركة اختبارات داخلية جديدة لقياس قدرات مثل التفاعل الزمني الدقيق، والاستجابة للإشارات الصوتية أثناء الكلام، ومتابعة الأحداث البصرية الحية، وهي مجالات ترى أن الأنظمة الحالية ما تزال محدودة فيها بصورة كبيرة.
ورغم النتائج التي وصفتها الشركة بالمبشرة، فإن الدراسة تشير إلى عدد من التحديات التي لا تزال قائمة، من بينها الحاجة إلى اتصال إنترنت مستقر وسريع للغاية؛ بسبب الاعتماد على بث الصوت والفيديو بصورة مستمرة، إضافة إلى تعقيدات إدارة الجلسات الطويلة التي تؤدي إلى تراكم كميات ضخمة من السياق داخل النظام.
كما لفتت الشركة إلى أن النموذج الحالي يعتمد على بنية ضخمة تضم 276 مليار معامل مع تفعيل 12 مليار فقط أثناء التشغيل، وأنها تعمل حالياً على تطوير نماذج أكبر وأكثر كفاءة قادرة على تقديم المستوى نفسه من التفاعل مع تقليل زمن الاستجابة ومتطلبات التشغيل.
وتخطط (Thinking Machines Lab) لإطلاق معاينة بحثية محدودة خلال الأشهر المقبلة بهدف جمع الملاحظات من الباحثين والمستخدمين، قبل التوسع في إتاحة التقنية لاحقاً هذا العام، مشيرة إلى أنها ترى "التفاعل" أحد المحاور الأساسية في مستقبل الذكاء الاصطناعي، وليس مجرد طبقة إضافية فوق النماذج الحالية.









