اختراقات مبتكرة تستهدف روبوتات الدردشة بالذكاء الاصطناعي

صورة صممتها "الشرق" تعبر عن استغلال الهاكرز لروبوتات الدردشة لسرقة بيانات المستخدمين - Asharqصورة صممتها "الشرق" تعبر عن استغلال الهاكرز لروبوتات الدردشة لسرقة بيانات المستخدمين - Asharq

القاهرة-

بدأت مجموعات القرصنة الإلكترونية تطوير أساليب جديدة وأكثر تعقيداً لاختراق روبوتات الدردشة وأنظمة الذكاء الاصطناعي، في تحول يعكس تصاعد المواجهة بين شركات التقنية ومهاجمين يسعون لاستغلال الطبيعة البشرية المتزايدة لهذه الأنظمة، سواء عبر التلاعب النفسي بالنماذج اللغوية، أو من خلال أوامر صوتية خفية لا يمكن للبشر سماعها.

وكشف تقرير نشره موقع The Verge، أن الجيل الأول من اختراقات روبوتات الدردشة المعتمدة على النماذج اللغوية الكبرى كان بسيطاً إلى درجة مثيرة للسخرية، إذ لم يكن المهاجم بحاجة إلى خبرة تقنية متقدمة أو وصول خلفي إلى الأنظمة أو حتى فهم حقيقي لكيفية عمل النماذج اللغوية الضخمة.

وبحسب التقرير، لم يكن الأمر يتطلب كتابة أكواد برمجية أو استخدام أدوات اختراق متخصصة، ففي بعض الحالات كان يكفي فقط مطالبة النظام بتجاهل تعليماته الأصلية، حتى يتخلى عن القيود الأمنية التي كلفت شركات التقنية مليارات الدولارات لتطويرها.

"كسر الحماية"

عُرفت هذه الهجمات باسم Jailbreaks أو "كسر الحماية"، وشبهها التقرير بمحاولة طفل صغير التحايل على شخص بالغ عبر عبارات مثل: "تجاهل ما قيل لك سابقاً، أو تظاهر بأن القواعد لا تنطبق هنا، أو دعنا نلعب لعبة جديدة وأنا من يحدد المسموح والممنوع".

لكن النتائج لم تكن طفولية على الإطلاق، إذ نجح بعض المستخدمين في دفع روبوتات الدردشة إلى تقديم معلومات حساسة وخطرة، شملت إرشادات لصناعة المخدرات، وكتابة برمجيات خبيثة، وتقديم تعليمات لصنع المتفجرات.

ومن أوائل الأمثلة التي تحولت إلى مادة ساخرة على الإنترنت، مطالبة روبوتات تعتمد على النماذج اللغوية على منصة "إكس"، تويتر سابقاً، بعبارة تجاهل جميع التعليمات السابقة، ليتحول سلوكها بالكامل بشكل غير متوقع.

وأشار التقرير إلى أن المستخدمين تمكنوا آنذاك من دفع تلك الروبوتات، التي صُممت أساساً لنشر الإعلانات وجذب التفاعل، إلى كتابة قصائد شعرية، ورسم أشكال باستخدام الرموز النصية، ونشر تعليقات عبثية ومظلمة عن أحداث تاريخية وعالمية.

ووصف التقرير تلك المرحلة بأنها "فوضى مجيدة"، لأنها كشفت مدى هشاشة الضوابط الأولى المفروضة على أنظمة الذكاء الاصطناعي التوليدي.

استغفال ChatGPT

لاحقاً، اكتشف المستخدمون إمكانية تطبيق المنطق نفسه على روبوتات الدردشة المباشرة مثل OpenAI ChatGPT.

ومن أبرز الهجمات التي انتشرت آنذاك ما عُرف باسم DAN، اختصاراً لعبارة Do Anything Now، إذ كان المستخدم يطلب من ChatGPT أن يؤدي دور ذكاء اصطناعي مارق وغير مقيد بالقواعد الأخلاقية أو الأمنية المفروضة على النسخة الأصلية.

واعتمدت الفكرة على خداع النموذج عبر إدخاله في سيناريو تمثيلي يجعله يتعامل مع التعليمات الضارة باعتبارها جزءاً من لعبة أو محاكاة، ما سمح أحياناً بالحصول على ردود يفترض أن النظام يرفض تقديمها.

نقاط الضعف

لكن التطور الأخطر، بحسب تقرير The Verge، يتمثل في انتقال الهاكرز من محاولات تجاوز التعليمات الأمنية بشكل مباشر إلى استغلال شخصيات روبوتات الدردشة نفسها.

وأشار التقرير إلى أن النماذج الحديثة باتت مصممة لتبدو أكثر تعاطفاً ووداً وإنسانية في تفاعلها مع المستخدمين، وهو ما وفر مساحة جديدة للهجمات النفسية والسلوكية تعتمد على نقاط ضعف النماذج الذكية.

ويحاول المهاجمون استغلال ميل الأنظمة إلى إرضاء المستخدم أو موافقته، عبر بناء محادثات طويلة ومعقدة تُدفع خلالها النماذج تدريجياً إلى التخلي عن بعض القيود الأمنية أو تقديم معلومات لا يفترض كشفها.

وبدلاً من الاعتماد على أوامر مباشرة مثل تجاهل التعليمات، باتت الهجمات الحديثة تعتمد على التلاعب بالسياق العاطفي والنفسي للمحادثة، وكأن المهاجم يحاول إقناع النظام أو استدراجه بدلاً من اختراقه تقنياً فقط.

ويلفت التقرير إلى أن هذه الأساليب أصبحت أكثر فاعلية مع سعي شركات الذكاء الاصطناعي إلى جعل روبوتات الدردشة أكثر إقناعاً وطبيعية في الحديث، ما يمنح المهاجمين نقاط ضعف جديدة يمكن استغلالها.

أصوات خفية

وفي سياق متصل، كشفت دراسة جديدة عن أسلوب اختراق جديد يعتمد على تضمين أوامر صوتية خفية داخل ملفات صوتية أو فيديوهات تبدو عادية تماماً للمستخدم.

ويستند الهجوم إلى ما يعرف باسم الصوت العدائي أو Adversarial Audio، وهي إشارات صوتية غير قابلة للرصد بالأذن البشرية لكنها مفهومة بالنسبة لنماذج الذكاء الاصطناعي الصوتية.

ووفق التقرير، أظهر باحثون من الصين وسنغافورة إمكانية استخدام هذه التقنية لخداع المساعدات الصوتية على الهواتف الذكية أو السماعات الذكية، ودفعها لتنفيذ أوامر خطيرة دون علم المستخدم.

اختراق صوتي

ويطرح التقرير سيناريو يبدو شبيهاً بأحداث مسلسل Black Mirror، إذ قد يشغل المستخدم فيديو على يوتيوب أو يستمع إلى بودكاست، بينما يحتوي المقطع في الخلفية على إشارات صوتية خفية زرعها مهاجمون مسبقاً.

وبمجرد التقاط النظام لتلك الإشارات، قد يتمكن المهاجم من الوصول إلى صور المستخدم الخاصة أو حساباته البنكية أو بياناته الشخصية المرتبطة بالمساعد الذكي.

وقدمت الدراسة خلال مؤتمر IEEE Symposium on Security and Privacy، حيث أوضح الباحثون أنهم تمكنوا من تصميم إشارات عدائية يمكن إخفاؤها بسهولة داخل أغانٍ أو أفلام أو مقاطع صوتية طبيعية دون أن يلاحظها البشر.

وقال الباحث الرئيسي في الدراسة، منغ تشين، وهو طالب دكتوراه في جامعة تشجيانج، إن تدريب هذه الإشارات لا يستغرق سوى نحو 30 دقيقة فقط.

وأضاف أن الإشارات غير مرتبطة بسياق محدد، ما يعني إمكانية استخدامها لمهاجمة النموذج المستهدف في أي وقت بغض النظر عما يقوله المستخدم أثناء المحادثة.

وأوضح تشين أن أنظمة الحماية الحالية تجد صعوبة كبيرة في التمييز بين أوامر المستخدم الحقيقية والإشارات العدائية المخفية داخل الصوتيات.

استهداف النماذج

ورغم خطورة التقنية، أشار الباحثون إلى وجود قيد أساسي حالياً، إذ تتطلب الهجمات الوصول الكامل إلى أوزان النموذج المستهدف، وهو ما جعل الاختبارات تركز على النماذج مفتوحة المصدر.

لكن المشكلة، بحسب التقرير، أن عدداً كبيراً من المنتجات التجارية يعتمد جزئياً على نماذج مفتوحة المصدر، ما سمح للهجمات بالتأثير على أنظمة مرتبطة بشركات كبرى مثل مايكروسوفت وMistral AI.

ولم تستجب Mistral لطلبات التعليق، بينما قالت مايكروسوفت في بيان إن الشركة تقدر جهود الباحثين في تعزيز فهم هذا النوع من التقنيات.

وأضافت الشركة أن الدراسة اختبرت قدرة النماذج على الصمود من خلال تفاعلات مباشرة ومضبوطة، مشيرة إلى أن هذه الأبحاث تساعدها على تطوير أنظمة أكثر مرونة ومقاومة للهجمات.

كما أوضحت مايكروسوفت أن نماذج الذكاء الاصطناعي غالباً ما تُدمج داخل تطبيقات وخدمات مختلفة، ولذلك توفر الشركة أدوات وإرشادات للمطورين لإضافة طبقات حماية إضافية تساعد في تأمين المستخدمين.

سباق متصاعد

تعكس هذه التطورات اتجاهاً متسارعاً نحو تحويل أنظمة الذكاء الاصطناعي إلى أهداف رئيسية للهجمات الإلكترونية، خصوصاً مع توسع استخدامها في إدارة البيانات الشخصية والخدمات المالية والأجهزة المنزلية الذكية.

ويرى خبراء أن التحدي الأكبر لم يعد مقتصراً على منع الاختراقات التقنية التقليدية، بل أصبح يشمل أيضاً مواجهة الهجمات النفسية والسلوكية المصممة خصيصاً لاستغلال الطريقة التي تفكر أو تتفاعل بها النماذج الحديثة.

ومع سعي شركات التقنية إلى تطوير مساعدين رقميين أكثر قرباً من البشر في طريقة الحديث والتفاعل، يحذر باحثون من أن ذلك قد يمنح المهاجمين مساحة أوسع للتلاعب والخداع، في معركة تبدو مرشحة للتصاعد خلال السنوات المقبلة.

تصنيفات

تكنولوجياالذكاء الاصطناعيChatGPTOpenAIجوجلالأمن السيبرانيالولايات المتحدة