تتسارع وتيرة تطور نماذج الذكاء الاصطناعي منذ مطلع العام الجاري، إذ تتسابق شركات: ميتا، وجوجل، ومايكروسوفت، وOpenAI لتقديم تحديثات لنماذجها الذكية، ما دفع المستخدمون نحو الخروج بأفكار لم تكن في الحسبان من قبل، لاستخدامات ثورية للذكاء الاصطناعي.
وأثبتت النماذج الذكية الجديدة أن قدراتها غير محدودة، خاصة عند مزجها بالإبداع البشري، وخيال الإنسان الواسع، بداية من التعامل مع النصوص من حيث مراجعتها وإنشائها، أو الخروج بأفكار مبتكرة والعمل على تطويرها، وصولاً إلى إنشاء محتوى بصري في هيئة صور وفيديوهات، بل وبرمجة تطبيقات وألعاب.
نموذج GPT-4o
يعتبر GPT-4o، النموذج الجديد من شركة OpenAI وأحدث نماذجها للذكاء الاصطناعي، والذي زودته بمعمارية مختلفة كلياً تستخدم شبكة عصبية واحدة؛ لمعالجة وتمرير ونقل الأوامر القائمة على أشكال مختلفة من البيانات تتنوع بين النصوص والصور والفيديوهات والمقاطع الصوتية، مما يجعل ردود نموذج أسرع بشكل واضح؛ ويمنح عملية التواصل طابعاً أكثر بشرية، إذ إن التواصل يحدث بشكل لحظي.
ومنذ لحظة إطلاقه، أبدع المستخدمون في تطوير تطبيقات مختلفة، إذ قدم اثنان من موظفي OpenAI تجربة عملية على إمكانية خوض نقاش صوتي مع النموذج الجديد، إلى جانب قدرة ChatGPT على التمييز بين المستخدمين المشاركين في المحادثة عبر أصواتهم المختلفة.
وهذه الميزة مفيدة للدخول في نقاشات جماعية بشأن موضوع معين، مع إشراك ChatGPT كمساعد ذكي يثري المناقشة، عبر الحصول على معلومات مُحدثة من الإنترنت أو تدوين الملاحظات.
ويعتبر ChatGPT مع النموذج الجديد مساعداً عملياً في الاجتماعات على الإنترنت، فمن خلال تطبيق سطح المكتب الجديد على حواسيب ماك، سيتمكن المستخدمون من خوض تجربة تدوين الملاحظات، وملخص الاجتماعات تلقائياً عبر تشغيل ChatGPT خلال إجراء الاجتماع عن بعد.
ولا تقتصر استخدامات النموذج الجديد من OpenAI على العمل فقط، إذ أنشأ من خلاله أحد المطورين لعبة Break Out الشهيرة، من خلال استخدام لقطة واحدة للشاشة على جهاز ماك، ثم أدخل الصورة إلى ChatGPT عبر تطبيقه الجديد للحواسيب المكتبية.
واستطاع أيضاً أحد المستخدمين تصميم استمارة بيانات رقمية، من خلال رسم تصميم الاستمارة باستخدام ورقة وقلم، ثم صوّر الورقة، وأدخل الصورة إلى ChatGPT، وطلب تحويلها لاستمارة رقمية، ولم يستغرق الأمر دقائق معدودة.
سيسهل هذا الأسلوب كثيراً على العاملين في المجال الأكاديمي، ويوفر عليهم عناء تصميم الاستمارات الرقمية لأغراض بحثية، وهي عملية كان تستغرق أحياناً ساعات طويلة لإنشاء البيانات المطلوب توافرها في الاستمارات، والتي ينجزها الذكاء الاصطناعي في دقائق معدودة.
وأضاف جريج بروكمان، أحد مؤسسي OpenAI، ميزة جديدة للنموذج وهي تصميم الصور التي تتضمن نصوصاً بترتيب واقعي، إذ يمكن التحكم في الكلمات والنصوص التي تظهر في الصورة بوضوح، وتقسيمها أيضاً إلى سطور منفصلة، وكأنها كتبت بواسطة البشر.
يعد إنشاء صور وبداخلها نصوص كجزء من تصميمها قدرة ثورية لنماذج الذكاء الاصطناعي، إذ إنه لطالما كان هناك قصور في هذا الجانب من تصميم الصور، فدائماً ما كانت النماذج الذكية غير قادرة على عرض تصور واضح لكتابة النصوص بأنماط الخطوط المختلفة، وعادة تخرج بهيئة غير طبيعية، مما يجعل من السهل كشف تزييف الصور.
كذلك، أنشأ أحد المستخدمين المتخصصين في البرمجة باستخدام GPT-4o مجموعة من المساعدين الأذكياء AI Agents، لأغراض مختلفة مثل تصفح الويب، والمساعدة على المسائل المالية، والأبحاث العلمية.
يصنف المتخصصون في مجال الذكاء الاصطناعي، إنشاء المساعدين الأذكياء بأنه مستقبل منصات الدردشة الذكية مثل ChatGPT، لأن تلك المنصات حالياً يتوقف دورها عند تقديم المعلومات والإجابات على تساؤلات المستخدم، بينما العميل الذكي يتخطى دوره ذلك ليمتد إلى تصفح مواقع الويب والضغط على الأزرار والروابط وملء حقول البيانات؛ لتنفيذ المهام التي يوكله بها المستخدم، والذي تكون مهمته النهائية مراجعة ما نفذه العميل الذكي والضغط بالموافقة.
كما زودت OpenAI نموذجها الذكي الجديد بقدرات متطورة خاصة بالرؤية الحاسوبية، إذ أصبح ChatGPT قادراً على تحليل المشهد الذي تراه عدسة كاميرا الهاتف، مما يسهم في طرح أسئلة بشأن البيئة المحيطة بالمستخدم بشكل حي، والحصول على إجابات بشأنها.
كما أسهم ذلك في تحويل ChatGPT إلى مساعد يعمل بشكل آني؛ يمنح ضعاف وفاقدي البصر "رؤية" أوضح للعالم من حولهم، مما يمكنهم من الحصول على استقلالية كبرى في التنقل بحرية.
نماذج Gemini 1.5
جاء نموذج Gemini 1.5 Flash ليقدم سرعة فائقة في التعامل مع مختلف أشكال المحتوى من صور، وفيديوهات، ومقاطع صوت، ونصوص، ويعد مثالياً في إنجاز المهام التي تتطلب ردوداً سريعة ومتواترة مع المستخدم.
وقالت جوجل إن قدرات نموذجها الجديد تتميز مع تطبيقات المحادثات الفورية بين المستخدم، والمساعدين الأذكياء، كما يقدم أداءً مميزاً في تلخيص النصوص وتحليل الصور والفيديوهات، وإضافة أوصاف شارحة لها، وصولاً إلى استخلاص المعلومات من داخل المستندات النصية الضخمة.
الإنجاز الحقيقي الذي حققه Gemini 1.5 Flash، بجانب السرعة، هو وصوله بنافذة أوامر حجمها يبلغ مليون توكن، وفتحت جوجل لأول مرة أمام عموم المستخدمين إمكانية استخدام نماذجها Gemini 1.5 Flash، وGemini 1.5 Pro، والأخير تبلغ نافذة الأوامر الخاصة به حد مليونيّ توكن.
وفتحت القدرات الفائقة لنماذج جوجل المجال أمام إبداعات المستخدمين، فعلى سبيل المثال قام المطور مكاي ريجلي بإدخال كتاب كامل عن الأحياء، واستخدم لذلك 491.500 توكن، وبدأ يسأل Gemini أسئلة دقيقة بشأن محتوى الكتاب.
يعتبر هذا التطبيق من أهم أشكال التطبيقات الخاصة بنماذج الذكاء الاصطناعي المطورة حديثاً، لأنها تسهل على الطلاب فهم وتحليل المواد العلمية بأنفسهم، والتأكد من مستوى إدراكهم لمختلف تفاصيلها، بل إن الأمر يصل إلى إمكانية استخدام المنصات الذكية كمدرسين خصوصيين، يتأكدون من إدراك الطالب واستيعابه للمادة الدراسية.
قام أحد المستخدمين بتجربة نموذج Gemini 1.5 Pro في الفترة التجريبية، ونشر في أبريل الماضي سياقاً مختلفاً لاستخدام النموذج في تحليل مقطع فيديو، وطرح أسئلة متنوعة بشأن محتواه على Gemini.
هذا الاتجاه في استخدام Gemini 1.5 Pro، يعتبر مميزاً للغاية، لأنه سيسهل على المستخدمين تصفح الفيديوهات الطويلة، وفهم محتواها دون الحاجة إلى مشاهدتها، كما قد يكون مفيداً في أنظمة الرقابة على المحتوى للتأكد من خلوه من أية مشاهد مخالفة للمعايير.
وعمل أحد المطورين اليابانيين على إجراء تفريغ نصي لمؤتمر OpenAI الأخير، باستخدام Gemini 1.5 Flash، إذ طلب من Gemini إجراء ذلك باللغة اليابانية، وبالتالي قام مساعد جوجل الذكي بتفريغ نصي بالإنجليزية ثم حولها إلى اليابانية بسرعة فائقة.
القدرات المتطورة في التعامل مع النصوص وتحليل وفهم اللغات المختلفة والترجمة، بينها تحول نماذج الذكاء الاصطناعي إلى مترجم فوري للمحتوى، يسهم في توسيع انتشار المعرفة، بغض النظر عن عائق اختلاف اللغات.
كما عرض حساب مجتمع بايثون بالعربي على منصة "إكس" تجربة Gemini 1.5 Flash الجديد، وتعامله مع النصوص بلغات مختلفة، وترجمتها بدقة إلى اللغة العربية.
يمكن لمثل تلك التطبيقات أن يستفيد منها المترجمون والكتّاب وكذلك المتخصصون في مجالات التسويق والإعلان، وبالتأكيد الطلبة والباحثون.
نموذج LlaMa 3
أتاحت شركة ميتا، مؤخراً، نموذجها LlaMa 3 لعموم المطورين، كي يمكنهم الوصول إلى كوده المصدري، ويكون بإمكانهم استخدامه لتطوير خدمات مختلفة.
أضاف فريق من المطورين، نموذج ميتا الذكي إلى نظارة ذكية مزودة بكاميرا سعرها لا يتجاوز 20 دولاراً، وطور الفريق ما قاموا بتسميته: OpenGlass، إذ أصبحت النظارة قادرة على الإجابة عن تساؤلات المستخدم، اعتماداً على تحليل العالم الذي تراه كاميرا النظارة في الوقت الفعلي بدقة.
عمل فريق آخر من المطورين على تقديم موقع إلكتروني يسهل على زواره طرح أسئلة على شخصية رقمية، بالصوت أو الكتابة، وتقوم تلك الشخصية بالإجابة صوتياً، مع جعل حركة الشفاه أقرب للحقيقة، والتركيز بالكامل يكون على الأحداث الخبرية الحالية حول العالم.
ومن أهم الخطوات التي قدمتها ميتا مع نموذجها الجديد LlaMa 3 الذكي هو إطلاقها موقع ويب، يسمح بتصميم الصور عبر الأوامر النصية، ويتخطى الأمر ذلك إلى إمكانية تحريك الصور.
تطور كبير تشهده نماذج الذكاء الاصطناعي، والذي من شأنه أن يغير طريقة تفاعل البشر مع الأجهزة الذكية، من حواسيب وهواتف ونظارات ذكية، بل وقد يسهم أيضاً في خروج جيل جديد من الأجهزة الذكية، مثل أجهزة R1 Rabbit، وكذلك الحاسوب المحمول Humane AI Pin.