جوجل تقدم Gemini 1.5 Flash ضمن تحديثات جديدة لنماذجها الذكية

time reading iconدقائق القراءة - 8
علامة جوجل التجارية بمقر الشركة بكاليفورنيا. 10 مايو 2023 - Google - AFP
علامة جوجل التجارية بمقر الشركة بكاليفورنيا. 10 مايو 2023 - Google - AFP
القاهرة-محمد عادل

كشفت جوجل، الثلاثاء، عن سلسلة من التحديثات لعائلة Gemini من نماذج الذكاء الاصطناعي، إذ طرحت نموذجاً جديداً تحت اسم Gemini 1.5 Flash يركز على الفاعلية والسرعة، وذلك خلال فعاليات مؤتمر الشركة السنوي للمطورين I/O 2024.

وقال الرئيس التنفيذي لشركة "ديب مايند" التابعة لجوجل ديميس هاسابيس في بيان، إن نموذج Gemini 1.5 Flash يقدّم أداءً أسرع وأكثر فاعلية في التعامل مع البيانات المختلفة، مقارنة بنموذج Gemini 1.5 Pro، الذي طرحته الشركة مطلع العام الجاري.

وأضاف "هاسابيس" أن جوجل أنشأت Gemini 1.5 Flash لأن المطورين كانوا بحاجة إلى نموذج أخف وأقل تكلفة من إصدار Gemini 1.5 Prok بقدرات تفوق نموذج Gemini الأصلي الذي أطلقته العام الماضي.

وبعد أن فاجأت العالم برفع حجم المدخلات البيانية المتاحة في التفاعل مع Gemini إلى مليون توكين، ضاعفت جوجل هذا الحجم ليصبح 2 مليون توكين مع Gemini 1.5 Pro، وبالنسبة لنسختها الجديدة Gemini 1.5 Flash فإن حجم المدخلات يبلغ مليون توكين.

و"التوكين" Token هي وحدة قياس حجم المدخلات البيانية التي يقدمها المستخدم لنموذج الذكاء الاصطناعي في هيئة صور أو فيديوهات أو مقاطع صوتية أو نصوص، وكلما زاد حجم وحدات التوكين، يمكن إدخال كم أكبر من البيانات إلى النموذج الذكي دفعة واحدة.

كما أن حجم 2 مليون توكين يتيح للمستخدم أن يُدخل إلى مساعد جوجل الذكي Gemini، ساعتين من مقاطع الفيديو أو 22 ساعة من التسجيلات الصوتية أو أقل من 60 ألف سطر من الأكواد البرمجية أو نحو 1.4 مليون كلمة نصية "دفعة واحدة".

نموذج سريع

وأوضحت الشركة أن نموذج Gemini 1.5 Flash يتسم بالسرعة الفائقة في التعامل مع مختلف أشكال المحتوى من صور وفيديوهات ومقاطع صوت ونصوص، لافتة إلى أنه مثالياً في إنجاز المهام التي تتطلب ردود سريعة ومتواترة مع المستخدم.

وأشارت جوجل إلى أن قدرات نموذجها الجديد تتميز مع تطبيقات المحادثات الفورية بين المستخدم والمساعدين الأذكياء، كما يقدم أداءً مميزاً في تلخيص النصوص وتحليل الصور والفيديوهات وإضافة أوصاف شارحة لها، وصولاً إلى استخلاص المعلومات من داخل المستندات النصية الضخمة.

واعتمدت جوجل في تدريبها لنموذج Gemini 1.5 Flash على أسلوب أطلقت عليه اسم "التقطير" Distillation، وهو يعتمد على نقل الخبرات والقدرات من نموذج كبير، وهو Gemini 1.5 Pro، إلى النموذج الأصغر والأخف.

ويُعد Gemini 1.5 Flash المنافس الأول لنموذج شركة OpenAI الجديد GPT-4o، والذي أطلقته هذا الأسبوع.

تحديث Gemini 1.5 Pro

وأضافت جوجل تحديثات جديدة إلى نموذجها العملاق Gemini 1.5 Pro، إذ حسَّنت قدراته في كتابة الأكواد البرمجية والتفكير المنطقي والتخطيط، والتعامل باحترافية في المحادثات متشعبة الموضوعات، إلى جانب قدرة أفضل على فهم وتحليل الصور والفيديوهات.

كما أصبح Gemini 1.5 Pro قادر على اتباع تعليمات معقدة بشكل أكثر دقة، بما في ذلك التي تحدد اتجاهاته السلوكية، ويتضمن هذا الدور والشكل والأسلوب الذي يتفاعل من خلالها مع المستخدم.

وعملت جوجل أيضاً على تحسين التحكم في استجابات النموذج لحالات استخدام محددة، مثل تقمص شخصية معينة واتباع أسلوب صياغة الردود وفقاً لمجموعة من المواصفات المحددة، ما يسهم في إنشاء روبوتات دردشة قادرة على إتمام مهام معينة مثل موظفي خدمة العملاء الآليين.

ولذلك أضافت الشركة إلى Gemini 1.5 Pro قدرات متطورة لإدراك الأوامر الصوتية والتفاعل بالصوت بشكل أكثر طبيعية، وأصبح هذا متاحاً للمطورين داخل واجهة المنصة البرمجية Gemini API، ومنصة Google AI Studio لتطوير الخدمات الرقمية بالذكاء الاصطناعي اعتماداً على نماذج جوجل الذكية.

كما تتوفر هذه الإمكانيات داخل الإصدار المتطور من مساعد جوجل الذكي Gemini Advanced، وحزمة تطبيقاتها المكتبية لقطاع الأعمال Google Workspace.

Gemini Nano يفهم الصور

وحصل نموذج Gemini Nano، المطور للعمل على الهواتف الذكية، على تحديث جديد سيجعله قادراً على فهم المعطيات غير النصية، مثل الصور.

وسيصل التحديث الجديد مبدئياً إلى هواتف Google Pixel من خلال التطبيقات التي تستخدم نموذج Gemini Nano with MultiModality الجديد.

وسيمنح التحديث الجديد Gemini Nano القدرة على فهم العالم عبر هواتف المستخدمين، وذلك عبر قدرات أعلى للرؤية الحاسوبية ما سيساعد Gemini على رؤية البيئة المحيطة بالمستخدم، وكذلك الاستماع للأصوات المختلفة، إضافة إلى فهم لغات تفاعل البشر الطبيعية.

مشروع Project Astra المستقبلي

وكشفت جوجل أيضاً عن رؤيتها المستقبلية بشأن المساعدين الصوتيين، من خلال مشروعها Project Astra الذي يعتمد على استخدام نموذج ذكي يفهم العالم اعتماداً على تحليل فوري لكل ما تراه عدسات كاميرات الهواتف أو النظارات الذكية، إلى جانب فهم وتحليل كل ما تراه، بحيث تتمكن من الإجابة عن أي تساؤل يطرحه المستخدم عن طريق الأوامر الصوتية.

ويستعرض المقطع المصور الذي شاركته الشركة موظفة جوجل وهي تتفاعل مع مساعد جوجل Gemini بينما يجيب عن أسئلتها، حيث وجهت عدسة الكاميرا ناحية مكبر صوتي، ورسمت على شاشتها متسائلة عن تسمية جزء معين من مكبر الصوت، ليجيب Gemini بأن الجزء المشار إليه هو السماعة.

ووجهت موظفة جوجل أيضاً عدسة الكاميرا إلى شاشة حاسوب تعرض سطور كودية، وتساءلت عن ماهية وظيفة الكود البرمجي، ليرد Gemini بأنها تتعلق بطريقة إنشاء وفك التشفير بأسلوب محدد.

وفي تجربة أخرى، رصدت عدسة كاميرا الهاتف الخاص بموظفة جوجل، نظارة ذكية بجوار تفاحة، فتساءلت عما إذا كان Gemini قد يعرف موضع النظارة دون توجيه عدسة الكاميرا مباشرة نحوها خلال طرح السؤال، وإذ به يتمكن من إرشادها إلى مكانها بشكل دقيق.

وجاء المقطع ليؤكد صدْق التوقعات بأن جوجل بالفعل تعمل على تطوير نظارة ذكية تقدم تجربة واقع معزز AR كاملة، مدعومة بـGemini، بحيث يمكن للمستخدم التساؤل عن أي شيء يراه وهو يردتي النظارة، ، ليتمكن مساعجد الشركة الذكي من الإجابة بردود صوتية، إضافة إلى إظهار الإجابة نصياً أمام عيني المستخدم.

وتحدَّثت جوجل عن أن إصدار المساعد الذكي المعروض في المقطع تم تطويره على قاعدة نماذج Gemini للذكاء الاصطناعي، إذ إنها تعمل على تطوير العديد من إصدارات المساعدين الأذكياء القادرين على تحليل الإطارات Frames داخل الفيديوهات، ومن ثم يتم دمجها مع الحديث المنطوق من جانب المستخدم، ليتم تحليلها بدقة، ما يسهم في تقديم المساعدين لردود سريعة ودقيقة تأخذ في حسبانها السياق الذي تجري خلاله المواقف.

وأشارت جوجل إلى أن عدداً من المزايا والقدرات الذكية للمساعدين الأذكياء AI Agents ستصل عبر عدد من تطبيقات جوجل، مثل تطبيق Gemini على الهواتف الذكية، وكذلك موقعها على الإنترنت بنهاية العام الجاري.

تصنيفات

قصص قد تهمك