فيديوهات تيك توك.. هل تشكل مستقبل الذكاء الاصطناعي؟

أيقونة تطبيق تيك توك تظهر على شاشة أحد الهواتف الذكية. 12 مارس 2024 - AFP - Getty Images via AFP
أيقونة تطبيق تيك توك تظهر على شاشة أحد الهواتف الذكية. 12 مارس 2024 - AFP - Getty Images via AFP
القاهرة-محمد عادل

باتت نماذج الذكاء الاصطناعي حالياً أشبه بالسيارات التي تحتاج إلى حرق الوقود لتأخذك إلى وجهتك، ووقود الذكاء الاصطناعي هو البيانات التي يمكن تدريب تلك النماذج عليها، لتتدرب وتتقن المهام المطورة لإنجازها.

لذلك تتسابق شركات التقنية العاملة في سوق الذكاء الاصطناعي نحو وضع أيديها على أي كلمة نصية أو ثانية من فيديو أو صورة رقمية، لاستخدامها لتدريب نماذجها لتكون أذكى من المنافسين.

لذلك عندما خرجت تقارير تكشف عن سعي المدير التنفيذي السابق لشركة Activision، بوبي كوتيك، إلى الاستحواذ على منصة "تيك توك"، وتضمنت قائمة كوتيك لممولي الصفقة اسم سام ألتمان، مؤسس ومدير أوبن إيه آي، لم يكن الأمر مفاجئاً أبداً.

التقرير وضعها صريحة بشأن هدف ألتمان من المشاركة في هذه الصفقة، المتوقع أن تكون قيمتها عشرات المليارات من الدولارات، وهو استخدام قاعدة تيك توك من الفيديوهات لتدريب نموذجها الذكي "سورا".

منجم ذهب

حاولت ميرا موراتي، المديرة التقنية بشركة "أوبن إيه آي"، أن تجيب على تساؤل جوانا ستيرن، محررة "وول ستريت جورنال"، بشأن البيانات التي تستخدمها شركتها لتدريب نموذجها الذكي المثير للجدل Sora، والمتخصص في إنشاء مقاطع فيديو من أوامر نصية، في حوار جمعهما معاً مؤخراً.

ولكن موراتي حاولت المراوغة ولم تكن محددة، فقالت: "استخدمنا جميع الفيديوهات المتاحة للعامة على الإنترنت، بجانب الفيديوهات التي لدينا ترخيص مدفوع لاستخدامها".

وركزت مديرة OpenAI التقنية على أن نموذج "سورا" سيخرج للنور نهاية هذا العام، لكن ذلك يتعلق بإجراء بعض التعديلات عليه لتقديم دقة أعلى لمحاكاة حركات اليدين وكذلك حل بعض المشاكل الخاصة بمدى دقة المشاهد وواقعيتها.

كل ذلك سيتحقق بمزيد من التدريب على بيانات ممثلة في كم ضخم من الفيديوهات المتنوعة، لكن جمع وبناء قاعدة بيانات بهذا الحجم ستستغرق وقت طويل، إلا إذا كانت جاهزة بالفعل، لدى منصة بحجم تيك توك.

قاعدة بيانات تيك توك من الفيديوهات ستكون بمثابة منجم ذهب بالنسبة لأوبن إيه آي، فمنصة الفيديوهات الشهيرة تستقبل أكثر من 34 مليون فيديو يومياً، أغلبها يعتمد على تصوير مشاهد للبشر يؤدون أنشطة مختلفة ما بين الساخر والراقص والمشوّق، وكذلك التعليمي والترويجي.

في ورقتها البحثية الخاصة بنموذج Sora، أوضحت "أوبن إيه آي" أن باحثيها يقومون ببناء "مُحاكيات للعالم World Simulators"، وذلك عبر تدريب نماذجها لإنشاء الفيديوهات من الأوامر النصية، مثل سورا، على فيديوهات لكل أنشطة البشر المتوفرة على الإنترنت، شرط أن تكون مقسمة بطريقة تقنية معينة، لتسهيل تعليم تلك النماذج وتحليلها الدقيق لجوانب وعناصر الفيديوهات المختلفة، مما يساعد النماذج على تخيُّل كل شيئ في العالم، ويجعلها قادرة على إنشاء فيديوهات جديدة كليا بدقة فائقة وبتفاصيل أقرب إلى الواقع.

الخلطة السرية

عندما تدخل إلى تيك توك لأول مرة، سيبدأ بعرض مجموعة من الفيديوهات القصيرة أمامك، وتبدأ عملية إنشاء سجل مشاهداتك لدى الخدمة، فيتم التعرف بدقة فائقة على نوعية الفيديوهات التي تعجبك والمدة التي تقضيها أمامها، وكذلك ما لا يعجبك منها، والتفاصيل الدقيقة للفيديوهات المفضلة لديك.

مسألة التفاصيل الدقيقة للفيديوهات ليست تعبيرا مجازيا، فمنصة تيك توك تستخدم الذكاء الاصطناعي تقريبًا في جميع أنحاء الخدمة، وخاصة في تحليل الفيديوهات التي يشاهدها المستخدمون.

منصة الفيديوهات تستخدم شكلين للذكاء الاصطناعي لفهم طريقة تصفح المستخدم للفيديوهات على متنها، الأولى هي أنظمة الرؤية الحاسوبية Computer Vision، فخورازميات المنصة تحلل بدقة جميع العناصر الواردة في الفيديوهات التي تعجب المستخدم والتي ينفُر منها، بحيث تتعرف على عناصرها بشكل تفصيلي، وذلك يجعل خوارزميات تيك توك تفهم مختلف أشكال وأبعاد العناصر المتواجدة في العالم، وذلك يتقارب كثيرا مع مفهوم أوبن إيه آي بشأن بناء "مُحاكيات للعالم".

تيك توك تستخدم أنظمة الذكاء الاصطناعي لفهم وتحليل تفضيلات المستخدمين لاقتراح مقاطع فيديو تعجبهم وتبقيهم داخل المنصة لأطول فترة ممكنة
تيك توك تستخدم أنظمة الذكاء الاصطناعي لفهم وتحليل تفضيلات المستخدمين لاقتراح مقاطع فيديو تعجبهم وتبقيهم داخل المنصة لأطول فترة ممكنة - TikTok

النوع الثاني من الأنظمة الذكية لدى تيك توك هي أنظمة معالجة اللغات NLP، وذلك اختصار لـ Natural Language Processing، والتي تسمح لخوارزميات المنصة فهم جميع الأحاديث والموسيقى والأصوات، التي يسمعها المستخدم في أصوات الفيديوهات، وبالتالي تصبح هناك سمات صوتية للفيديوهات المفضلة أو المكروهة لدى المستخدم، وذلك النوع من الأنظمة أيضاً سيكون مفيداً لأوبن إيه، حيث أن موراتي أوضحت أن الشركة تعمل على جعل الفيديوهات المُنشأة بواسطة Sora ستكون حاملة لأصوات منتجات بالذكاء الاصطناعي أيضاً.

الخوارزميات المذكورة تساعد تيك توك على تقديم مجموعة من الفيديوهات المقترحة أمام المستخدم في تبويب For You، تضمن تحقيق أهم هدفين، وهما ضمان تحقيق حالة الرضا لدى المستخدم وبالتالي عودته من جديد للتطبيق User Retention، والهدف الثاني هو إبقائه لأطول وقت ممكن داخل التطبيق.

فهم الأنظمة الذكية للعالم من حولنا هو أساس نماذج الذكاء الاصطناعي مثل Sora، لذلك فشبكات الفيديوهات مثل تيك توك ويوتيوب وغيرهم، لديهم أفضلية على بقية الشبكات الاجتماعية، لأنهم بالفعل لديهم أفضلية فيما يتعلق بأبحاث الذكاء الاصطناعي وتطبيقها على تحليل وفهم الفيديوهات، وهو ما تستعين به كذلك شركات الروبوتات لجعلها قادرة هي الأخرى على فهم العالم والتفاعل مع البشر.

تصنيفات

قصص قد تهمك