تعمل مجموعة "علي بابا" الصينية، على تطوير أداة لتوليد الفيديو تسمى Tora، تستند إلى إصدار مفتوح المصدر من نموذج Sora المطور بواسطة شركة OpenAI.
وكشف باحثو "علي بابا"، أنهم استخدموا نموذج OpenSora مفتوح المصدر، لتطوير أداة "تورا"، وهي إطار عمل لإنشاء الفيديوهات باستخدام أوامر نصية، وذلك ما نشره الباحثون في ورقة بحثية نُشرت الأسبوع الماضي من قبل مجموعة من خمسة باحثين في "علي بابا".
اعتمد الباحثون في تطوير أداة Tora على معمارية تُعرف باسم Diffusion Transformer (DiT)، وهي البنية الجديدة التي تشغل نموذج Sora، وهو إطار عمل يسمح بإنشاء فيديوهات استناداً إلى مسارات توجيه حركة العناصر داخل المقاطع، مثل سير شخص يركب دراجة هوائية في مسار محدد داخل مضمار سباق، بالإضافة إلى مراعاة العوامل المؤثرة في حركة العناصر في العالم الحقيقي.
أشار الباحثون، الذين وصفوا المشروع بأنه "مستمر"، إلى أنهم لم يحددوا موعداً لإتاحة الأداة الجديدة للاستخدام العام.
محركات ذكية صينية
تمثل هذه الخطوة من "علي بابا" أحدث جهد من عملاق التقنية الصيني، لإطلاق أدوات صينية منافسة لتوليد الفيديو مشابهة لنموذج Sora الخاص بـ OpenAI.
ففي فبراير الماضي، كشفت الشركة عن نموذج توليد الفيديو الذكي Emote Portrait Alive، أو EMO. والذي يمكنه تحويل ملف صوتي (سواء كان كلاماً بشرياً أو أغنية) مع صورة لوجه شخص، إلى فيديو يظهر فيه الشخص يتحدث أو يغني بصوته الأصلي بدقة عالية.
أشار الباحثون في ورقتهم البحثية، إلى أن النموذج يتميز بالقدرة على تحقيق مستوى عالي من الدقة في تحويل الصوت إلى فيديو دون الحاجة لاستخدام نماذج ثلاثية الأبعاد للوجه، مما يجعل العملية أسرع وأكثر كفاءة.
كما يقدم نموذج EMO، دقة فائقة في محاكاة حركات الوجه مع نطق الكلمات وحركة الشفاه والعينين، مما يعطي نتائج واقعية للغاية، بالإضافة إلى تحكم كامل في زوايا حركة الرأس.
وأوضح باحثو الشركة الصينية آنذاك أن النموذج قد تم تدريبه على 250 ساعة من الفيديوهات لأشخاص يتحدثون ويغنون، مما ساعده في التعرف على التغيرات الدقيقة التي تحدث في وجوه البشر أثناء النطق والغناء.
لم تذكر الورقة البحثية الجديدة، ما إذا كانت Tora سترتبط مع EMO أو Tongyi Qianwen، عائلة النماذج اللغوية الكبيرة التي طورتها "علي بابا".
يعد Tora أحد المحاولات الصينية لمنافسة Sora، حيث طرحت الشركة الناشئة الصينية Shengshu AI في يوليو نموذجها Vidu الذكي، والتي تتيح للمستخدمين المسجلين، توليد مقاطع بطول 4 أو 8 ثوانٍ، لتصبح أحدث لاعب في البلاد يقدم مثل هذه الخدمات للجمهور بعد Zhipu AI وKuaishou Technology.
جاء ذلك بعد أيام قليلة من إطلاق Zhipu AI، إحدى "نمور الذكاء الاصطناعي" الأربعة الجديدة في الصين، نموذج توليد الفيديو Ying، الذي يقبل التعليمات النصية والصور لتوليد مقاطع فيديو بطول 6 ثوانٍ في حوالي 30 ثانية.