أعلنت شركة DeepSeek الناشئة الصينية عن نموذجها للذكاء الاصطناعي مفتوح المصدر Janus-Pro-7B، والذي تفوَّق بشكل جزئي على نماذج منافسة مثل DALL-E 3 من OpenAI، وStable Diffusion من Stability AI، وذلك وفقاً لاختبارات معيارية لتوليد الصور.
وأوضحت الشركة أن النموذج الجديد تفوق في التصنيفات الخاصة بتوليد الصور بناء على الأوصاف النصية، ما يعزز مكانة DeepSeek كأحد اللاعبين الرئيسيين في هذا المجال، بحسب تدوينة الشركة على حسابها الرسمي على موقع GitHub.
تحسينات رئيسية
حسَّنت الشركة الصينية استراتيجية التدريب لجعل النموذج أكثر كفاءة في التعلم، وبدلاً من الاعتماد على مراحل تدريب متعددة ببيانات مختلفة، تم التركيز على تدريب موحد باستخدام بيانات عالية الجودة.
وعززت هذه الاستراتيجية من استقرار تفاصيل الصور المولّدة، وأثَّرت بشكل إيجابي على دقة التفاصيل التي ينتجها النموذج.
كما توسعت الشركة في البيانات المستخدمة لتدريب النموذج، إذ أضافت 72 مليون صورة اصطناعية عالية الجودة إلى مجموعة البيانات، ودمجتها مع بيانات حقيقية. وساهم هذا التوسع في تحسين قدرة النموذج على التعامل مع مهام متنوعة وتوليد صور أكثر دقة واستقراراً.
يتوفر Janus-Pro بنسختين رئيسيتين، الأولى تحتوي على مليار وحدة (1B)، والثانية الأكبر تحتوي على 7 مليارات وحدة (7B).
بينما تتميز النسخة الأكبر بقدرتها على فهم المهام الأكثر تعقيداً، بالإضافة إلى تحسين سرعة التدريب ودقة المهام.
قدرات متطورة
يتميز النموذج بقدرته على فهم النصوص والصور معاً، إذ يمكنه الإجابة عن أسئلة بشأن محتوى الصور، أو التعرف على الأشياء والمشاهد المختلفة الموجودة فيها، كما يستطيع Janus-Pro، إنشاء صور بناء على أوصاف نصية مفصَّلة.
وعلى سبيل المثال، إذا وصف المستخدم مشهداً يحتوي على "كلب مستلقٍ على شرفة خشبية مع أوراق الخريف"، فإن النموذج قادر على إنتاج صورة دقيقة تتوافق مع هذا الوصف.
وحقق نموذج Janus-Pro-7B نتائج متميزة في اختبارات معيارية متعددة، فعلى مستوى ما يتعلق بفهم الوسائط المتعددة سجَّل النموذج 79.2 نقطة على مقياس MMBench، متفوقاً على الجيل السابق من Janus (69.4 نقطة) ونموذج MetaMorph (75.2 نقطة).
بينما في توليد الصور من النصوص، سجَّل 0.80 نقطة على مقياس GenEval، متفوقاً على DALL-E 3 من OpenAI (0.67 نقطة)، وStable Diffusion 3 Medium من Stability AI (0.74 نقطة).
يأتي الإعلان عن Janus Pro ليكون بمثابة "الصفعة الثانية" التي توجهها شركة DeepSeek إلى عمالقة التقنية الأميركية، إذ تسبب الصعود الصاروخي لتطبيق المنصة الذكية DeepSeek المنافسة لـ ChatGPT إلى قمة متجر أبل، على مستوى التطبيقات الأكثر تحميلاً، في خسائر فادحة لأسهم البورصة الأميركية، خاصة الشركات العاملة في قطاع الذكاء الاصطناعي وعلى رأسها "إنفيديا" (NVIDIA) التي خسرت من قيمتها السوقية 560 مليار دولار.
قيود على الأداء
على الرغم من أدائه المميز، إلا أن النموذج يواجه حالياً بعض القيود، إذ يولّد صوراً بدقة 384x384 بكسل فقط، مما يحد من مستوى التفاصيل الدقيقة في الصور الناتجة، فعلى سبيل المثال، قد تكون ملامح الوجه الصغيرة غير واضحة بما يكفي.
ولا يزال النموذج يواجه تحديات في أداء المهام التي تتطلب دقة عالية، مثل قراءة النصوص داخل الصور (OCR) بسبب قيود الدقة الحالية.
يذكر أن الشركة الصينية نشرت على مدونتها الرسمية أن منصتها الذكية DeepSeek تتعرض لهجوم موسع وضخم من هجمات رفض الخدمة DDoS، مما تسبب في تعطل المنصة وصعوبة استخدامها بشكل طبيعي من جانب عدد من المستخدمين حول العالم.