
فاجأت شركة OpenAI مستخدمي ChatGPT بإطلاق نموذجها الجديد ChatGPT Images 2.0، لإنتاج الصور، والذي وصفته بأنه بداية حقبة جديدة في عالم إنتاج المحتوى المصور.
يتميز نموذج ChatGPT Images 2.0 بإمكانيات فائقة على مستوى التعامل مع العناصر المختلفة، وفهمه العالم الحقيقي، إلى جانب قدرته غير المسبوقة على التعامل مع المحتوى النصي داخل الصور، باعتباره جزءاً بصرياً لا يتجزأ من المحتوى.
يستند هذا التطور إلى رؤية مفادها أن الصور ليست مجرد عناصر تجميلية، بل لغة قائمة بذاتها؛ إذ يمكن للصورة الجيدة أن تؤدي ما تؤديه الجملة المحكمة، من اختيار وترتيب وإظهار، بل وقد تشرح آلية، وتنقل حالة شعورية، وتختبر فكرة، أو حتى تقدم حجة متكاملة.
ولتوسيع قدراته في المهام المعقدة، يمثل Images 2.0 أول نموذج صور مزود بقدرات تفكير ضمن ChatGPT، فعند اختيار نموذج يعتمد على التفكير Thinking Model، يصبح بإمكان Images 2.0 البحث عبر الإنترنت للحصول على معلومات آنية، وإنشاء عدة صور مختلفة انطلاقاً من طلب واحد، إضافة إلى مراجعة مخرجاته ذاتياً؛ كما يمكنه تولي جانب أكبر من عملية تحويل الفكرة إلى صورة، خاصة في الحالات التي تتطلب دقة، وتحديثاً مستمراً للمعلومات، وتناسقاً بصرياً عالياً.
وبفضل الجمع بين قدرات نماذج الاستدلال لدى OpenAI، وفهم واسع للعالم البصري، ينتقل النموذج من مجرد أداة للرسم إلى نظام بصري استراتيجي، يساعد المستخدمين على تحويل أفكارهم إلى مخرجات يمكن فهمها ومشاركتها، واستخدامها في التعليم والبناء عليها.
أداء ChatGPT Images 2.0
يقدم ChatGPT Images 2.0 مستوى أعلى من الدقة والتحكم، إذ يوفر درجة غير مسبوقة من التحديد، والوضوح في إنشاء الصور.
لا يكتفي نموذج Images 2.0 داخل ChatGPT بتصور أفكار أكثر تعقيداً، بل ينجح فعلياً في تحويلها إلى صور واقعية، مع القدرة على اتباع التعليمات، والحفاظ على التفاصيل المطلوبة، وإظهار العناصر الدقيقة التي غالباً ما تعجز عنها نماذج أخرى، مثل النصوص الصغيرة، والأيقونات، وعناصر واجهات المستخدم، والتكوينات البصرية الكثيفة، والقيود الأسلوبية الدقيقة في التصميم، وكل ذلك بدقة تصل إلى 2K، وبدلاً من الحصول على نتائج تقريبية، أصبح بإمكان المستخدم الحصول على مخرجات قابلة للاستخدام الفعلي مباشرة.
بالنسبة للغات، حقق النموذج تقدماً ملحوظاً في فهم رموز اللغات المختلفة غير اللاتينية، فبينما كانت النماذج السابقة أكثر اتساقاً في اللغة الإنجليزية، واللغات ذات الأبجدية اللاتينية، كانت دقتها أقل في اللغات الأخرى، خاصة عند التعامل مع نصوص معقدة.
لكن الإصدار الجديد يتجاوز هذه القيود عبر فهم متعدد اللغات أكثر قوة، وتحسينات كبيرة في عرض النصوص غير اللاتينية، لا سيما في اليابانية والكورية والصينية والهندية والبنغالية والعربية، كما أصبح قادراً على إنتاج صور تحتوي على نصوص غير إنجليزية، بشكل صحيح، ومتناسق لغوياً.
ولا يقتصر الأمر على ترجمة كلمات أو عناوين، بل يمتد إلى إنتاج مخرجات بصرية متكاملة تكون اللغة جزءاً أصيلاً من تصميمها، سواء في الملصقات أو الشروحات أو الرسوم التوضيحية والقصص المصورة؛ وهو ما يعزز من فائدة النموذج عالمياً، ويدعم المستخدمين في إنتاج محتوى بصري يتوافق مع لغاتهم الفعلية، بحسب الشركة.
وفي جانب التطور الأسلوبي والواقعية، يظهر Images 2.0 تحسناً كبيراً في جودة المخرجات عبر أنماط بصرية متعددة؛ إذ أصبح أكثر قدرة على التقاط السمات المميزة للصور، بما في ذلك العيوب الدقيقة التي تضيف طابعاً واقعياً، فضلاً عن إنتاج لقطات سينمائية، وفن إنشاء الصور بأسلوب البكسل، وأسلوب المانجا، وغيرها من اللغات البصرية المميزة، مع اتساق أكبر في الملمس والإضاءة والتكوين والتفاصيل الدقيقة.
ونتيجة لذلك، يستطيع النموذج تقديم مخرجات تعكس الأسلوب المطلوب بدقة أكبر، بدلاً من الاكتفاء بإنتاج تصميم بأسلوب قريب منه، ما يجعله مفيداً بشكل خاص في مجالات مثل تطوير الألعاب، ورسم القصص المصورة، والإبداع التسويقي، وإنشاء الأصول البصرية المتخصصة.
ويوفر النموذج مرونة في نسب أبعاد التصميم؛ إذ يتيح خيارات أوسع في كيفية إخراج الصور، مع دعم نسب تصل إلى 3:1 للمقاس الأفقي و1:3 للمقاس الرأسي، ويمكنه إنتاج صور جاهزة لمختلف الاستخدامات، من اللافتات العريضة والعروض التقديمية، إلى الملصقات، وشاشات الهواتف، والإشارات المرجعية، والرسوم الخاصة بمنصات التواصل الاجتماعي.
كما يمكن للمستخدم تحديد نسبة الأبعاد المطلوبة ضمن الطلب، أو اختيار إعدادات مسبقة لإعادة توليد الصور بأبعاد جديدة.
ذكاء أعلى مع الصور
ويقدم نموذج ChatGPT Images 2.0 فهماً أكثر حداثة للعالم في عملية توليد الصور، مع تحديث قاعدة المعرفة حتى ديسمبر 2025، ما يضمن مخرجات أكثر دقة وارتباطاً بالسياق.
ويكتسب ذلك أهمية خاصة في التطبيقات التي تتطلب دقة ووضوحاً، مثل الرسوم التوضيحية، والخرائط، والمواد التعليمية، والملخصات البصرية المعلوماتية.
ويتيح هذا التطور للنموذج تنفيذ مهام متكاملة مقارنة بما كان سابقاً إذ كان على المستخدم جمع المعلومات بنفسه، وإدخالها إلى أي منصة ذكاء اصطناعي لتحويل المعلومات إلى تصميمات بصرية، أما مع نموذج ChatGPT Images 2.0 أصبحت العملية آلية بالكامل، بدءاً من تحليل المعلومات وتجميعها، مروراً بكتابة النصوص، وصولاً إلى تحويلها إلى صور منظمة بصرياً، مع مراعاة المساحات البيضاء، وسهولة القراءة وانسيابية العرض.
وأخيراً، يقدم النموذج نفسه بوصفه شريكاً بصرياً في التفكير، فعند استخدامه مع نماذج التفكير المتقدمة داخل ChatGPT، يستغرق وقتاً أطول للعمل خلف الكواليس بهدف فهم المهمة وتنفيذها بشكل أكثر عمقاً؛ ويمكنه في هذا السياق البحث عبر الإنترنت عن المعلومات ذات الصلة، وتحويل المواد المرفوعة إلى شروحات بصرية واضحة، وتحليل بنية الصورة قبل إنتاجها.
إنتاجية أفضل بأمر واحد
وفي هذا النمط، يعمل Images 2.0 كشريك إبداعي يساعد على نقل المشروع من فكرة أولية إلى منتج نهائي مكتمل، مع تقليل الجهد المطلوب من المستخدم؛ كما يستطيع إنتاج عدة صور مختلفة في وقت واحد، في خطوة تمثل نقلة مقارنةً بآلية إنشاء صورة واحدة في كل مرة.
ويفتح ذلك المجال أمام سيناريوهات استخدام كانت معقدة سابقاً، مثل إنشاء سلسلة من صفحات المانجا، أو إعداد تصميمات متعددة لغرف منزل، أو تطوير مجموعة من الملصقات، أو إنتاج محتوى بصري متكامل لمواقع التواصل بلغات ونسب أبعاد مختلفة.
وبدلاً من إنشاء الصور بشكل منفصل وتجميعها يدوياً، يمكن للمستخدم طلب مجموعة متكاملة تصل إلى 10 مخرجات دفعة واحدة، مع الحفاظ على استمرارية العناصر والشخصيات بينها، بحيث تتكامل النتائج بشكل تسلسلي ومنسجم.
ويأتي الجيل الجديد من نماذج شركة OpenAI لتصميم الصور في توقيت تحتدم فيه المنافسة الشرسة بين الشركات في سوق إنشاء الصور بالذكاء الاصطناعي، خاصة مع تطور فكرة إنشاء المحتوى البصري من مجرد إنشاء صور تعبر عن الفكرة المطلوبة، إلى صور تعكس مفهوم الإبداع وتقترب من تجسيد الفكرة، وجعلها ملموسة وحقيقية وأقرب إلى الواقع، مع التعامل بدقة واحترافية غير مسبوقة مع النصوص.








