OpenAI تطلق ChatGPT Images 2.0 — أول نموذج صور يُفكّر قبل أن يرسم

أطلقت شركة OpenAI يوم 21 أبريل 2026 نموذج ChatGPT Images 2.0 المدعوم بمحرك الصور الجديد gpt-image-2، ليصبح متاحاً عبر ChatGPT و Codex وواجهة API. يُمثّل هذا الإطلاق أوّل مرّة يدمج فيها مولّد صور إنتاجي مرحلة تفكير صريحة، حيث يقوم النموذج بالتخطيط للتركيب والمحتوى والنيّة قبل توليد أي بكسل.

تجاوز إعلان OpenAI على منصة X حاجز 33 ألف منشور خلال 24 ساعة، حيث أشاد المطوّرون بقدرة النموذج على عرض النصوص الصغيرة وعناصر الواجهات الرقمية الكثيفة بدقة عالية. وسيتمّ إيقاف نموذجَي DALL-E 2 و DALL-E 3 رسمياً في 12 ماي، لتُطوى معهما حقبة أدوات التوليد التقليدية القائمة على الانتشار (diffusion).

أبرز النقاط

نموذج gpt-image-2 الجديد يُدمج وضع "التفكير" بثلاث مستويات: منخفض ومتوسّط وعالي، يوازن بين السرعة ودقّة التصميم
دقّة عرض 2K تصل إلى 2000 بكسل على الحافّة الطويلة، أي ضعف الحدّ السابق في gpt-image-1
قدرة على توليد ما بين 8 و 10 صور متّسقة في طلب واحد مع الحفاظ على شخصيّات وعناصر موحّدة
دعم متعدّد اللغات في تصيير النصوص: اليابانية، الكورية، الصينية، الهندية، والبنغالية
إيقاف DALL-E 2 و DALL-E 3 مُحدّد ليوم 12 ماي 2026

التفكير قبل الرسم

في تحوّل يُشبه الثورة الاستدلالية التي شهدتها نماذج النصوص، يُدخل gpt-image-2 طبقة تخطيط داخل خطّ أنابيب توليد الصور. فبدلاً من تحويل الأمر مباشرةً إلى مخرج انتشاري، يقوم النموذج أوّلاً بالاستدلال حول ما يجب رسمه، ويرسم القيود، ويختار التركيب، وعند التفعيل يُجري عمليات بحث على الويب في منتصف الإنتاج للتحقّق من الحقائق والمراجع.

كتبت OpenAI في منشور الإطلاق: "الصور لغة، ليست زخرفة." ويتوفّر خيار التفكير بثلاثة مستويات من الجهد، ما يمنح المطوّرين تحكّماً في مقدار زمن الاستدلال الذي يُضحّون به مقابل دقّة التركيب.

المواصفات التقنية والتسعير

تعتمد واجهة API نموذج تسعير قائم على الرموز المألوف:

رموز نصّ الإدخال: 5 دولارات لكل مليون
رموز نصّ الإخراج: 10 دولارات لكل مليون
رموز صور الإدخال: 8 دولارات لكل مليون
رموز صور الإخراج: 30 دولاراً لكل مليون
تكلفة تصيير صورة قياسية بدقّة 1024×1024 عالية الجودة تبلغ حوالي 0.21 دولاراً

يتحمّل وضع التفكير رسوماً إضافيّة حسب رموز الاستدلال المستهلكة. وتشمل نسب العرض المدعومة 1:1، و3:2، و2:3، و16:9، و9:16، إضافةً إلى النسب العريضة جداً 3:1 و1:3.

فئات الإتاحة

يحصل مستخدمو ChatGPT المجاني على النموذج الأساسي gpt-image-2. أمّا مشتركو ChatGPT Plus و Pro و Business فيفتحون وضع التفكير، وفترات استدلال أطول، والبحث على الويب خلال التوليد. والنموذج متاح في الوقت ذاته عبر بيئة Codex وواجهة API العامّة، في نمط توزيع باتت OpenAI تعتمده لدفع وصول المنتج والمطوّر بالتوازي.

الأثر على المنظومة الإبداعية

أبرزت ردود الفعل الأولى من المطوّرين قدرتين تفتحان آفاق عمل جديدة: الطباعة متعدّدة اللغات، واتّساق الصور المتسلسلة. فقد أفاد مطوّر تايلاندي بأنّ النموذج أنتج شرائح عرض بلغة التاي قابلة للقراءة من المحاولة الأولى، وهو موضع فشل معروف في أنظمة الانتشار السابقة. وأشار آخرون إلى إمكانية توليد شخصيّة والحفاظ على تناسقها البصري عبر تسلسل يصل إلى 10 صور، وهي ميزة تُقلّل الحاجة إلى حلول ControlNet في التسويق والتجارة الإلكترونية وإنتاج القصص المصوّرة.

كما يضع فريق سام ألتمان الإصدار كورقة ضغط تنافسية على Midjourney و Stability ومنتجات Imagen من Google، التي اعتمدت كلّها على الانتشار دون حلقة استدلال صريحة.

الخلفية

بدأت أدوات الصور في OpenAI مع DALL-E سنة 2021، وتطوّرت عبر DALL-E 2 و DALL-E 3 و gpt-image-1. وأضاف كلّ جيل مزيداً من الدقّة، لكنّ أيّاً منها لم يكشف خطوة استدلالية. ويُجسّد التحوّل نحو التفكير المُدمج ما فعلته OpenAI مع o1 و GPT-5 في النصّ: التعامل مع حوسبة زمن الاستدلال رافعةً للجودة، لا مجرّد تكلفة.

وصف محلّلون في Startup Fortune الإطلاق بأنّه "يرفع سقف التعقيد في التوليد ويُجبر المنافسين على الردّ." ووصفه داريل ك. تافت من The New Stack بأنّه اللحظة التي "باتت فيها OpenAI تُفكّر قبل أن ترسم."

ما التالي

مع تقليص DALL-E 2 و DALL-E 3 خلال ثلاثة أسابيع، سيتعيّن على الفرق التي تستخدم النقاط القديمة الانتقال قبل 12 ماي. وأشارت OpenAI إلى أنّ نقاط نهاية التحرير بالصور والأقنعة ستتبع النمط الاستدلالي ذاته في تحديث مقبل. وينتظر أن ترث الفيديو والصوت الأداة الأوّلية نفسها "التفكير" خلال الأشهر القادمة، مكملةً التحوّل نحو بنية موحّدة تعتمد الاستدلال أوّلاً عبر كامل الواجهات التوليدية.

المصدر: OpenAI — إعلان ChatGPT Images 2.0