ما الجديد في صور ChatGPT 2.0؟

أطلقت OpenAI ميزة ChatGPT Images 2.0 في 21 أبريل 2026، مدعومة بنموذج جديد يسمى gpt-image-2. يقرأ هذا النموذج موجهك، ويخطط للتصميم، ويعرض نصًا حادًا متعدد اللغات، ويمكنه إنتاج ما يصل إلى عشر صور في دفعة واحدة؛ كل ذلك بعرض يصل إلى 2000 بكسل وبنسب عرض إلى ارتفاع لم يدعمها نموذج الصور القديم مطلقًا.

بالنسبة للمطورين، ليس التحديث المرئي لواجهة مستخدم ChatGPT هو الخبر الرئيسي. بل هو أن gpt-image-2 متاح عبر واجهة برمجة تطبيقات OpenAI مع وضع "التفكير" الذي يدرك المنطق، وتسعير لكل رمز، ونفس نمط نقطة النهاية الذي تستخدمه بالفعل في الإنتاج.

يغطي هذا الدليل ما تغير، وتكاليف واجهة برمجة التطبيقات، وكيفية استدعائها من البداية إلى النهاية، وكيفية اختبارها باستخدام Apidog دون كتابة نصوص مؤقتة. إذا قمت بتقييم واجهات برمجة تطبيقات الصور السابقة وتراجعت لأن النص ظهر مشوهًا أو كانت الدقة محدودة بـ 1024، فابدأ من هنا.

زر

ما هو gpt-image-2؟

gpt-image-2 هو معرف النموذج لـ مولد الصور من الجيل الثاني لـ OpenAI، والذي تم إصداره جنبًا إلى جنب مع منتج ChatGPT Images 2.0 في 21 أبريل 2026. إنه يحل محل عائلة gpt-image-1 السابقة من جانب واجهة برمجة التطبيقات ويدعم إنشاء الصور داخل ChatGPT عبر الويب والجوال.

ثلاثة أشياء تجعله يستحق نظرة جديدة إذا كنت قد اختبرت آخر مرة إنشاء الصور من OpenAI في عامي 2024 أو 2025:

نص مقروء عبر النصوص. الآن يتم عرض تسميات واجهة المستخدم الصغيرة والشعارات والتسميات التوضيحية والنصوص غير اللاتينية (اليابانية والكورية والصينية والهندية والبنغالية) بوضوح كافٍ لإطلاقها دون الحاجة إلى إعادة رسم يدوية.
المنطق قبل البكسل. يقضي وضع "التفكير" (thinking) وقتًا إضافيًا في التخطيط للتركيب، وعد العناصر، والتحقق من القيود قبل العرض. تصف OpenAI ذلك بأن النموذج "يفكر" في الملخص؛ وفي الممارسة العملية، يقلل ذلك من عدد المطالبات التي تستهلكها في إعادة المحاولة بسبب أخطاء في عد الكائنات أو الرسوم البيانية الخاطئة.
دقة أعلى، مساحة أوسع. ما يصل إلى 2000 بكسل على الحافة الطويلة ونسب عرض إلى ارتفاع تصل إلى 3:1 أو 1:3، مما يتيح لك إنشاء لافتات وأغلفة شرائح ومقاطع فيديو عمودية قصيرة دون الحاجة إلى خطوة التكبير.

يصف تقرير OpenAI هذا على أنه قفزة من "لعبة إبداعية" إلى "أداة سير عمل مرئية"؛ تصميمات المجلات، الرسوم البيانية، قوالب الشرائح، وحتى لوحات المانجا.

ما الذي تغير مقارنةً بـ gpt-image-1

إذا كنت قد قمت بالبناء باستخدام نقطة نهاية صور OpenAI السابقة، فإليك الفروق المهمة على مستوى الكود.

القدرة	gpt-image-1	gpt-image-2
أقصى دقة	1024 بكسل	2000 بكسل على الحافة الطويلة
نسب العرض إلى الارتفاع	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
الصور لكل طلب	1	ما يصل إلى 10، مع اتساق الأسلوب
عرض النص	الإنجليزية فقط، وغالبًا ما يكون مشوهًا	متعدد اللغات، بما في ذلك نصوص CJK والهندية
وضع التفكير	لا	نعم (علامة `thinking`)
البحث في الويب أثناء الإنشاء	لا	نعم، في وضع التفكير

الوضع الدفعي هو التغيير الأكثر هدوءًا ولكنه الأكثر فائدة. يمكن أن تُرجع مطالبة واحدة عشرة أشكال مختلفة تشترك في التركيب واللوحة اللونية، وهي الطريقة التي يتكرر بها المصمم، وكيف يقوم فريق المنتج بإنشاء صور بطل متسقة عبر مجموعة من الصفحات.

التوفر والتسعير

عملية الطرح متعددة المستويات.

يحصل مستخدمو ChatGPT المجاني على نموذج gpt-image-2 القياسي.
يحصل المشتركون في ChatGPT Plus و Pro و Business على وضع التفكير، وتوليد منطقي أطول، والبحث في الويب أثناء الإنشاء.
يحصل مطورو واجهة برمجة التطبيقات على كلا الوضعين عبر معرف نموذج gpt-image-2. تم طرح التوفر على مراحل بعد إطلاق ChatGPT.

التسعير، حسب صفحة تسعير واجهة برمجة تطبيقات OpenAI، يعتمد على الرموز: 5 دولارات لكل مليون رمز نص إدخال، 10 دولارات لكل مليون رمز نص إخراج، 8 دولارات لكل مليون رمز صورة إدخال، و 30 دولارًا لكل مليون رمز صورة إخراج. عند العرض بجودة عالية قياسية 1024 × 1024، يبلغ ذلك حوالي 0.21 دولار للصورة؛ أي ما يقرب من 60 بالمائة أكثر من الجيل السابق، وهي تكلفة اللوحة الأكبر وخطوة التفكير المنطقي.

تجدر الإشارة إلى أن وضع التفكير يتم احتسابه على الرموز المنطقية الإضافية، لذا فإن رسم تخطيطي ذو وصف صارم للتصميم يكلف أكثر من مطالبة توضيحية فضفاضة. ضع ذلك في الميزانية بدلاً من افتراض سعر ثابت لكل صورة.

استدعاء واجهة برمجة التطبيقات

تتبع نقطة النهاية نفس نمط images/generations مثل النموذج السابق. يبدو الطلب الأدنى على النحو التالي:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

لتمكين مسار التفكير، قم بتمرير المعامل thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

تُرجع الاستجابة بيانات صورة base64 أو عناوين URL اعتمادًا على response_format الخاص بك؛ المخطط لم يتغير عن gpt-image-1، لذلك تستمر أغلفة SDK الموجودة في العمل بعد تبديل معرف النموذج.

إصدار بايثون باستخدام SDK الرسمي:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

ملاحظتان عمليتان من الاختبار:

يحتوي وضع التفكير على ثلاثة مستويات (منخفض، متوسط، مرتفع) توازن بين زمن الاستجابة ودقة التخطيط. بالنسبة للرسوم البيانية والجداول وأي صورة يجب أن تكون الأرقام فيها صحيحة، فإن متوسط هو الخيار الافتراضي المفيد.
يحافظ الإخراج الدفعي (n > 1) على اتساق الأسلوب داخل استدعاء واحد، لكنه يفقد الاتساق عبر الاستدعاءات المنفصلة. إذا كنت بحاجة إلى مجموعة متطابقة من عشرة، فاطلب عشرة في طلب واحد.

اختبار gpt-image-2 باستخدام Apidog

تكرار العمل على نموذج صور من سطر الأوامر أمر مؤلم؛ لا يمكنك معاينة النتائج أو تبديل المطالبات أو حفظ إصدارات منها. عميل API مخصص هو الأداة الصحيحة، وإذا كنت تستخدم بالفعل Postman أو أداة REST طرفية، ففكر في بديل مصمم خصيصًا يتعامل مع استجابات الصور بشكل طبيعي.

يتعامل Apidog مع نقطة نهاية صور OpenAI كطلب من الدرجة الأولى. يمكنك استيراد مواصفات OpenAI OpenAPI، وتعيين OPENAI_API_KEY كمتغير بيئة، ولصق موجهك في النص الأساسي، والضغط على إرسال. يتم عرض استجابات الصور مضمنة، بصيغة base64 أو URL، ويمكنك تفرع الطلب إلى متغيرات لمقارنة نسب العرض إلى الارتفاع ومستويات الجودة وأنماط التفكير جنبًا إلى جنب.

سير عمل مفيد:

أنشئ طلب gpt-image-2 في مجموعة Apidog.
احفظ بيئتين: واحدة بـ thinking: "off"، وواحدة بـ thinking: "medium".
شغّل نفس الموجه عبر كليهما، قارن المخرجات، واحتفظ بالفائز في مكتبة الموجهات الخاصة بك.
قم بتفرع المجموعة لكل نوع أصل (لافتة، غلاف شريحة، رسم بياني معلوماتي) بحيث يكون لكل منها مجموعة المعلمات الخاصة به والمُحسّنة.

يمكنك أيضًا ربط الاستدعاءات: أنشئ الصورة، ثم انشر عنوان URL إلى نقطة نهاية تحميل CDN الخاصة بك ضمن نفس تشغيل اختبار Apidog. هذا هو الجزء الذي لا تجيده نصوص curl.

إذا كنت تجري تجارب إنشاء الصور في عميل HTTP عام، فهنا يثبت نظام API الأساسي الحقيقي قيمته. قم بتنزيل Apidog ووجهه إلى مفتاح OpenAI الخاص بك؛ يستغرق الإعداد أقل من خمس دقائق.

أين لا يزال gpt-image-2 يواجه صعوبات

الإعلان قوي، لكن هناك قيود حقيقية.

لا تزال الوجوه الواقعية القريبة تتغير، خاصة بالنسبة للشخصيات العامة المعروفة. ترفض حواجز حماية الهوية في OpenAI العديد من تلك المطالبات بشكل مباشر.
أصول العلامة التجارية الدقيقة (الهندسة الدقيقة للشعار، الشخصيات المسجلة كعلامة تجارية) ليست موثوقة؛ استخدمها للمزاج العام، وليس لشحن علامات تجارية نهائية.
لا تزال الكتل النصية الطويلة جدًا (فقرات كاملة داخل صورة) تتفكك بعد بضع مئات من الأحرف. إنه مصمم للتسميات التوضيحية والعناوين والتصنيفات، وليس لعرض مقال كصورة.
لا يتم ضمان الاتساق عبر الجلسات. تحافظ ميزة الدفعة على الأسلوب داخل استدعاء واحد؛ ولكن استدعاء منفصل في اليوم التالي سيظهر اختلافًا حتى مع نفس الموجه الشبيه بالبذرة.

أشار كل من The Decoder و PetaPixel إلى قيود مماثلة في تقاريرهما العملية. اطلع على مراجعة The Decoder للحصول على تفصيل أطول.

مقارنته ببقية مجال توليد الصور لعام 2026

لا تعد OpenAI الوحيدة في مجال المنطق بالإضافة إلى الصور. تم شحن Nano Banana 2 من Google قبل أسابيع، وقد قلصت العديد من النماذج متعددة الأنماط مفتوحة الوزن الفجوة في عرض النص.

إذا كنت تقيّم بدائل من جانب واجهة برمجة التطبيقات، فإن بعض التمعنات العميقة ذات الصلة تستحق وقتك:

إعلان Qwen 3.5 Omni يغطي مبادرة علي بابا متعددة الأنماط، بما في ذلك إدخال الصور وتوليدها.
يشرح دليل GLM 5V Turbo API واجهة برمجة تطبيقات اللغة المرئية من Zhipu، وهي أرخص ولكنها تتنازل عن دقة النص.
كيفية استخدام Qwen 3.5 Omni هو الدليل العملي المصاحب لمنشور الإعلان.
يحلل تحليل Cursor Composer 2 كيف تعيد منتجات الذكاء الاصطناعي التي تعتمد على المنطق أولاً تشكيل تجربة المستخدم للأدوات؛ وهو نفس النمط الذي يدفع ChatGPT Images 2.0.
لإطلاق آخر قريب من OpenAI، اطلع على دليل Microsoft VibeVoice الخاص بنا.

اختر gpt-image-2 عندما تكون دقة النص، والمنطق على التركيب، والتكامل مع بقية حزمة OpenAI أهم من التكلفة. اختر نموذجًا متعدد الأنماط مفتوح الوزن عندما تحتاج إلى استضافة ذاتية، أو تكلفة أقل لكل صورة، أو ترخيص متساهل للإخراج التجاري.

الأسئلة الشائعة

هل gpt-image-2 متاح في الطبقة المجانية من ChatGPT؟ نعم. الوضع القياسي متاح لجميع مستخدمي ChatGPT. وضع التفكير، والاستدلال الموسع، والبحث في الويب أثناء الإنشاء مقتصر على Plus و Pro و Business. الوصول إلى واجهة برمجة التطبيقات منفصل ومرتبط بحساب مطور OpenAI الخاص بك؛ تنطبق نفس مستويات حدود المعدل التي تستخدمها بالفعل.

هل يدعم gpt-image-2 تحرير الصور والتلوين؟ يركز الإطلاق على تحويل النص إلى صورة مع وضعي الدفعة والتفكير. من المتوقع أن تتبع نقاط نهاية التحرير (صورة + قناع) نفس نمط الجيل السابق ولكن تحت معرف النموذج الجديد. تحقق من صفحة نموذج gpt-image-2 قبل البناء حول التلوين.

ما هي الدقة ونسب العرض إلى الارتفاع التي يدعمها؟ ما يصل إلى 2000 بكسل على الحافة الطويلة، مع نسب 1:1، 3:2، 2:3، 16:9، 9:16، 3:1، و 1:3. وهذا يغطي اللافتات الرئيسية، والمقاطع الرأسية القصيرة، ووسائل التواصل الاجتماعي المربعة، والصور العريضة على غرار LinkedIn دون خطوة التكبير.

كيف يمكنني اختبار طلبات gpt-image-2 بسرعة؟ استخدم عميل API مخصصًا. يعرض Apidog استجابات الصور مضمنة، ويخزن المطالبات كمتغيرات للمجموعة، ويتيح لك مقارنة أوضاع التفكير جنبًا إلى جنب. غالبًا ما تقوم الفرق التي تنتقل من سير عمل سطر الأوامر بدمجه مع دليلنا لاختبار API بدون Postman.

كم تكلف الصورة الواحدة عبر واجهة برمجة التطبيقات؟ حوالي 0.21 دولار عند جودة عالية 1024 × 1024 في الوضع القياسي. يضيف وضع التفكير رموزًا منطقية إضافية، لذا خطط لتكلفة متغيرة لكل صورة للمطالبات التي تتطلب تصميمًا مكثفًا. راجع صفحة تسعير OpenAI لمعرفة أسعار الرموز الدقيقة.

هل يمكن للنموذج البحث في الويب أثناء التوليد؟ نعم، في وضع التفكير. يمكن للنموذج سحب الصور المرجعية والحقائق في منتصف التوليد، مما يساعد في دقة الرسم التخطيطي (الرسوم البيانية ذات الأرقام الحقيقية، الخرائط ذات التسميات الصحيحة). الوضع القياسي لا يبحث.