ChatGPT Images 2.0 มีอะไรใหม่

OpenAI ได้เปิดตัว ChatGPT Images 2.0 เมื่อวันที่ 21 เมษายน 2026 ซึ่งขับเคลื่อนด้วยโมเดลใหม่ที่เรียกว่า gpt-image-2 โดยจะอ่านพรอมต์ของคุณ วางแผนเลย์เอาต์ แสดงผลข้อความได้คมชัดหลายภาษา และสามารถสร้างภาพได้สูงสุดสิบภาพในครั้งเดียว ทั้งหมดนี้มีความกว้างสูงสุดถึง 2,000 พิกเซล และมีอัตราส่วนภาพที่โมเดลภาพเก่าไม่เคยรองรับ

สำหรับนักพัฒนา สิ่งสำคัญไม่ใช่การปรับปรุง UI ของ ChatGPT แต่คือการที่ gpt-image-2 ถูกเปิดเผยผ่าน OpenAI API ด้วยโหมด "คิด" (thinking) ที่รับรู้การให้เหตุผล การกำหนดราคาตามโทเค็น และรูปแบบปลายทาง (endpoint) เดียวกันกับที่คุณใช้งานอยู่ในการผลิต

คู่มือนี้ครอบคลุมถึงสิ่งที่เปลี่ยนแปลงไป ค่าใช้จ่ายของ API วิธีเรียกใช้งานแบบ end-to-end และวิธีทดสอบด้วย Apidog โดยไม่ต้องเขียนสคริปต์แบบใช้แล้วทิ้ง หากคุณเคยประเมิน API รูปภาพรุ่นก่อนหน้าแล้วเลิกใช้ไปเพราะข้อความบิดเบี้ยวหรือไม่ชัด หรือความละเอียดสูงสุดอยู่ที่ 1024 พิกเซล ให้เริ่มที่นี่ได้เลย

ปุ่ม

gpt-image-2 คืออะไร?

gpt-image-2 คือ ID โมเดลสำหรับ เครื่องมือสร้างภาพรุ่นที่สองของ OpenAI ซึ่งเปิดตัวพร้อมกับผลิตภัณฑ์ ChatGPT Images 2.0 เมื่อวันที่ 21 เมษายน 2026 โดยมาแทนที่ตระกูล gpt-image-1 รุ่นก่อนหน้าในส่วนของ API และขับเคลื่อนการสร้างภาพภายใน ChatGPT ทั้งบนเว็บและมือถือ

มีสามสิ่งที่คุณควรพิจารณาอีกครั้ง หากครั้งสุดท้ายที่คุณทดสอบการสร้างภาพของ OpenAI คือในปี 2024 หรือ 2025:

ข้อความอ่านง่ายในทุกสคริปต์ ป้ายกำกับ UI ขนาดเล็ก โลโก้ คำบรรยาย และสคริปต์ที่ไม่ใช่ภาษาละติน (ญี่ปุ่น เกาหลี จีน ฮินดี เบงกาลี) สามารถแสดงผลได้อย่างสะอาดตาเพียงพอที่จะนำไปใช้งานได้ทันทีโดยไม่ต้องแก้ไขด้วยมืออีก
การให้เหตุผลก่อนสร้างภาพ โหมด thinking ใช้พลังประมวลผลพิเศษในการวางแผนองค์ประกอบ การนับจำนวนสิ่งของ และการตรวจสอบข้อจำกัดก่อนที่จะสร้างภาพ OpenAI อธิบายว่าเป็นการที่โมเดล "คิด" เกี่ยวกับข้อมูลที่ได้รับ ซึ่งในทางปฏิบัติแล้วจะช่วยลดจำนวนครั้งที่คุณต้องสร้างพรอมต์ใหม่เนื่องจากจำนวนวัตถุผิดพลาดหรือแผนภาพที่ติดป้ายผิด
ความละเอียดสูงขึ้น พื้นที่สร้างภาพกว้างขึ้น สูงสุด 2,000 พิกเซลในด้านที่ยาวกว่า และอัตราส่วนภาพที่หลากหลาย เช่น 3:1 หรือ 1:3 ซึ่งช่วยให้คุณสร้างแบนเนอร์ หน้าปกสไลด์ และวิดีโอสั้นแนวตั้งได้โดยไม่ต้องทำการอัปสเกล

บทความของ OpenAI เองระบุว่านี่คือการก้าวกระโดดจาก “ของเล่นสร้างสรรค์” ไปสู่ “เครื่องมือเวิร์กโฟลว์ด้านภาพ”; ไม่ว่าจะเป็นหน้าปกนิตยสาร อินโฟกราฟิก เทมเพลตสไลด์ หรือแม้แต่ช่องการ์ตูนมังงะ

มีอะไรเปลี่ยนแปลงเมื่อเทียบกับ gpt-image-1

หากคุณเคยพัฒนาโดยใช้ endpoint รูปภาพของ OpenAI รุ่นก่อนหน้า นี่คือความแตกต่างที่สำคัญในระดับโค้ด

ความสามารถ	gpt-image-1	gpt-image-2
ความละเอียดสูงสุด	1024 พิกเซล	2,000 พิกเซลในด้านที่ยาวกว่า
อัตราส่วนภาพ	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
จำนวนภาพต่อคำขอ	1	สูงสุด 10 ภาพ พร้อมความสอดคล้องของสไตล์
การแสดงผลข้อความ	ภาษาอังกฤษเท่านั้น, มักจะบิดเบี้ยว	หลายภาษา รวมถึง CJK และสคริปต์ภาษาอินเดีย
โหมดการให้เหตุผล	ไม่มี	มี (`thinking` flag)
การค้นหาเว็บระหว่างการสร้าง	ไม่มี	มี, ในโหมด thinking

โหมดแบตช์เป็นการเปลี่ยนแปลงที่เงียบที่สุดแต่มีประโยชน์มากที่สุด พรอมต์เดียวสามารถส่งคืนภาพที่แตกต่างกันสิบแบบที่ใช้การจัดองค์ประกอบและชุดสีเดียวกัน ซึ่งเป็นวิธีที่นักออกแบบใช้ในการปรับปรุงงาน และเป็นวิธีที่ทีมผลิตภัณฑ์สร้างภาพฮีโร่ที่สอดคล้องกันในชุดหน้าเว็บ

ความพร้อมใช้งานและราคา

การเปิดตัวเป็นแบบแบ่งระดับ

ผู้ใช้ ChatGPT ฟรี จะได้รับโมเดล gpt-image-2 มาตรฐาน
สมาชิก ChatGPT Plus, Pro และ Business จะได้รับโหมด thinking การประมวลผลเหตุผลที่ยาวนานขึ้น และการค้นหาเว็บระหว่างการสร้างภาพ
นักพัฒนา API จะได้รับทั้งสองโหมดผ่าน gpt-image-2 model ID ความพร้อมใช้งานจะถูกจัดลำดับหลังจากการเปิดตัว ChatGPT

การกำหนดราคา ตาม หน้าการกำหนดราคา OpenAI API จะคิดตามโทเค็น: 5 ดอลลาร์ต่อหนึ่งล้านโทเค็นข้อความนำเข้า, 10 ดอลลาร์ต่อหนึ่งล้านโทเค็นข้อความส่งออก, 8 ดอลลาร์ต่อหนึ่งล้านโทเค็นภาพนำเข้า และ 30 ดอลลาร์ต่อหนึ่งล้านโทเค็นภาพส่งออก ในการเรนเดอร์คุณภาพสูงขนาด 1024 × 1024 พิกเซลมาตรฐาน จะมีราคาประมาณ 0.21 ดอลลาร์ต่อภาพ; ซึ่งสูงกว่ารุ่นก่อนหน้าประมาณ 60 เปอร์เซ็นต์ ซึ่งเป็นค่าใช้จ่ายสำหรับพื้นที่สร้างภาพที่ใหญ่ขึ้นและขั้นตอนการให้เหตุผล

ข้อควรทราบ: โหมด thinking จะถูกเรียกเก็บเงินตามโทเค็นการให้เหตุผลเพิ่มเติม ดังนั้นแผนภาพที่มีคำสั่งเค้าโครงที่เข้มงวดจะมีค่าใช้จ่ายมากกว่าพรอมต์ภาพประกอบทั่วไปที่ไม่มีข้อกำหนดมากนัก ควรตั้งงบประมาณสำหรับสิ่งนี้แทนที่จะคิดอัตราคงที่ต่อภาพ

การเรียกใช้งาน API

endpoint ยังคงใช้รูปแบบ images/generations เช่นเดียวกับโมเดลรุ่นก่อนหน้า คำขอขั้นต่ำมีลักษณะดังนี้:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

หากต้องการเปิดใช้งานเส้นทางการให้เหตุผล ให้ส่งพารามิเตอร์ thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

การตอบกลับจะส่งคืนข้อมูลภาพในรูปแบบ base64 หรือ URL ขึ้นอยู่กับ response_format ของคุณ; สคีมาไม่เปลี่ยนแปลงจาก gpt-image-1 ดังนั้น wrappers ของ SDK ที่มีอยู่จะยังคงทำงานได้หลังจากเปลี่ยน ID โมเดล

เวอร์ชัน Python ที่ใช้ SDK อย่างเป็นทางการ:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

ข้อสังเกตเชิงปฏิบัติสองประการจากการทดสอบ:

โหมด thinking มีสามระดับ (`low`, `medium`, `high`) ซึ่งเป็นการแลกเปลี่ยนระหว่างเวลาแฝงกับความแม่นยำของเค้าโครง สำหรับแผนภูมิ ตาราง และภาพใดๆ ที่ต้องการความถูกต้องของตัวเลข `medium` เป็นค่าเริ่มต้นที่มีประโยชน์
ผลลัพธ์แบบแบตช์ (`n > 1`) จะรักษาความสอดคล้องของสไตล์ภายในคำขอเดียว แต่จะสูญเสียความสอดคล้องหากเป็นการเรียกใช้แยกกัน หากคุณต้องการชุดภาพสิบภาพที่เข้ากัน ให้ขอทั้งสิบภาพในคำขอเดียว

การทดสอบ gpt-image-2 ด้วย Apidog

การปรับปรุงโมเดลภาพจากบรรทัดคำสั่งเป็นเรื่องที่ยากลำบาก คุณไม่สามารถดูตัวอย่างผลลัพธ์ สลับพรอมต์ หรือจัดการเวอร์ชันได้ ไคลเอนต์ API เฉพาะทางคือเครื่องมือที่เหมาะสม และหากคุณใช้ Postman หรือเครื่องมือ REST แบบเทอร์มินัลอยู่แล้ว ลองพิจารณาทางเลือกที่สร้างขึ้นมาโดยเฉพาะที่สามารถจัดการกับการตอบกลับของรูปภาพได้โดยตรง

Apidog ถือว่า endpoint รูปภาพของ OpenAI เป็นคำขอระดับเฟิสต์คลาส คุณนำเข้าข้อมูลจำเพาะ OpenAI OpenAPI ตั้งค่า `OPENAI_API_KEY` เป็นตัวแปรสภาพแวดล้อม วางพรอมต์ของคุณลงในส่วนเนื้อหา และกดส่ง การตอบกลับของรูปภาพจะแสดงผลแบบอินไลน์ ไม่ว่าจะเป็น base64 หรือ URL และคุณสามารถแยกคำขอออกเป็นรูปแบบต่างๆ เพื่อเปรียบเทียบอัตราส่วนภาพ ระดับคุณภาพ และโหมด thinking ได้พร้อมกัน

เวิร์กโฟลว์ที่เป็นประโยชน์:

สร้างคำขอ gpt-image-2 ใน Apidog collection
บันทึกสองสภาพแวดล้อม: หนึ่งพร้อม thinking: "off" และอีกหนึ่งพร้อม thinking: "medium"
เรียกใช้พรอมต์เดียวกันผ่านทั้งสองแบบ เปรียบเทียบผลลัพธ์ และเก็บผลลัพธ์ที่ดีที่สุดไว้ในไลบรารีพรอมต์ของคุณ
แยกคอลเลกชันสำหรับแต่ละประเภทสินทรัพย์ (แบนเนอร์, หน้าปกสไลด์, อินโฟกราฟิก) เพื่อให้แต่ละประเภทมีชุดพารามิเตอร์ที่ปรับแต่งเอง

คุณยังสามารถเชื่อมโยงการเรียกใช้งานได้: สร้างภาพ จากนั้นโพสต์ URL ไปยัง endpoint อัปโหลด CDN ของคุณภายใน Apidog test run เดียวกัน นี่คือส่วนที่สคริปต์ curl ทำได้ไม่ดีนัก

หากคุณเคยทำการทดลองสร้างภาพในไคลเอนต์ HTTP ทั่วไป นี่คือจุดที่แพลตฟอร์ม API ที่แท้จริงพิสูจน์คุณค่าของมัน ดาวน์โหลด Apidog และเชื่อมต่อกับคีย์ OpenAI ของคุณ; การตั้งค่าใช้เวลาน้อยกว่าห้านาที

ข้อจำกัดของ gpt-image-2

การประกาศนี้ดูแข็งแกร่ง แต่ก็ยังมีข้อจำกัดที่แท้จริงอยู่

ใบหน้าเสมือนจริงในระยะใกล้ ยังคงมีปัญหา โดยเฉพาะอย่างยิ่งสำหรับบุคคลสาธารณะที่มีชื่อเสียง มาตรการป้องกันการระบุตัวตนของ OpenAI ปฏิเสธพรอมต์จำนวนมากเหล่านี้โดยสิ้นเชิง
สินทรัพย์แบรนด์ที่แม่นยำ (รูปทรงโลโก้ที่แน่นอน ตัวละครที่มีเครื่องหมายการค้า) ไม่น่าเชื่อถือ; ควรใช้เพื่อสร้างบรรยากาศ ไม่ใช่เพื่อสร้างเครื่องหมายการค้าสุดท้าย
บล็อกข้อความขนาดยาวมาก (ย่อหน้าเต็มในภาพ) ยังคงมีปัญหาเมื่อเกินสองสามร้อยตัวอักษร มันถูกออกแบบมาสำหรับคำบรรยาย หัวเรื่อง และป้ายกำกับ ไม่ใช่สำหรับการแสดงผลบทความเป็นภาพ
ความสอดคล้องข้ามเซสชัน ไม่ได้รับการรับประกัน ฟีเจอร์แบตช์จะรักษาสไตล์ภายในคำขอเดียว; แต่การเรียกใช้แยกต่างหากในวันถัดไปจะมีความคลาดเคลื่อนได้ แม้จะใช้พรอมต์ที่คล้าย seed เดียวกันก็ตาม

ทั้ง The Decoder และ PetaPixel ต่างก็ระบุข้อจำกัดที่คล้ายกันในบทความภาคปฏิบัติของพวกเขา ดู บทวิจารณ์ของ The Decoder สำหรับการวิเคราะห์ที่ละเอียดขึ้น

เปรียบเทียบกับเครื่องมือสร้างภาพอื่นๆ ในปี 2026

OpenAI ไม่ได้โดดเดี่ยวในพื้นที่การให้เหตุผลบวกกับภาพ Nano Banana 2 ของ Google ได้เปิดตัวไปก่อนหน้านี้หลายสัปดาห์ และโมเดล multimodal แบบ open-weight หลายตัวก็ได้ลดช่องว่างในด้านการแสดงผลข้อความลงแล้ว

หากคุณกำลังประเมินทางเลือกอื่นในส่วนของ API บทความเชิงลึกที่เกี่ยวข้องต่อไปนี้จะคุ้มค่ากับเวลาของคุณ:

ประกาศ Qwen 3.5 Omni ครอบคลุมการผลักดัน multimodal ของ Alibaba ซึ่งรวมถึงการป้อนข้อมูลภาพและการสร้างภาพ
คู่มือ GLM 5V Turbo API จะอธิบาย API ด้านวิสัยทัศน์และภาษาของ Zhipu ซึ่งมีราคาถูกกว่าแต่ต้องแลกมาด้วยความแม่นยำของข้อความ
วิธีใช้ Qwen 3.5 Omni เป็นคู่มือภาคปฏิบัติที่เสริมจากโพสต์ประกาศ
การวิเคราะห์ Cursor Composer 2 แสดงให้เห็นว่าผลิตภัณฑ์ AI ที่เน้นการให้เหตุผลเป็นอันดับแรกนั้นปรับเปลี่ยน UX ของเครื่องมือได้อย่างไร; ซึ่งเป็นรูปแบบเดียวกับที่ขับเคลื่อน ChatGPT Images 2.0
สำหรับการเปิดตัวอื่นที่เกี่ยวข้องกับ OpenAI เมื่อเร็วๆ นี้ โปรดดู คู่มือ Microsoft VibeVoice ของเรา

เลือก `gpt-image-2` เมื่อความแม่นยำของข้อความ การให้เหตุผลในการจัดองค์ประกอบ และการรวมเข้ากับส่วนอื่นๆ ของแพลตฟอร์ม OpenAI มีความสำคัญมากกว่าต้นทุน เลือกโมเดล multimodal แบบ open-weight เมื่อคุณต้องการการโฮสต์ด้วยตัวเอง ค่าใช้จ่ายต่อภาพที่ต่ำกว่า หรือใบอนุญาตที่อนุญาตให้ใช้ในเชิงพาณิชย์

คำถามที่พบบ่อย

gpt-image-2 มีให้ใช้ใน ChatGPT รุ่นฟรีหรือไม่? มี โหมดมาตรฐานมีให้สำหรับผู้ใช้ ChatGPT ทุกคน โหมด Thinking, การให้เหตุผลเพิ่มเติม และการค้นหาเว็บระหว่างการสร้างภาพสงวนไว้สำหรับ Plus, Pro และ Business การเข้าถึง API แยกต่างหากและผูกกับบัญชีนักพัฒนา OpenAI ของคุณ; ระดับการจำกัดอัตราที่คุณใช้อยู่จะยังคงใช้ได้

gpt-image-2 รองรับการแก้ไขภาพและการเติมเต็มภาพ (inpainting) หรือไม่? การเปิดตัวนี้เน้นที่การแปลงข้อความเป็นภาพด้วยโหมดแบตช์และ thinking คาดว่า endpoint สไตล์การแก้ไข (ภาพ + มาสก์) จะเป็นไปตามรูปแบบเดียวกับรุ่นก่อนหน้า แต่จะอยู่ภายใต้ ID โมเดลใหม่ ตรวจสอบ หน้าโมเดล gpt-image-2 ก่อนที่จะพัฒนาเกี่ยวกับการเติมเต็มภาพ

รองรับความละเอียดและอัตราส่วนภาพแบบใดบ้าง? สูงสุด 2,000 พิกเซลในด้านที่ยาวกว่า พร้อมอัตราส่วน 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 และ 1:3 ซึ่งครอบคลุมแบนเนอร์หลัก, วิดีโอสั้นแนวตั้ง, ภาพโซเชียลสี่เหลี่ยมจัตุรัส และภาพกว้างสไตล์ LinkedIn โดยไม่ต้องทำการอัปสเกล

จะทดสอบคำขอ gpt-image-2 อย่างรวดเร็วได้อย่างไร? ใช้ไคลเอนต์ API เฉพาะทาง Apidog แสดงผลการตอบกลับของภาพแบบอินไลน์ จัดเก็บพรอมต์เป็นตัวแปรคอลเลกชัน และช่วยให้คุณเปรียบเทียบโหมด thinking ได้พร้อมกัน ทีมที่มาจากเวิร์กโฟลว์บรรทัดคำสั่งมักจะใช้ร่วมกับ คู่มือการทดสอบ API โดยไม่ต้องใช้ Postman ของเรา

ภาพหนึ่งภาพมีค่าใช้จ่ายเท่าไรผ่าน API? ประมาณ 0.21 ดอลลาร์สำหรับภาพคุณภาพสูงขนาด 1024 × 1024 ในโหมดมาตรฐาน โหมด Thinking จะเพิ่มโทเค็นการให้เหตุผลเข้าไปด้วย ดังนั้นควรวางแผนสำหรับค่าใช้จ่ายต่อภาพที่ผันแปรไปสำหรับพรอมต์ที่เน้นเลย์เอาต์มาก โปรดดู หน้าการกำหนดราคาของ OpenAI สำหรับอัตราโทเค็นที่แน่นอน

โมเดลสามารถค้นหาเว็บระหว่างการสร้างภาพได้หรือไม่? ได้ ในโหมด thinking โมเดลสามารถดึงภาพอ้างอิงและข้อมูลในช่วงกลางของการสร้างภาพ ซึ่งช่วยเพิ่มความแม่นยำของแผนภาพ (แผนภูมิที่มีตัวเลขจริง แผนที่ที่มีป้ายกำกับถูกต้อง) โหมดมาตรฐานไม่สามารถค้นหาได้