OpenAI ได้เปิดตัว ChatGPT Images 2.0 เมื่อวันที่ 21 เมษายน 2026 ซึ่งขับเคลื่อนด้วยโมเดลใหม่ที่เรียกว่า gpt-image-2 โดยจะอ่านพรอมต์ของคุณ วางแผนเลย์เอาต์ แสดงผลข้อความได้คมชัดหลายภาษา และสามารถสร้างภาพได้สูงสุดสิบภาพในครั้งเดียว ทั้งหมดนี้มีความกว้างสูงสุดถึง 2,000 พิกเซล และมีอัตราส่วนภาพที่โมเดลภาพเก่าไม่เคยรองรับ
สำหรับนักพัฒนา สิ่งสำคัญไม่ใช่การปรับปรุง UI ของ ChatGPT แต่คือการที่ gpt-image-2 ถูกเปิดเผยผ่าน OpenAI API ด้วยโหมด "คิด" (thinking) ที่รับรู้การให้เหตุผล การกำหนดราคาตามโทเค็น และรูปแบบปลายทาง (endpoint) เดียวกันกับที่คุณใช้งานอยู่ในการผลิต
คู่มือนี้ครอบคลุมถึงสิ่งที่เปลี่ยนแปลงไป ค่าใช้จ่ายของ API วิธีเรียกใช้งานแบบ end-to-end และวิธีทดสอบด้วย Apidog โดยไม่ต้องเขียนสคริปต์แบบใช้แล้วทิ้ง หากคุณเคยประเมิน API รูปภาพรุ่นก่อนหน้าแล้วเลิกใช้ไปเพราะข้อความบิดเบี้ยวหรือไม่ชัด หรือความละเอียดสูงสุดอยู่ที่ 1024 พิกเซล ให้เริ่มที่นี่ได้เลย
gpt-image-2 คืออะไร?
gpt-image-2 คือ ID โมเดลสำหรับ เครื่องมือสร้างภาพรุ่นที่สองของ OpenAI ซึ่งเปิดตัวพร้อมกับผลิตภัณฑ์ ChatGPT Images 2.0 เมื่อวันที่ 21 เมษายน 2026 โดยมาแทนที่ตระกูล gpt-image-1 รุ่นก่อนหน้าในส่วนของ API และขับเคลื่อนการสร้างภาพภายใน ChatGPT ทั้งบนเว็บและมือถือ

มีสามสิ่งที่คุณควรพิจารณาอีกครั้ง หากครั้งสุดท้ายที่คุณทดสอบการสร้างภาพของ OpenAI คือในปี 2024 หรือ 2025:
- ข้อความอ่านง่ายในทุกสคริปต์ ป้ายกำกับ UI ขนาดเล็ก โลโก้ คำบรรยาย และสคริปต์ที่ไม่ใช่ภาษาละติน (ญี่ปุ่น เกาหลี จีน ฮินดี เบงกาลี) สามารถแสดงผลได้อย่างสะอาดตาเพียงพอที่จะนำไปใช้งานได้ทันทีโดยไม่ต้องแก้ไขด้วยมืออีก
- การให้เหตุผลก่อนสร้างภาพ โหมด
thinkingใช้พลังประมวลผลพิเศษในการวางแผนองค์ประกอบ การนับจำนวนสิ่งของ และการตรวจสอบข้อจำกัดก่อนที่จะสร้างภาพ OpenAI อธิบายว่าเป็นการที่โมเดล "คิด" เกี่ยวกับข้อมูลที่ได้รับ ซึ่งในทางปฏิบัติแล้วจะช่วยลดจำนวนครั้งที่คุณต้องสร้างพรอมต์ใหม่เนื่องจากจำนวนวัตถุผิดพลาดหรือแผนภาพที่ติดป้ายผิด - ความละเอียดสูงขึ้น พื้นที่สร้างภาพกว้างขึ้น สูงสุด 2,000 พิกเซลในด้านที่ยาวกว่า และอัตราส่วนภาพที่หลากหลาย เช่น 3:1 หรือ 1:3 ซึ่งช่วยให้คุณสร้างแบนเนอร์ หน้าปกสไลด์ และวิดีโอสั้นแนวตั้งได้โดยไม่ต้องทำการอัปสเกล
บทความของ OpenAI เองระบุว่านี่คือการก้าวกระโดดจาก “ของเล่นสร้างสรรค์” ไปสู่ “เครื่องมือเวิร์กโฟลว์ด้านภาพ”; ไม่ว่าจะเป็นหน้าปกนิตยสาร อินโฟกราฟิก เทมเพลตสไลด์ หรือแม้แต่ช่องการ์ตูนมังงะ
มีอะไรเปลี่ยนแปลงเมื่อเทียบกับ gpt-image-1
หากคุณเคยพัฒนาโดยใช้ endpoint รูปภาพของ OpenAI รุ่นก่อนหน้า นี่คือความแตกต่างที่สำคัญในระดับโค้ด
| ความสามารถ | gpt-image-1 | gpt-image-2 |
|---|---|---|
| ความละเอียดสูงสุด | 1024 พิกเซล | 2,000 พิกเซลในด้านที่ยาวกว่า |
| อัตราส่วนภาพ | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| จำนวนภาพต่อคำขอ | 1 | สูงสุด 10 ภาพ พร้อมความสอดคล้องของสไตล์ |
| การแสดงผลข้อความ | ภาษาอังกฤษเท่านั้น, มักจะบิดเบี้ยว | หลายภาษา รวมถึง CJK และสคริปต์ภาษาอินเดีย |
| โหมดการให้เหตุผล | ไม่มี | มี (`thinking` flag) |
| การค้นหาเว็บระหว่างการสร้าง | ไม่มี | มี, ในโหมด thinking |
โหมดแบตช์เป็นการเปลี่ยนแปลงที่เงียบที่สุดแต่มีประโยชน์มากที่สุด พรอมต์เดียวสามารถส่งคืนภาพที่แตกต่างกันสิบแบบที่ใช้การจัดองค์ประกอบและชุดสีเดียวกัน ซึ่งเป็นวิธีที่นักออกแบบใช้ในการปรับปรุงงาน และเป็นวิธีที่ทีมผลิตภัณฑ์สร้างภาพฮีโร่ที่สอดคล้องกันในชุดหน้าเว็บ

ความพร้อมใช้งานและราคา
การเปิดตัวเป็นแบบแบ่งระดับ
- ผู้ใช้ ChatGPT ฟรี จะได้รับโมเดล
gpt-image-2มาตรฐาน - สมาชิก ChatGPT Plus, Pro และ Business จะได้รับโหมด thinking การประมวลผลเหตุผลที่ยาวนานขึ้น และการค้นหาเว็บระหว่างการสร้างภาพ
- นักพัฒนา API จะได้รับทั้งสองโหมดผ่าน
gpt-image-2model ID ความพร้อมใช้งานจะถูกจัดลำดับหลังจากการเปิดตัว ChatGPT
การกำหนดราคา ตาม หน้าการกำหนดราคา OpenAI API จะคิดตามโทเค็น: 5 ดอลลาร์ต่อหนึ่งล้านโทเค็นข้อความนำเข้า, 10 ดอลลาร์ต่อหนึ่งล้านโทเค็นข้อความส่งออก, 8 ดอลลาร์ต่อหนึ่งล้านโทเค็นภาพนำเข้า และ 30 ดอลลาร์ต่อหนึ่งล้านโทเค็นภาพส่งออก ในการเรนเดอร์คุณภาพสูงขนาด 1024 × 1024 พิกเซลมาตรฐาน จะมีราคาประมาณ 0.21 ดอลลาร์ต่อภาพ; ซึ่งสูงกว่ารุ่นก่อนหน้าประมาณ 60 เปอร์เซ็นต์ ซึ่งเป็นค่าใช้จ่ายสำหรับพื้นที่สร้างภาพที่ใหญ่ขึ้นและขั้นตอนการให้เหตุผล
ข้อควรทราบ: โหมด thinking จะถูกเรียกเก็บเงินตามโทเค็นการให้เหตุผลเพิ่มเติม ดังนั้นแผนภาพที่มีคำสั่งเค้าโครงที่เข้มงวดจะมีค่าใช้จ่ายมากกว่าพรอมต์ภาพประกอบทั่วไปที่ไม่มีข้อกำหนดมากนัก ควรตั้งงบประมาณสำหรับสิ่งนี้แทนที่จะคิดอัตราคงที่ต่อภาพ
การเรียกใช้งาน API
endpoint ยังคงใช้รูปแบบ images/generations เช่นเดียวกับโมเดลรุ่นก่อนหน้า คำขอขั้นต่ำมีลักษณะดังนี้:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
หากต้องการเปิดใช้งานเส้นทางการให้เหตุผล ให้ส่งพารามิเตอร์ thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
การตอบกลับจะส่งคืนข้อมูลภาพในรูปแบบ base64 หรือ URL ขึ้นอยู่กับ response_format ของคุณ; สคีมาไม่เปลี่ยนแปลงจาก gpt-image-1 ดังนั้น wrappers ของ SDK ที่มีอยู่จะยังคงทำงานได้หลังจากเปลี่ยน ID โมเดล
เวอร์ชัน Python ที่ใช้ SDK อย่างเป็นทางการ:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() in practice
ข้อสังเกตเชิงปฏิบัติสองประการจากการทดสอบ:
- โหมด thinking มีสามระดับ (`low`, `medium`, `high`) ซึ่งเป็นการแลกเปลี่ยนระหว่างเวลาแฝงกับความแม่นยำของเค้าโครง สำหรับแผนภูมิ ตาราง และภาพใดๆ ที่ต้องการความถูกต้องของตัวเลข `medium` เป็นค่าเริ่มต้นที่มีประโยชน์
- ผลลัพธ์แบบแบตช์ (`n > 1`) จะรักษาความสอดคล้องของสไตล์ภายในคำขอเดียว แต่จะสูญเสียความสอดคล้องหากเป็นการเรียกใช้แยกกัน หากคุณต้องการชุดภาพสิบภาพที่เข้ากัน ให้ขอทั้งสิบภาพในคำขอเดียว
การทดสอบ gpt-image-2 ด้วย Apidog
การปรับปรุงโมเดลภาพจากบรรทัดคำสั่งเป็นเรื่องที่ยากลำบาก คุณไม่สามารถดูตัวอย่างผลลัพธ์ สลับพรอมต์ หรือจัดการเวอร์ชันได้ ไคลเอนต์ API เฉพาะทางคือเครื่องมือที่เหมาะสม และหากคุณใช้ Postman หรือเครื่องมือ REST แบบเทอร์มินัลอยู่แล้ว ลองพิจารณาทางเลือกที่สร้างขึ้นมาโดยเฉพาะที่สามารถจัดการกับการตอบกลับของรูปภาพได้โดยตรง

Apidog ถือว่า endpoint รูปภาพของ OpenAI เป็นคำขอระดับเฟิสต์คลาส คุณนำเข้าข้อมูลจำเพาะ OpenAI OpenAPI ตั้งค่า `OPENAI_API_KEY` เป็นตัวแปรสภาพแวดล้อม วางพรอมต์ของคุณลงในส่วนเนื้อหา และกดส่ง การตอบกลับของรูปภาพจะแสดงผลแบบอินไลน์ ไม่ว่าจะเป็น base64 หรือ URL และคุณสามารถแยกคำขอออกเป็นรูปแบบต่างๆ เพื่อเปรียบเทียบอัตราส่วนภาพ ระดับคุณภาพ และโหมด thinking ได้พร้อมกัน
เวิร์กโฟลว์ที่เป็นประโยชน์:
- สร้างคำขอ
gpt-image-2ใน Apidog collection - บันทึกสองสภาพแวดล้อม: หนึ่งพร้อม
thinking: "off"และอีกหนึ่งพร้อมthinking: "medium" - เรียกใช้พรอมต์เดียวกันผ่านทั้งสองแบบ เปรียบเทียบผลลัพธ์ และเก็บผลลัพธ์ที่ดีที่สุดไว้ในไลบรารีพรอมต์ของคุณ
- แยกคอลเลกชันสำหรับแต่ละประเภทสินทรัพย์ (แบนเนอร์, หน้าปกสไลด์, อินโฟกราฟิก) เพื่อให้แต่ละประเภทมีชุดพารามิเตอร์ที่ปรับแต่งเอง
คุณยังสามารถเชื่อมโยงการเรียกใช้งานได้: สร้างภาพ จากนั้นโพสต์ URL ไปยัง endpoint อัปโหลด CDN ของคุณภายใน Apidog test run เดียวกัน นี่คือส่วนที่สคริปต์ curl ทำได้ไม่ดีนัก
หากคุณเคยทำการทดลองสร้างภาพในไคลเอนต์ HTTP ทั่วไป นี่คือจุดที่แพลตฟอร์ม API ที่แท้จริงพิสูจน์คุณค่าของมัน ดาวน์โหลด Apidog และเชื่อมต่อกับคีย์ OpenAI ของคุณ; การตั้งค่าใช้เวลาน้อยกว่าห้านาที
ข้อจำกัดของ gpt-image-2
การประกาศนี้ดูแข็งแกร่ง แต่ก็ยังมีข้อจำกัดที่แท้จริงอยู่
- ใบหน้าเสมือนจริงในระยะใกล้ ยังคงมีปัญหา โดยเฉพาะอย่างยิ่งสำหรับบุคคลสาธารณะที่มีชื่อเสียง มาตรการป้องกันการระบุตัวตนของ OpenAI ปฏิเสธพรอมต์จำนวนมากเหล่านี้โดยสิ้นเชิง
- สินทรัพย์แบรนด์ที่แม่นยำ (รูปทรงโลโก้ที่แน่นอน ตัวละครที่มีเครื่องหมายการค้า) ไม่น่าเชื่อถือ; ควรใช้เพื่อสร้างบรรยากาศ ไม่ใช่เพื่อสร้างเครื่องหมายการค้าสุดท้าย
- บล็อกข้อความขนาดยาวมาก (ย่อหน้าเต็มในภาพ) ยังคงมีปัญหาเมื่อเกินสองสามร้อยตัวอักษร มันถูกออกแบบมาสำหรับคำบรรยาย หัวเรื่อง และป้ายกำกับ ไม่ใช่สำหรับการแสดงผลบทความเป็นภาพ
- ความสอดคล้องข้ามเซสชัน ไม่ได้รับการรับประกัน ฟีเจอร์แบตช์จะรักษาสไตล์ภายในคำขอเดียว; แต่การเรียกใช้แยกต่างหากในวันถัดไปจะมีความคลาดเคลื่อนได้ แม้จะใช้พรอมต์ที่คล้าย seed เดียวกันก็ตาม
ทั้ง The Decoder และ PetaPixel ต่างก็ระบุข้อจำกัดที่คล้ายกันในบทความภาคปฏิบัติของพวกเขา ดู บทวิจารณ์ของ The Decoder สำหรับการวิเคราะห์ที่ละเอียดขึ้น
เปรียบเทียบกับเครื่องมือสร้างภาพอื่นๆ ในปี 2026
OpenAI ไม่ได้โดดเดี่ยวในพื้นที่การให้เหตุผลบวกกับภาพ Nano Banana 2 ของ Google ได้เปิดตัวไปก่อนหน้านี้หลายสัปดาห์ และโมเดล multimodal แบบ open-weight หลายตัวก็ได้ลดช่องว่างในด้านการแสดงผลข้อความลงแล้ว
หากคุณกำลังประเมินทางเลือกอื่นในส่วนของ API บทความเชิงลึกที่เกี่ยวข้องต่อไปนี้จะคุ้มค่ากับเวลาของคุณ:
- ประกาศ Qwen 3.5 Omni ครอบคลุมการผลักดัน multimodal ของ Alibaba ซึ่งรวมถึงการป้อนข้อมูลภาพและการสร้างภาพ
- คู่มือ GLM 5V Turbo API จะอธิบาย API ด้านวิสัยทัศน์และภาษาของ Zhipu ซึ่งมีราคาถูกกว่าแต่ต้องแลกมาด้วยความแม่นยำของข้อความ
- วิธีใช้ Qwen 3.5 Omni เป็นคู่มือภาคปฏิบัติที่เสริมจากโพสต์ประกาศ
- การวิเคราะห์ Cursor Composer 2 แสดงให้เห็นว่าผลิตภัณฑ์ AI ที่เน้นการให้เหตุผลเป็นอันดับแรกนั้นปรับเปลี่ยน UX ของเครื่องมือได้อย่างไร; ซึ่งเป็นรูปแบบเดียวกับที่ขับเคลื่อน ChatGPT Images 2.0
- สำหรับการเปิดตัวอื่นที่เกี่ยวข้องกับ OpenAI เมื่อเร็วๆ นี้ โปรดดู คู่มือ Microsoft VibeVoice ของเรา
เลือก `gpt-image-2` เมื่อความแม่นยำของข้อความ การให้เหตุผลในการจัดองค์ประกอบ และการรวมเข้ากับส่วนอื่นๆ ของแพลตฟอร์ม OpenAI มีความสำคัญมากกว่าต้นทุน เลือกโมเดล multimodal แบบ open-weight เมื่อคุณต้องการการโฮสต์ด้วยตัวเอง ค่าใช้จ่ายต่อภาพที่ต่ำกว่า หรือใบอนุญาตที่อนุญาตให้ใช้ในเชิงพาณิชย์
คำถามที่พบบ่อย
gpt-image-2 มีให้ใช้ใน ChatGPT รุ่นฟรีหรือไม่? มี โหมดมาตรฐานมีให้สำหรับผู้ใช้ ChatGPT ทุกคน โหมด Thinking, การให้เหตุผลเพิ่มเติม และการค้นหาเว็บระหว่างการสร้างภาพสงวนไว้สำหรับ Plus, Pro และ Business การเข้าถึง API แยกต่างหากและผูกกับบัญชีนักพัฒนา OpenAI ของคุณ; ระดับการจำกัดอัตราที่คุณใช้อยู่จะยังคงใช้ได้
gpt-image-2 รองรับการแก้ไขภาพและการเติมเต็มภาพ (inpainting) หรือไม่? การเปิดตัวนี้เน้นที่การแปลงข้อความเป็นภาพด้วยโหมดแบตช์และ thinking คาดว่า endpoint สไตล์การแก้ไข (ภาพ + มาสก์) จะเป็นไปตามรูปแบบเดียวกับรุ่นก่อนหน้า แต่จะอยู่ภายใต้ ID โมเดลใหม่ ตรวจสอบ หน้าโมเดล gpt-image-2 ก่อนที่จะพัฒนาเกี่ยวกับการเติมเต็มภาพ
รองรับความละเอียดและอัตราส่วนภาพแบบใดบ้าง? สูงสุด 2,000 พิกเซลในด้านที่ยาวกว่า พร้อมอัตราส่วน 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 และ 1:3 ซึ่งครอบคลุมแบนเนอร์หลัก, วิดีโอสั้นแนวตั้ง, ภาพโซเชียลสี่เหลี่ยมจัตุรัส และภาพกว้างสไตล์ LinkedIn โดยไม่ต้องทำการอัปสเกล
จะทดสอบคำขอ gpt-image-2 อย่างรวดเร็วได้อย่างไร? ใช้ไคลเอนต์ API เฉพาะทาง Apidog แสดงผลการตอบกลับของภาพแบบอินไลน์ จัดเก็บพรอมต์เป็นตัวแปรคอลเลกชัน และช่วยให้คุณเปรียบเทียบโหมด thinking ได้พร้อมกัน ทีมที่มาจากเวิร์กโฟลว์บรรทัดคำสั่งมักจะใช้ร่วมกับ คู่มือการทดสอบ API โดยไม่ต้องใช้ Postman ของเรา
ภาพหนึ่งภาพมีค่าใช้จ่ายเท่าไรผ่าน API? ประมาณ 0.21 ดอลลาร์สำหรับภาพคุณภาพสูงขนาด 1024 × 1024 ในโหมดมาตรฐาน โหมด Thinking จะเพิ่มโทเค็นการให้เหตุผลเข้าไปด้วย ดังนั้นควรวางแผนสำหรับค่าใช้จ่ายต่อภาพที่ผันแปรไปสำหรับพรอมต์ที่เน้นเลย์เอาต์มาก โปรดดู หน้าการกำหนดราคาของ OpenAI สำหรับอัตราโทเค็นที่แน่นอน
โมเดลสามารถค้นหาเว็บระหว่างการสร้างภาพได้หรือไม่? ได้ ในโหมด thinking โมเดลสามารถดึงภาพอ้างอิงและข้อมูลในช่วงกลางของการสร้างภาพ ซึ่งช่วยเพิ่มความแม่นยำของแผนภาพ (แผนภูมิที่มีตัวเลขจริง แผนที่ที่มีป้ายกำกับถูกต้อง) โหมดมาตรฐานไม่สามารถค้นหาได้
