OpenAI meluncurkan ChatGPT Images 2.0 pada 21 April 2026, didukung oleh model baru bernama gpt-image-2. Model ini membaca prompt Anda, merencanakan tata letak, merender teks multibahasa yang tajam, dan dapat menghasilkan hingga sepuluh gambar sekaligus; semuanya hingga 2.000 piksel lebar dan dalam rasio aspek yang tidak pernah didukung oleh model gambar lama.
Bagi pengembang, yang menjadi sorotan bukanlah pembaruan UI ChatGPT. Melainkan gpt-image-2 yang diekspos melalui OpenAI API dengan mode "thinking" yang sadar penalaran, harga per-token, dan pola endpoint yang sama dengan yang sudah Anda gunakan dalam produksi.
Panduan ini mencakup apa yang berubah, biaya API, cara memanggilnya dari awal hingga akhir, dan cara mengujinya dengan Apidog tanpa menulis skrip sementara. Jika Anda mengevaluasi API gambar sebelumnya dan meninggalkannya karena teks yang dihasilkan tidak jelas atau resolusi dibatasi hingga 1024, mulailah dari sini.
Apa itu gpt-image-2?
gpt-image-2 adalah ID model untuk generator gambar generasi kedua OpenAI, yang dirilis bersamaan dengan produk ChatGPT Images 2.0 pada 21 April 2026. Ini menggantikan keluarga gpt-image-1 sebelumnya di sisi API dan mendukung pembuatan gambar di dalam ChatGPT di seluruh web dan seluler.

Tiga hal yang membuatnya layak untuk dilihat kembali jika terakhir kali Anda menguji generasi gambar OpenAI pada tahun 2024 atau 2025:
- Teks yang terbaca di berbagai skrip. Label UI kecil, logo, keterangan, dan skrip non-Latin (Jepang, Korea, Cina, Hindi, Bengali) kini dirender cukup jelas untuk digunakan tanpa perlu gambar ulang manual.
- Penalaran sebelum piksel. Mode
thinkingmenggunakan komputasi ekstra untuk merencanakan komposisi, menghitung item, dan memeriksa batasan sebelum merender. OpenAI menggambarkannya sebagai model yang "berpikir" tentang instruksi; dalam praktiknya, ini mengurangi jumlah prompt ulang yang Anda buang karena salah hitung objek atau diagram yang salah label. - Resolusi lebih tinggi, kanvas lebih lebar. Hingga 2.000 piksel di sisi panjang dan rasio aspek ekstrem seperti 3:1 atau 1:3, yang memungkinkan Anda membuat spanduk, sampul slide, dan video pendek vertikal tanpa langkah upscaling.
Tulisan OpenAI sendiri memposisikan ini sebagai lompatan dari "mainan kreatif" menjadi "alat alur kerja visual"; halaman majalah, infografis, template slide, bahkan panel manga.
Apa yang berubah dibandingkan gpt-image-1
Jika Anda membangun dengan endpoint gambar OpenAI sebelumnya, berikut adalah perbedaan penting pada tingkat kode.
| Kemampuan | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Resolusi Maksimal | 1024 px | 2.000 px pada sisi panjang |
| Rasio Aspek | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| Gambar per permintaan | 1 | Hingga 10, dengan konsistensi gaya |
| Rendering Teks | Hanya Bahasa Inggris, sering rusak | Multibahasa, termasuk skrip CJK dan Indic |
| Mode Penalaran | Tidak | Ya (flag thinking) |
| Pencarian web saat pembuatan | Tidak | Ya, dalam mode thinking |
Mode batch adalah perubahan yang paling tidak mencolok tetapi paling berguna. Satu prompt dapat mengembalikan sepuluh variasi yang berbagi komposisi dan palet, seperti cara seorang desainer berulang, dan bagaimana tim produk menghasilkan gambar hero yang konsisten di seluruh rangkaian halaman.

Ketersediaan dan harga
Peluncuran ini bertahap.
- Pengguna ChatGPT Free mendapatkan model
gpt-image-2standar. - Pelanggan ChatGPT Plus, Pro, dan Business mendapatkan mode thinking, proses penalaran yang lebih panjang, dan pencarian web selama pembuatan.
- Pengembang API mendapatkan kedua mode melalui ID model
gpt-image-2. Ketersediaan telah dijadwalkan setelah peluncuran ChatGPT.
Harga, menurut halaman harga OpenAI API, dihitung per token: $5 per juta token teks input, $10 per juta token teks output, $8 per juta token gambar input, dan $30 per juta token gambar output. Pada render berkualitas tinggi 1024 × 1024 standar, itu sekitar $0,21 per gambar; kira-kira 60 persen lebih mahal dari generasi sebelumnya, yang merupakan biaya untuk kanvas yang lebih besar dan langkah penalaran.
Perlu dicatat: mode thinking ditagih berdasarkan token penalaran tambahan, jadi diagram dengan instruksi tata letak yang ketat akan lebih mahal daripada prompt ilustrasi yang longgar. Anggarkan untuk ini daripada berasumsi tarif tetap per gambar.
Memanggil API
Endpoint mengikuti pola images/generations yang sama dengan model sebelumnya. Permintaan minimal terlihat seperti ini:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "Sebuah hero produk bersih untuk platform pengujian API, latar belakang gelap, pencahayaan cyan lembut, laptop menampilkan respons JSON, label UI teks kecil tajam yang mudah dibaca",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
Untuk mengaktifkan jalur penalaran, berikan parameter thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "Infografis empat panel yang menjelaskan alur kode otorisasi OAuth 2.1 dengan PKCE. Beri label setiap panah dalam Bahasa Inggris dan Jepang.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
Respons mengembalikan data gambar base64 atau URL tergantung pada response_format Anda; skema tidak berubah dari gpt-image-1, sehingga wrapper SDK yang ada tetap berfungsi setelah pertukaran ID model.
Versi Python menggunakan SDK resmi:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Maket UI dashboard minimalis untuk klien REST, label dengan huruf awal kapital, diagram latensi di sudut.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() in practice
Dua catatan praktis dari pengujian:
- Mode thinking memiliki tiga tingkatan (
low,medium,high) yang menukar latensi dengan akurasi tata letak. Untuk bagan, tabel, dan gambar apa pun yang harus mendapatkan angka yang benar,mediumadalah default yang berguna. - Output batch (
n > 1) menjaga koherensi gaya dalam satu panggilan, tetapi kehilangan koherensi di seluruh panggilan terpisah. Jika Anda membutuhkan satu set sepuluh yang cocok, minta sepuluh dalam satu permintaan.
Menguji gpt-image-2 dengan Apidog
Mengulang model gambar dari baris perintah sangat menyakitkan; Anda tidak dapat melihat pratinjau hasil, menukar prompt, atau membuat versinya. Klien API khusus adalah alat yang tepat, dan jika Anda sudah menggunakan Postman atau alat REST terminal, pertimbangkan alternatif yang dibangun khusus yang menangani respons gambar secara native.

Apidog memperlakukan endpoint gambar OpenAI sebagai permintaan kelas satu. Anda mengimpor spesifikasi OpenAI OpenAPI, mengatur OPENAI_API_KEY sebagai variabel lingkungan, menempelkan prompt Anda ke dalam body, dan menekan Kirim. Respons gambar dirender secara inline, base64 atau URL, dan Anda dapat mem-fork permintaan ke dalam varian untuk membandingkan rasio aspek, tingkatan kualitas, dan mode thinking secara berdampingan.
Alur kerja yang berguna:
- Buat permintaan
gpt-image-2di koleksi Apidog. - Simpan dua lingkungan: satu dengan
thinking: "off", satu denganthinking: "medium". - Jalankan prompt yang sama melalui keduanya, bandingkan keluarannya, dan simpan pemenang di pustaka prompt Anda.
- Fork koleksi untuk setiap jenis aset (spanduk, sampul slide, infografis) sehingga masing-masing memiliki set parameter yang disesuaikan sendiri.
Anda juga dapat merangkai panggilan: hasilkan gambar, lalu posting URL ke endpoint upload CDN Anda di dalam proses pengujian Apidog yang sama. Itulah bagian yang tidak dapat dilakukan dengan baik oleh skrip curl.
Jika Anda telah menjalankan eksperimen pembuatan gambar di klien HTTP generik, di sinilah platform API yang sebenarnya mendapatkan nilainya. Unduh Apidog dan arahkan ke kunci OpenAI Anda; pengaturan membutuhkan waktu kurang dari lima menit.
Di mana gpt-image-2 masih kesulitan
Pengumumannya kuat, tetapi ada batasan yang jujur.
- Wajah fotorealistik pada crop dekat masih melenceng, terutama untuk figur publik yang bernama. Batas keamanan identitas OpenAI menolak banyak prompt tersebut secara langsung.
- Aset merek yang tepat (geometri logo yang persis, karakter berhak cipta) tidak dapat diandalkan; gunakan untuk suasana hati, bukan untuk pengiriman tanda merek akhir.
- Blok teks yang sangat panjang (paragraf penuh di dalam gambar) masih rusak setelah beberapa ratus karakter. Ini dirancang untuk keterangan, judul, dan label, bukan untuk merender artikel sebagai gambar.
- Konsistensi antar sesi tidak dijamin. Fitur batch menjaga koherensi gaya dalam satu panggilan; panggilan terpisah di hari berikutnya akan melenceng bahkan dengan prompt seperti seed yang sama.
Decoder dan PetaPixel keduanya menandai batasan serupa dalam tulisan tangan mereka. Lihat ulasan The Decoder untuk penjelasan yang lebih panjang.
Bagaimana perbandingannya dengan generator gambar lain di tahun 2026
OpenAI tidak sendiri dalam ruang penalaran plus gambar. Google Nano Banana 2 diluncurkan beberapa minggu sebelumnya, dan beberapa model multimodal open-weight telah mempersempit kesenjangan dalam rendering teks.
Jika Anda mengevaluasi alternatif di sisi API, beberapa pembahasan mendalam yang relevan patut Anda simak:
- Pengumuman Qwen 3.5 Omni mencakup dorongan multimodal Alibaba, termasuk input dan generasi gambar.
- Panduan API GLM 5V Turbo menjelaskan API visi-bahasa Zhipu, yang lebih murah tetapi mengorbankan ketepatan teks.
- Cara menggunakan Qwen 3.5 Omni adalah pendamping praktisi untuk postingan pengumuman.
- Analisis Cursor Composer 2 membingkai bagaimana produk AI yang mengutamakan penalaran membentuk kembali UX alat; pola yang sama yang mendorong ChatGPT Images 2.0.
- Untuk peluncuran OpenAI yang baru-baru ini terkait, lihat panduan Microsoft VibeVoice kami.
Pilih gpt-image-2 ketika akurasi teks, penalaran atas komposisi, dan integrasi dengan sisa tumpukan OpenAI lebih penting daripada biaya. Pilih model multimodal open-weight ketika Anda membutuhkan hosting sendiri, biaya per-gambar yang lebih rendah, atau lisensi permisif untuk output komersial.
FAQ
Apakah gpt-image-2 tersedia di tingkat ChatGPT gratis?Ya. Mode standar tersedia untuk semua pengguna ChatGPT. Mode berpikir, penalaran diperpanjang, dan pencarian web selama pembuatan dibatasi untuk Plus, Pro, dan Business. Akses API terpisah dan terhubung dengan akun pengembang OpenAI Anda; tingkatan batas tarif yang sudah Anda gunakan berlaku.
Apakah gpt-image-2 mendukung pengeditan gambar dan inpainting?Peluncuran berfokus pada teks-ke-gambar dengan mode batch dan thinking. Endpoint gaya edit (gambar + mask) diharapkan mengikuti pola yang sama dengan generasi sebelumnya tetapi di bawah ID model baru. Periksa halaman model gpt-image-2 sebelum membangun seputar inpainting.
Resolusi dan rasio aspek apa yang didukungnya?Hingga 2.000 piksel pada sisi panjang, dengan rasio 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, dan 1:3. Itu mencakup spanduk hero, video pendek vertikal, kotak sosial, dan crop lebar gaya LinkedIn tanpa langkah upscaling.
Bagaimana cara menguji permintaan gpt-image-2 dengan cepat?Gunakan klien API khusus. Apidog merender respons gambar secara inline, menyimpan prompt sebagai variabel koleksi, dan memungkinkan Anda membandingkan mode thinking secara berdampingan. Tim yang beralih dari alur kerja baris perintah sering kali menggunakannya bersama panduan pengujian API tanpa Postman kami.
Berapa biaya satu gambar melalui API?Sekitar $0,21 untuk kualitas tinggi 1024 × 1024 dalam mode standar. Mode thinking menambahkan token penalaran di atasnya, jadi rencanakan biaya per-gambar yang bervariasi untuk prompt yang banyak tata letak. Lihat halaman harga OpenAI untuk tarif token yang tepat.
Dapatkah model mencari di web saat membuat?Ya, dalam mode thinking. Model dapat menarik gambar referensi dan fakta di tengah pembuatan, yang membantu akurasi diagram (bagan dengan angka nyata, peta dengan label yang benar). Mode standar tidak mencari.
