OpenAI đã phát hành ChatGPT Images 2.0 vào ngày 21 tháng 4 năm 2026, được hỗ trợ bởi một mô hình mới có tên là gpt-image-2. Nó đọc lời nhắc của bạn, lên kế hoạch bố cục, hiển thị văn bản đa ngôn ngữ sắc nét và có thể tạo ra tối đa mười hình ảnh trong một lần; tất cả đều có chiều rộng lên đến 2.000 pixel và với tỷ lệ khung hình mà mô hình hình ảnh cũ chưa bao giờ hỗ trợ.
Đối với các nhà phát triển, tiêu đề không phải là việc làm mới giao diện người dùng ChatGPT. Mà chính là việc gpt-image-2 được tiết lộ thông qua API của OpenAI với chế độ "tư duy" nhận biết lý luận, định giá trên mỗi token và cùng một mẫu điểm cuối mà bạn đã tích hợp vào sản xuất.
Hướng dẫn này bao gồm những gì đã thay đổi, chi phí API, cách gọi nó từ đầu đến cuối và cách kiểm tra nó với Apidog mà không cần viết các script dùng một lần. Nếu bạn đã đánh giá các API hình ảnh trước đây và bỏ qua vì văn bản bị biến dạng hoặc độ phân giải bị giới hạn ở 1024, hãy bắt đầu từ đây.
gpt-image-2 là gì?
gpt-image-2 là ID mô hình của trình tạo hình ảnh thế hệ thứ hai của OpenAI, được phát hành cùng với sản phẩm ChatGPT Images 2.0 vào ngày 21 tháng 4 năm 2026. Nó thay thế dòng gpt-image-1 trước đó ở phía API và cung cấp sức mạnh cho việc tạo hình ảnh bên trong ChatGPT trên web và di động.

Ba điều khiến nó đáng để xem xét lại nếu bạn thử nghiệm tạo hình ảnh bằng OpenAI lần cuối vào năm 2024 hoặc 2025:
- Văn bản dễ đọc trên nhiều loại chữ viết. Các nhãn UI nhỏ, logo, chú thích và các ký tự không thuộc chữ Latinh (tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengali) giờ đây hiển thị đủ rõ ràng để có thể sử dụng mà không cần chỉnh sửa lại thủ công.
- Lập luận trước khi tạo pixel. Chế độ `thinking` (suy nghĩ) dành thêm sức mạnh tính toán để lập kế hoạch bố cục, đếm các đối tượng và kiểm tra các ràng buộc trước khi tạo hình ảnh. OpenAI mô tả nó như mô hình "suy nghĩ" về bản tóm tắt; trên thực tế, nó giúp giảm số lượng lời nhắc bạn phải dùng lại do đếm sai đối tượng hoặc sơ đồ bị gán nhãn sai.
- Độ phân giải cao hơn, khung vẽ rộng hơn. Lên đến 2.000 px ở cạnh dài và tỷ lệ khung hình cực đoan như 3:1 hoặc 1:3, cho phép bạn tạo biểu ngữ, trang bìa slide và video ngắn dọc mà không cần bước nâng cấp độ phân giải.
Bài viết của chính OpenAI định vị đây là một bước nhảy vọt từ "công cụ giải trí sáng tạo" sang "công cụ quy trình làm việc trực quan"; bao gồm các trang tạp chí, đồ họa thông tin, mẫu slide, thậm chí cả các bảng truyện tranh manga. .
Điều gì đã thay đổi so với gpt-image-1
Nếu bạn đã xây dựng dựa trên điểm cuối hình ảnh OpenAI trước đó, đây là những khác biệt quan trọng ở cấp độ mã.
| Tính năng | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Độ phân giải tối đa | 1024 px | 2.000 px ở cạnh dài |
| Tỷ lệ khung hình | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| Số lượng hình ảnh mỗi yêu cầu | 1 | Tối đa 10, với độ nhất quán về phong cách |
| Hiển thị văn bản | Chỉ tiếng Anh, thường bị lỗi | Đa ngôn ngữ, bao gồm các ký tự CJK và Indic |
| Chế độ lập luận | Không | Có (cờ thinking) |
| Tìm kiếm web trong quá trình tạo | Không | Có, trong chế độ tư duy |
Chế độ tạo hàng loạt là thay đổi ít được nói đến nhất nhưng hữu ích nhất. Một lời nhắc duy nhất có thể trả về mười biến thể có chung bố cục và bảng màu, đây là cách một nhà thiết kế lặp lại và cách một nhóm sản phẩm tạo ra các hình ảnh hero nhất quán trên một tập hợp trang.

Khả dụng và định giá
Việc triển khai được phân tầng.
- Người dùng **ChatGPT Free** nhận được mô hình
gpt-image-2tiêu chuẩn. - Người đăng ký **ChatGPT Plus, Pro và Business** có chế độ tư duy, thời gian lập luận lâu hơn và tìm kiếm web trong quá trình tạo.
- **Nhà phát triển API** có cả hai chế độ thông qua ID mô hình
gpt-image-2. Khả dụng đã được triển khai theo giai đoạn sau khi ChatGPT ra mắt.
Định giá, theo trang định giá API của OpenAI, được tính theo token: 5 đô la cho mỗi triệu token văn bản đầu vào, 10 đô la cho mỗi triệu token văn bản đầu ra, 8 đô la cho mỗi triệu token hình ảnh đầu vào và 30 đô la cho mỗi triệu token hình ảnh đầu ra. Với một hình ảnh chất lượng cao 1024 × 1024 tiêu chuẩn, chi phí khoảng 0,21 đô la mỗi hình ảnh; cao hơn khoảng 60 phần trăm so với thế hệ trước, đây là chi phí của khung vẽ lớn hơn và bước lập luận.
Đáng lưu ý: chế độ tư duy được tính phí dựa trên các token lập luận bổ sung, vì vậy một sơ đồ với yêu cầu bố cục nghiêm ngặt sẽ tốn kém hơn một lời nhắc minh họa tự do. Hãy tính toán ngân sách cho nó thay vì giả định một mức giá cố định cho mỗi hình ảnh.
Gọi API
Điểm cuối tuân theo cùng một mẫu images/generations như mô hình trước đó. Một yêu cầu tối thiểu trông như thế này:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
Để bật chế độ lập luận, hãy truyền tham số thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
Phản hồi trả về dữ liệu hình ảnh base64 hoặc URL tùy thuộc vào response_format của bạn; lược đồ không thay đổi so với gpt-image-1, vì vậy các trình bao bọc SDK hiện có vẫn hoạt động sau khi thay đổi ID mô hình.
Một phiên bản Python sử dụng SDK chính thức:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() in practice
Hai lưu ý thực tế từ quá trình thử nghiệm:
- Chế độ tư duy có ba cấp (`low`, `medium`, `high`) đánh đổi độ trễ để lấy độ chính xác bố cục. Đối với biểu đồ, bảng và bất kỳ hình ảnh nào cần hiển thị đúng số liệu, `medium` là cài đặt mặc định hữu ích.
- Đầu ra theo lô (`n > 1`) giữ được tính nhất quán về phong cách trong một lần gọi, nhưng mất tính nhất quán giữa các lần gọi riêng biệt. Nếu bạn cần một bộ mười hình ảnh khớp nhau, hãy yêu cầu mười hình ảnh trong một yêu cầu.
Kiểm tra gpt-image-2 với Apidog
Lặp lại trên một mô hình hình ảnh từ dòng lệnh rất khó khăn; bạn không thể xem trước kết quả, thay đổi lời nhắc hoặc tạo phiên bản cho chúng. Một ứng dụng khách API chuyên dụng là công cụ phù hợp, và nếu bạn đã sử dụng Postman hoặc một công cụ REST đầu cuối, hãy cân nhắc một giải pháp thay thế được xây dựng có mục đích để xử lý phản hồi hình ảnh một cách tự nhiên.

Apidog coi điểm cuối hình ảnh của OpenAI như một yêu cầu hàng đầu. Bạn nhập thông số kỹ thuật OpenAPI của OpenAI, đặt OPENAI_API_KEY làm biến môi trường, dán lời nhắc của bạn vào phần thân và nhấn Gửi. Các phản hồi hình ảnh hiển thị trực tiếp, dạng base64 hoặc URL, và bạn có thể phân nhánh yêu cầu thành các biến thể để so sánh tỷ lệ khung hình, cấp chất lượng và chế độ tư duy cạnh nhau.
Một quy trình làm việc hữu ích:
- Tạo một yêu cầu
gpt-image-2trong một bộ sưu tập Apidog. - Lưu hai môi trường: một với
thinking: "off", một vớithinking: "medium". - Chạy cùng một lời nhắc qua cả hai, so sánh các đầu ra và giữ lại kết quả tốt nhất trong thư viện lời nhắc của bạn.
- Phân nhánh bộ sưu tập cho từng loại tài sản (biểu ngữ, trang bìa slide, đồ họa thông tin) để mỗi loại có bộ tham số được điều chỉnh riêng.
Bạn cũng có thể xâu chuỗi các lệnh gọi: tạo hình ảnh, sau đó đăng URL lên điểm cuối tải lên CDN của bạn trong cùng một lần chạy thử nghiệm Apidog. Đó là phần mà các tập lệnh curl không làm tốt.
Nếu bạn đã chạy các thử nghiệm tạo hình ảnh trong một ứng dụng khách HTTP chung, đây là nơi một nền tảng API thực sự thể hiện giá trị của mình. Tải xuống Apidog và trỏ nó đến khóa OpenAI của bạn; việc thiết lập chỉ mất chưa đầy năm phút.
Những điểm gpt-image-2 vẫn còn gặp khó khăn
Thông báo rất mạnh mẽ, nhưng vẫn tồn tại những giới hạn rõ ràng.
- **Khuôn mặt chân thực chụp cận cảnh** vẫn còn bị sai lệch, đặc biệt đối với các nhân vật công chúng có tên tuổi. Các rào cản nhận dạng của OpenAI từ chối nhiều lời nhắc đó một cách thẳng thừng.
- **Tài sản thương hiệu chính xác** (hình dạng logo chính xác, ký tự có thương hiệu) không đáng tin cậy; hãy sử dụng nó cho tâm trạng, không phải để phát hành các dấu hiệu thương hiệu cuối cùng.
- **Các khối văn bản dài** (toàn bộ đoạn văn trong một hình ảnh) vẫn bị hỏng sau vài trăm ký tự. Nó được thiết kế cho chú thích, tiêu đề và nhãn, chứ không phải để hiển thị một bài báo dưới dạng hình ảnh.
- **Tính nhất quán giữa các phiên** không được đảm bảo. Tính năng tạo hàng loạt giữ phong cách trong một lần gọi; một lần gọi riêng biệt vào ngày hôm sau sẽ bị lệch ngay cả với cùng một lời nhắc giống hạt giống.
Cả The Decoder và PetaPixel đều chỉ ra những giới hạn tương tự trong các bài viết thực tế của họ. Xem bài đánh giá của The Decoder để biết phân tích chi tiết hơn.
So sánh với các công cụ tạo hình ảnh khác trên thị trường năm 2026
OpenAI không đơn độc trong không gian kết hợp lập luận và hình ảnh. Nano Banana 2 của Google đã ra mắt vài tuần trước đó, và một số mô hình đa phương thức mã nguồn mở đã thu hẹp khoảng cách về khả năng hiển thị văn bản.
Nếu bạn đang đánh giá các lựa chọn thay thế về phía API, một vài phân tích chuyên sâu liên quan đáng để bạn dành thời gian:
- Thông báo về Qwen 3.5 Omni đề cập đến nỗ lực đa phương thức của Alibaba, bao gồm đầu vào và tạo hình ảnh.
- Hướng dẫn API GLM 5V Turbo trình bày về API ngôn ngữ-thị giác của Zhipu, rẻ hơn nhưng đánh đổi độ chính xác của văn bản.
- Cách sử dụng Qwen 3.5 Omni là tài liệu hướng dẫn thực hành đi kèm với bài đăng thông báo.
- Phân tích Cursor Composer 2 trình bày cách các sản phẩm AI ưu tiên lập luận định hình lại trải nghiệm người dùng công cụ; cùng một mô hình thúc đẩy ChatGPT Images 2.0.
- Đối với một lần ra mắt gần đây khác liên quan đến OpenAI, hãy xem hướng dẫn Microsoft VibeVoice của chúng tôi.
Hãy chọn gpt-image-2 khi độ chính xác của văn bản, lập luận về bố cục và tích hợp với phần còn lại của hệ sinh thái OpenAI quan trọng hơn chi phí. Hãy chọn một mô hình đa phương thức mã nguồn mở khi bạn cần tự lưu trữ, chi phí mỗi hình ảnh thấp hơn hoặc giấy phép tự do cho sản phẩm thương mại.
Câu hỏi thường gặp
gpt-image-2 có khả dụng trong gói ChatGPT miễn phí không?Có. Chế độ tiêu chuẩn khả dụng cho tất cả người dùng ChatGPT. Chế độ tư duy, lập luận mở rộng và tìm kiếm web trong quá trình tạo được giới hạn cho các gói Plus, Pro và Business. Quyền truy cập API là riêng biệt và gắn liền với tài khoản nhà phát triển OpenAI của bạn; các bậc giới hạn tốc độ mà bạn đã sử dụng vẫn được áp dụng.
gpt-image-2 có hỗ trợ chỉnh sửa hình ảnh và inpainting không?Việc ra mắt tập trung vào chuyển văn bản thành hình ảnh với chế độ hàng loạt và chế độ tư duy. Các điểm cuối kiểu chỉnh sửa (hình ảnh + mặt nạ) dự kiến sẽ tuân theo cùng một mẫu như thế hệ trước nhưng dưới ID mô hình mới. Kiểm tra trang mô hình gpt-image-2 trước khi phát triển xung quanh tính năng inpainting.
Nó hỗ trợ độ phân giải và tỷ lệ khung hình nào?Lên đến 2.000 pixel ở cạnh dài, với tỷ lệ 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 và 1:3. Điều này bao gồm các biểu ngữ hero, video ngắn dọc, hình ảnh xã hội vuông và hình ảnh cắt rộng kiểu LinkedIn mà không cần bước nâng cấp độ phân giải.
Làm cách nào để kiểm tra yêu cầu gpt-image-2 một cách nhanh chóng?Sử dụng một ứng dụng khách API chuyên dụng. Apidog hiển thị phản hồi hình ảnh trực tiếp, lưu trữ lời nhắc dưới dạng biến bộ sưu tập và cho phép bạn so sánh các chế độ tư duy cạnh nhau. Các nhóm chuyển từ quy trình làm việc dòng lệnh thường kết hợp nó với hướng dẫn kiểm tra API không dùng Postman của chúng tôi.
Một hình ảnh có giá bao nhiêu thông qua API?Khoảng 0,21 đô la cho hình ảnh 1024 × 1024 chất lượng cao ở chế độ tiêu chuẩn. Chế độ tư duy bổ sung thêm các token lập luận, vì vậy hãy lập kế hoạch cho chi phí mỗi hình ảnh thay đổi đối với các lời nhắc nặng về bố cục. Xem trang định giá của OpenAI để biết tỷ lệ token chính xác.
Mô hình có thể tìm kiếm web trong khi tạo không?Có, trong chế độ tư duy. Mô hình có thể lấy hình ảnh tham chiếu và dữ kiện trong quá trình tạo, điều này giúp tăng độ chính xác của sơ đồ (biểu đồ với số liệu thực, bản đồ với nhãn đúng). Chế độ tiêu chuẩn không tìm kiếm.
