ChatGPT 이미지 2.0 새로운 기능 총정리

OpenAI는 2026년 4월 21일, 새로운 gpt-image-2 모델로 구동되는 ChatGPT 이미지 2.0을 출시했습니다. 이 모델은 사용자의 프롬프트를 읽고, 레이아웃을 계획하며, 선명한 다국어 텍스트를 렌더링하고, 한 번에 최대 10개의 이미지를 생성할 수 있습니다. 이 모든 것은 최대 2,000픽셀 너비로, 기존 이미지 모델이 지원하지 않던 다양한 화면 비율로 가능합니다.

개발자들에게 중요한 소식은 ChatGPT UI 업데이트가 아닙니다. gpt-image-2가 OpenAI API를 통해 추론 인식 "사고(thinking)" 모드, 토큰당 가격 책정, 그리고 이미 프로덕션에 연결하고 있는 것과 동일한 엔드포인트 패턴으로 노출된다는 점입니다.

이 가이드는 변경된 내용, API 비용, API를 처음부터 끝까지 호출하는 방법, 그리고 일회성 스크립트 작성 없이 Apidog로 테스트하는 방법을 다룹니다. 이전에 이미지 API를 평가했지만 텍스트가 왜곡되거나 해상도가 1024로 제한되어 포기했다면, 여기서부터 시작해 보세요.

버튼

gpt-image-2란 무엇인가요?

gpt-image-2는 OpenAI의 2세대 이미지 생성기 모델 ID로, 2026년 4월 21일 ChatGPT 이미지 2.0 제품과 함께 출시되었습니다. 이는 API 측면에서 이전의 gpt-image-1 계열을 대체하며, 웹과 모바일 전반의 ChatGPT 내부에서 이미지 생성을 지원합니다.

2024년 또는 2025년에 OpenAI 이미지 생성을 마지막으로 테스트했다면, 이 모델을 다시 살펴볼 만한 세 가지 이유가 있습니다:

스크립트 전반에 걸쳐 읽기 쉬운 텍스트. 작은 UI 라벨, 로고, 캡션 및 비라틴 스크립트(일본어, 한국어, 중국어, 힌디어, 벵골어)는 이제 수동 재작업 없이 바로 배포할 수 있을 만큼 깔끔하게 렌더링됩니다.
픽셀 전의 추론. thinking 모드는 렌더링 전에 구성 계획, 항목 개수 세기, 제약 조건 확인에 추가 컴퓨팅을 사용합니다. OpenAI는 이를 모델이 브리핑에 대해 "생각"한다고 설명하며, 실제로 잘못된 객체 개수나 잘못 레이블링된 다이어그램 때문에 다시 시도해야 하는 프롬프트 수를 줄여줍니다.
더 높은 해상도, 더 넓은 캔버스. 긴 쪽이 최대 2,000픽셀이며, 3:1 또는 1:3과 같은 극단적인 화면 비율도 지원하여 업스케일링 단계 없이 배너, 슬라이드 표지, 세로형 숏츠를 생성할 수 있습니다.

OpenAI 자체 설명은 이를 "창의적인 장난감"에서 "시각적 워크플로우 도구"로의 도약으로 포지셔닝합니다. 잡지 스프레드, 인포그래픽, 슬라이드 템플릿, 심지어 만화 패널까지도 포함합니다.

gpt-image-1 대비 변경된 점

이전 OpenAI 이미지 엔드포인트를 기반으로 구축했다면, 다음은 코드 수준에서 중요한 차이점입니다.

기능	gpt-image-1	gpt-image-2
최대 해상도	1024 px	긴 쪽이 2,000 px
화면 비율	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
요청당 이미지 수	1	스타일 일관성을 유지하며 최대 10개
텍스트 렌더링	영어만 가능, 종종 깨짐	CJK 및 인도어 스크립트를 포함한 다국어 지원
추론 모드	아니요	예 (`thinking` 플래그)
생성 중 웹 검색	아니요	예, 사고 모드에서

일괄 모드는 가장 조용하지만 가장 유용한 변경 사항입니다. 단일 프롬프트로 구성 및 팔레트를 공유하는 10가지 변형을 반환할 수 있으며, 이는 디자이너가 반복 작업을 수행하고, 제품 팀이 페이지 세트 전반에 걸쳐 일관된 히어로 이미지를 생성하는 방식과 동일합니다.

가용성 및 가격

출시는 단계적으로 이루어집니다.

ChatGPT 무료 사용자는 표준 gpt-image-2 모델을 사용합니다.
ChatGPT Plus, Pro, Business 구독자는 사고 모드, 더 긴 추론 실행, 생성 중 웹 검색을 이용할 수 있습니다.
API 개발자는 gpt-image-2 모델 ID를 통해 두 가지 모드를 모두 이용할 수 있습니다. 가용성은 ChatGPT 출시 이후 단계적으로 제공되었습니다.

OpenAI API 가격 책정 페이지에 따르면, 가격은 토큰화되어 있습니다: 입력 텍스트 토큰 백만 개당 $5, 출력 텍스트 토큰 백만 개당 $10, 입력 이미지 토큰 백만 개당 $8, 출력 이미지 토큰 백만 개당 $30입니다. 표준 1024 × 1024 고품질 렌더링의 경우 이미지당 약 $0.21이며, 이는 이전 세대보다 약 60% 더 비쌉니다. 이는 더 큰 캔버스와 추론 단계의 비용입니다.

주의할 점: 사고 모드는 추가 추론 토큰에 대해 청구되므로, 엄격한 레이아웃 브리핑이 있는 다이어그램은 느슨한 삽화 프롬프트보다 비용이 더 많이 듭니다. 이미지당 고정 요금으로 가정하기보다는 예산을 책정해야 합니다.

API 호출

엔드포인트는 이전 모델과 동일한 images/generations 패턴을 따릅니다. 최소한의 요청은 다음과 같습니다:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "API 테스팅 플랫폼을 위한 깔끔한 제품 히어로 이미지, 어두운 배경, 부드러운 시안색 조명, JSON 응답을 보여주는 노트북, 선명하고 읽기 쉬운 작은 글씨의 UI 라벨",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

추론 경로를 활성화하려면 thinking 매개변수를 전달하세요:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "PKCE를 사용하는 OAuth 2.1 인가 코드 흐름을 설명하는 4패널 인포그래픽. 모든 화살표에 영어와 일본어로 라벨을 붙이시오.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

응답은 response_format에 따라 Base64 이미지 데이터 또는 URL을 반환합니다. 스키마는 gpt-image-1에서 변경되지 않았으므로, 기존 SDK 래퍼는 모델 ID만 교체하면 계속 작동합니다.

공식 SDK를 사용하는 Python 버전:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="REST 클라이언트를 위한 미니멀리스트 대시보드 UI 목업, 문장 형식 레이블, 코너에 대기 시간 차트.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # 실제에서는 decode() 사용

테스트에서 얻은 두 가지 실용적인 참고 사항:

사고 모드에는 세 가지 단계(low, medium, high)가 있으며, 이는 레이아웃 정확도를 위해 대기 시간을 조절합니다. 차트, 표, 그리고 숫자를 정확하게 맞춰야 하는 모든 이미지에는 medium이 유용한 기본값입니다.
일괄 출력(n > 1)은 한 호출 내에서 스타일 일관성을 유지하지만, 별도의 호출 간에는 일관성이 떨어집니다. 일치하는 10개 세트가 필요하면 한 번의 요청으로 10개를 요청하세요.

Apidog로 gpt-image-2 테스트하기

명령줄에서 이미지 모델을 반복하는 것은 어렵습니다. 결과를 미리 보거나, 프롬프트를 교체하거나, 버전을 관리할 수 없습니다. 전용 API 클라이언트가 올바른 도구이며, 이미 Postman 또는 터미널 REST 도구를 사용하고 있다면, 이미지 응답을 기본적으로 처리하는 목적에 맞는 대안을 고려해 보세요.

Apidog는 OpenAI 이미지 엔드포인트를 일급 요청으로 처리합니다. OpenAI OpenAPI 스펙을 가져오고, OPENAI_API_KEY를 환경 변수로 설정한 다음, 프롬프트를 본문에 붙여넣고 보내기(Send)를 누르면 됩니다. 이미지 응답은 Base64 또는 URL 형식으로 인라인 렌더링되며, 요청을 변형으로 분기하여 화면 비율, 품질 계층, 사고 모드를 나란히 비교할 수 있습니다.

유용한 워크플로우:

Apidog 컬렉션에서 gpt-image-2 요청을 생성합니다.
두 가지 환경을 저장합니다: 하나는 thinking: "off", 다른 하나는 thinking: "medium"으로 설정합니다.
동일한 프롬프트를 두 환경 모두에서 실행하고, 출력을 비교한 다음, 최종 결과물을 프롬프트 라이브러리에 보관합니다.
각 자산 유형(배너, 슬라이드 커버, 인포그래픽)별로 컬렉션을 분기하여 각 유형이 자체 조정된 매개변수 세트를 갖도록 합니다.

또한 호출을 연결할 수도 있습니다: 이미지를 생성한 다음, 동일한 Apidog 테스트 실행 내에서 해당 URL을 CDN 업로드 엔드포인트에 게시합니다. 이는 curl 스크립트가 잘 수행하지 못하는 부분입니다.

일반 HTTP 클라이언트에서 이미지 생성 실험을 해왔다면, 여기가 진정한 API 플랫폼이 가치를 발휘하는 지점입니다. Apidog를 다운로드하고 OpenAI 키를 연결하세요. 설정은 5분 이내에 완료됩니다.

gpt-image-2가 여전히 어려움을 겪는 부분

발표는 강력하지만, 솔직한 한계점들도 존재합니다.

근접 촬영된 사실적인 얼굴은 여전히 불안정하며, 특히 유명 공인에 대해서는 더욱 그렇습니다. OpenAI의 신원 보호 장치는 이러한 프롬프트 중 상당수를 아예 거부합니다.
정확한 브랜드 자산(정확한 로고 기하학, 상표 등록된 캐릭터)은 신뢰할 수 없습니다. 최종 브랜드 마크를 배포하는 용도가 아닌, 분위기 연출에 사용하세요.
매우 긴 형식의 텍스트 블록(이미지 내 전체 단락)은 수백 자를 넘어가면 여전히 깨집니다. 이 모델은 기사를 이미지로 렌더링하기 위한 것이 아니라, 캡션, 제목, 라벨을 위한 것입니다.
세션 간의 일관성은 보장되지 않습니다. 일괄 처리 기능은 한 번의 호출 내에서 스타일 일관성을 유지하지만, 다음 날 별도의 호출에서는 동일한 시드와 유사한 프롬프트를 사용하더라도 달라질 수 있습니다.

디코더(Decoder)와 페타픽셀(PetaPixel) 모두 실제 사용 리뷰에서 유사한 한계를 지적했습니다. 더 자세한 내용은 디코더의 리뷰를 참조하세요.

2026년 이미지 생성 분야의 다른 모델들과 비교

OpenAI는 추론과 이미지를 결합하는 분야에서 유일한 기업이 아닙니다. Google의 Nano Banana 2는 몇 주 전에 출시되었으며, 여러 오픈소스 다중 모달 모델들도 텍스트 렌더링 격차를 좁혔습니다.

API 측면에서 대안을 평가하고 있다면, 다음 관련 심층 분석을 읽어볼 가치가 있습니다:

Qwen 3.5 Omni 발표는 이미지 입력 및 생성을 포함한 알리바바의 다중 모달 추진을 다룹니다.
GLM 5V Turbo API 가이드는 Zhipu의 비전-언어 API를 설명합니다. 이 API는 더 저렴하지만 텍스트 충실도를 희생합니다.
Qwen 3.5 Omni 사용 방법은 발표 게시물의 실무자 동반 가이드입니다.
Cursor Composer 2 분석은 추론 우선 AI 제품이 도구 UX를 어떻게 재편하는지 보여줍니다. ChatGPT 이미지 2.0을 구동하는 것과 동일한 패턴입니다.
최근 OpenAI 관련 출시 제품으로는 Microsoft VibeVoice 가이드를 참조하세요.

텍스트 정확도, 구성에 대한 추론, 그리고 나머지 OpenAI 스택과의 통합이 비용보다 중요할 때는 gpt-image-2를 선택하세요. 자체 호스팅, 이미지당 낮은 비용, 또는 상업적 출력에 대한 허용적인 라이선스가 필요할 때는 오픈소스 다중 모달 모델을 선택하세요.

자주 묻는 질문

gpt-image-2는 무료 ChatGPT 계층에서 사용할 수 있나요?네. 표준 모드는 모든 ChatGPT 사용자가 사용할 수 있습니다. 사고 모드, 확장된 추론, 생성 중 웹 검색은 Plus, Pro, Business 구독자에게만 제공됩니다. API 접근은 별개이며 OpenAI 개발자 계정과 연결되어 있습니다. 이미 사용 중인 동일한 속도 제한 계층이 적용됩니다.

gpt-image-2는 이미지 편집 및 인페인팅을 지원하나요?이번 출시는 일괄 및 사고 모드를 포함한 텍스트-이미지 생성에 중점을 둡니다. 편집 스타일 엔드포인트(이미지 + 마스크)는 이전 세대와 동일한 패턴을 따르지만 새로운 모델 ID 아래에서 제공될 것으로 예상됩니다. 인페인팅을 기반으로 구축하기 전에 gpt-image-2 모델 페이지를 확인하세요.

어떤 해상도와 화면 비율을 지원하나요?긴 쪽이 최대 2,000픽셀이며, 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 비율을 지원합니다. 이는 히어로 배너, 세로형 숏츠, 정사각형 소셜, LinkedIn 스타일의 넓은 자르기를 업스케일링 단계 없이 처리할 수 있습니다.

gpt-image-2 요청을 빠르게 테스트하려면 어떻게 해야 하나요?전용 API 클라이언트를 사용하세요. Apidog는 이미지 응답을 인라인으로 렌더링하고, 프롬프트를 컬렉션 변수로 저장하며, 사고 모드를 나란히 비교할 수 있게 해줍니다. 명령줄 워크플로우를 사용하던 팀은 종종 Postman 없이 API 테스트 가이드와 함께 사용합니다.

API를 통해 이미지 하나를 생성하는 데 드는 비용은 얼마인가요?표준 모드에서 1024 × 1024 고품질 이미지의 경우 대략 $0.21입니다. 사고 모드는 추가 추론 토큰에 대해 비용이 청구되므로, 레이아웃이 복잡한 프롬프트의 경우 이미지당 가변적인 비용을 계획해야 합니다. 정확한 토큰 요금은 OpenAI 가격 책정 페이지를 참조하세요.

모델이 생성 중에 웹을 검색할 수 있나요?네, 사고 모드에서 가능합니다. 모델은 생성 중에 참조 이미지와 사실을 가져올 수 있어 다이어그램 정확도(실제 숫자가 있는 차트, 정확한 레이블이 있는 지도)에 도움이 됩니다. 표준 모드에서는 검색하지 않습니다.