GPT-5.5는 2026년 4월 23일에 출시되었으며, 개발자 헤드라인은 간단합니다: OpenAI는 같은 날 ChatGPT와 Codex 내부에 모델을 공개했으며, 응답(Responses) 및 채팅 완성(Chat Completions) API를 "매우 빠르게" 제공할 것을 약속했습니다. 이 가이드는 해당 기준의 양쪽을 모두 다룹니다. 키가 작동하는 즉시 GPT-5.5를 호출하는 방법과 초기 테스터들이 Codex 로그인 경로를 통해 현재 어떻게 이를 사용하고 있는지 설명합니다.
반복 작업 시 비용을 절약하는 Apidog 내에서 엔드포인트 형태, 인증, Python 및 Node 예시, 전체 매개변수 표, 사고 모드 가격 계산, 오류 처리 및 테스트 워크플로우를 얻을 수 있습니다.
버튼
모델에 대한 제품 수준 개요는 GPT-5.5란 무엇인가를 참조하십시오. 순수한 무료 계층 경로는 GPT-5.5 API를 무료로 사용하는 방법을 참조하십시오.
요약 (TL;DR)
- GPT-5.5는 응답(Responses) 및 채팅 완성(Chat Completions) 엔드포인트에서 제공되며, 모델 ID는
gpt-5.5입니다. Pro 버전은gpt-5.5-pro입니다. - API 가격은 입력 $5 / M 및 출력 $30 / M이며, Pro 버전은 입력 $30 / M 및 출력 $180 / M입니다.
- 컨텍스트 창은 API에서 1 M 토큰이며, Codex CLI 내에서는 400 K입니다.
- 일반 API 출시가 완료될 때까지 개발자는 ChatGPT 로그인을 사용하여 Codex를 통해 GPT-5.5를 사용할 수 있습니다.
- 새로운 모델 ID와 확장된
reasoning블록을 사용하여 GPT-5.4와 동일한 요청 형태를 갖춘 컬렉션을 미리 구축하려면 Apidog를 사용하십시오.
사전 준비 사항
첫 요청을 보내기 전에 네 가지 사항을 준비하십시오:
- 청구 가능한 계층을 가진 OpenAI 개발자 계정. ChatGPT Plus 또는 Pro 구독은 API 청구와 별개입니다. UI 액세스 및 프로그래밍 방식 액세스를 모두 원하면 둘 다 필요합니다.
- GPT-5 모델군에 액세스할 수 있는 API 키. 모든 프로덕션 워크로드에는 사용자 키보다 프로젝트 범위 키가 강력히 권장됩니다.
gpt-5.5를 지원하는 SDK 버전. Python에서는openai>=2.1.0, Node에서는openai@5.1.0이상입니다.- 터미널을 스팸하지 않고 요청을 재생할 수 있는 API 클라이언트. curl은 한 번의 호출에는 작동하지만, 그 후에는 Apidog 또는 유사한 것으로 전환하십시오.
키를 한 번 내보내십시오:
export OPENAI_API_KEY="sk-proj-..."
엔드포인트 및 인증
GPT-5.5는 나머지 GPT-5 제품군과 동일한 두 가지 엔드포인트에 있습니다.
POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
응답 API(Responses API)는 OpenAI의 최신 도구 인식 인터페이스이며, 사고 모드, 웹 검색 및 컴퓨터 사용이 모두 깔끔하게 연결되는 곳입니다. 채팅 완성(Chat Completions)은 여전히 작동하며 대부분의 레거시 통합을 지원합니다.
인증은 베어러 토큰입니다. 모든 요청은 모델 ID, 프롬프트 또는 메시지 배열, 그리고 원하는 매개변수가 포함된 JSON 본문을 사용합니다.
curl https://api.openai.com/v1/responses \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.5",
"input": "openai/codex 저장소의 지난 10개 릴리스를 세 가지 요점으로 요약해 주세요.",
"reasoning": { "effort": "medium" }
}'
호출이 성공하면 메시지의 output 배열과 입력, 출력, 추론 토큰으로 분류된 usage 블록이 포함된 JSON 객체를 얻습니다. 실패 시에는 code와 사람이 읽을 수 있는 message가 포함된 표준 OpenAI 봉투가 반환됩니다. 이 가이드 끝에 있는 오류 표는 가장 먼저 발생할 수 있는 오류를 다룹니다.
요청 매개변수
본문의 모든 필드는 비용 또는 동작과 연결됩니다. 다음은 gpt-5.5의 전체 매핑입니다.
| 매개변수 | 유형 | 값 | 참고 |
|---|---|---|---|
model |
문자열 | gpt-5.5, gpt-5.5-pro |
필수. Pro는 입력 6배, 출력 6배 비용. |
input / messages |
문자열 또는 배열 | 프롬프트 또는 채팅 배열 | 필수. 응답(Responses)에는 input, 채팅 완성(Chat Completions)에는 messages. |
reasoning.effort |
문자열 | none, low, medium, high, xhigh |
기본값은 low. xhigh는 토큰 비용으로 사고(Thinking) 스타일 깊이를 해제. |
max_output_tokens |
정수 | 1 – 128000 | 추론 토큰을 제외한 출력의 최대 한도. |
tools |
배열 | Function, web_search, file_search, computer_use, code_interpreter | 도구 정의; 모델이 선택하고 연결합니다. |
tool_choice |
문자열 또는 객체 | auto, none, 또는 이름 지정된 도구 |
필요하다고 판단될 때 특정 도구를 강제로 호출. |
response_format |
객체 | { "type": "json_schema", "schema": {...} } |
구조화된 출력; 엄격 모드가 이제 기본값. |
stream |
부울 | true / false | 서버 전송 이벤트. 추론 토큰은 별도의 이벤트로 도착. |
user |
문자열 | 자유 형식 | 남용 감지에 사용됨; 해시된 사용자 ID 전달. |
metadata |
객체 | 최대 16개의 키-값 쌍 | OpenAI 대시보드 및 로그에 표시. |
seed |
정수 | 모든 int32 | 소프트 결정론; 동일한 프롬프트와 동일한 시드는 유사하며 동일하지는 않음. |
temperature |
숫자 | 0 – 2 | reasoning.effort >= medium일 경우 무시됨. |
가장 비용에 영향을 미치는 세 가지 필드는 reasoning.effort, max_output_tokens, 그리고 tools입니다. reasoning.effort: "high" 또는 "xhigh"로 실행되는 사고(Thinking) 스타일은 low 실행보다 출력 토큰 수를 3~8배 쉽게 증가시킬 수 있습니다.
Python 예시
GPT-5.5의 SDK 형태는 5.4 Responses API를 따르며, 유일한 차이점은 모델 ID와 더 넓은 reasoning.effort 범위입니다.
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
input=[
{
"role": "system",
"content": "당신은 시니어 Go 엔지니어입니다. 간결하고 실행 가능한 코드로 답변하세요.",
},
{
"role": "user",
"content": (
"제한된 동시성과 컨텍스트 취소 경로를 가진 워커 풀을 작성하세요. "
"서드 파티 종속성은 없습니다."
),
},
],
reasoning={"effort": "medium"},
max_output_tokens=4000,
)
print(response.output_text)
print(response.usage.model_dump())
주목할 만한 두 가지 사항:
response.output_text는output배열을 평면화합니다. 구조화된 이벤트(도구 호출, 추론 추적, 인용)가 필요한 경우response.output을 직접 읽으십시오.usage는 이제input_tokens,output_tokens,reasoning_tokens를 별도의 카운터로 반환합니다. 세 가지 모두에 대해 청구됩니다.
Node 예시
import OpenAI from "openai";
const client = new OpenAI();
const response = await client.responses.create({
model: "gpt-5.5",
input: [
{ role: "system", content: "당신은 신중한 검토자입니다." },
{
role: "user",
content:
"이 마이그레이션을 검토하고 쓰기 집약적인 테이블을 200ms 이상 잠글 수 있는 모든 작업을 표시하십시오.",
},
],
reasoning: { effort: "high" },
tools: [{ type: "file_search" }],
max_output_tokens: 6000,
});
console.log(response.output_text);
console.log(response.usage);
작업이 검토 스타일이고 누락된 문제의 비용이 추론 토큰의 몇 센트 추가 비용보다 클 경우 reasoning.effort를 high로 설정하십시오.
사고 모드 (Thinking mode)
GPT-5.5 사고 모드는 다른 모델 ID가 아닙니다. 이는 reasoning.effort를 high 또는 xhigh로 설정하고 더 긴 max_output_tokens 예산을 함께 사용하여 실행되는 표준 gpt-5.5 모델입니다. OpenAI의 ChatGPT UI는 이를 토글로 노출하며, API에서는 요청별로 제어할 수 있습니다.
두 가지 경험 법칙:
medium을 기본값으로 사용하십시오. 대부분의 에이전트 작업, 다중 파일 디버깅 및 문서 생성을 다룹니다. 비용은 GPT-5.4와 거의 동일하게 유지됩니다.- 연구, 정확성 중시 검토 및 긴 도구 체인에는
high및xhigh를 남겨두십시오. 출력 토큰 수의 3~8배를 예산으로 책정하고, 30초 이내에 응답이 반환될 것이라고 가정하기보다 응답 시간을 측정하십시오.
요청이 computer_use 또는 긴 웹 검색 체인을 사용하는 경우, 사고 수준의 노력은 비용을 들일 가치가 있습니다. OpenAI가 출시 게시물에서 인용한 환각 감소는 주로 이러한 워크플로우에서 나타납니다.
구조화된 출력
엄격한 JSON 출력은 GPT-5.5의 기본값입니다. 스키마를 전달하면 SDK는 잘못된 형식의 JSON을 반환하지 않습니다.
response = client.responses.create(
model="gpt-5.5",
input="이 스크립트 청크에서 제목, 발표자 및 시작 시간을 추출하십시오.",
response_format={
"type": "json_schema",
"json_schema": {
"name": "session_extract",
"strict": True,
"schema": {
"type": "object",
"required": ["title", "speaker", "start_time"],
"properties": {
"title": {"type": "string"},
"speaker": {"type": "string"},
"start_time": {"type": "string", "format": "date-time"},
},
},
},
},
)
다운스트림 코드에 공급되는 모든 파이프라인의 경우 항상 스키마를 설정하십시오. 토큰 수준에서 비용이 들지 않으며, 그렇지 않으면 잘못된 형식의 출력 주변에 작성했을 재시도 루프를 제거합니다.
도구 사용 및 에이전트
응답 API는 다섯 가지 퍼스트 파티 도구 유형을 노출합니다:
web_search— 실시간 검색, 이제 결과별 인용이 포함됩니다.file_search— 업로드된 파일에 대한 벡터 검색.code_interpreter— 샌드박스 Python.computer_use— Operator 스택을 통한 마우스, 키보드 및 브라우저 사용.function— 사용자 정의 콜백.
여기서 GPT-5.5가 5.4에 비해 개선된 점은 도구 목록이 아니라, 모델이 감독 없이 도구를 연결하려는 의지입니다. The Decoder의 재현 스위트 테스트에서 GPT-5.5는 동일한 프롬프트에서 5.4보다 사용자 개입 없이 다단계 도구 체인을 11% 더 많이 완료했습니다.
오류 처리 및 재시도
이름으로 처리할 만큼 충분히 자주 발생하는 네 가지 오류 코드를 예상하십시오.
| 코드 | 의미 | 재시도? |
|---|---|---|
429 rate_limit_exceeded |
분당 또는 일일 한도 초과. | 예, 지수 백오프 + 지터(jitter) 사용. |
400 context_length_exceeded |
입력 + 출력 + 추론 > 1 M 토큰. | 아니요, 입력을 줄이십시오. |
500 server_error |
OpenAI 측의 일시적인 오류. | 예, 최대 3회 시도. |
403 policy_violation |
안전 정책 위반. | 아니요, 프롬프트를 다시 작성하십시오. |
추론 토큰은 컨텍스트 창에 포함됩니다. 900K 토큰 입력에 대한 reasoning.effort: "xhigh" 호출은 사용자 메시지가 짧더라도 컨텍스트 오버플로우로 400을 초과할 수 있습니다.
Apidog를 사용한 테스트 워크플로우
GPT-5.5 호출은 프롬프트를 20번 다시 실행하여 스키마 버그를 발견하고 싶지 않을 만큼 충분히 비쌉니다. 가장 적은 토큰을 낭비하는 워크플로우:
- Apidog에서 요청을 한 번 구축하고, 컬렉션 항목으로 저장한 다음, 환경(개발, 스테이징, 프로덕션 키)을 태그합니다.
- 내장된 모의 서버를 사용하여 다운스트림 코드를 반복하는 동안 마지막 실제 응답을 재생합니다.
- 스키마가 안정적일 때만 라이브 키로 전환합니다.
Apidog는 Claude Code 및 Cursor 통합도 제공하므로 사용하는 편집기 수준 에이전트에서 동일한 컬렉션에 도달할 수 있습니다. 전체 설정은 VS Code에서 Apidog 사용 안내 및 Apidog 대 Postman 비교를 참조하십시오.
API가 일반 출시되기 전에 GPT-5.5 호출하기
OpenAI가 응답 API 출시를 완료할 때까지 GPT-5.5를 직접 사용하려는 개발자를 위한 실용적인 경로는 Codex 로그인 흐름입니다. Codex 무료 가이드는 CLI 설치, ChatGPT 계정으로 인증, 모델 선택 과정을 안내합니다.
FAQ
gpt-5.5-mini가 있나요?출시 시점에는 없습니다. OpenAI는 gpt-5.4-mini를 비용 최적화 SKU로 유지했습니다.
컨텍스트 창은 어떻게 되나요?API에서는 1M 토큰입니다. Codex CLI 내에서는 400K입니다. 둘 다 추론 토큰을 포함합니다.
GPT-5.4 코드를 다시 작성해야 하나요?아니요. 모델 ID를 교체하고, 사고(Thinking) 수준 출력을 원하면 max_output_tokens를 늘리고, 워크로드에 맞게 reasoning.effort를 다시 조정하십시오.
비용을 어떻게 줄이나요?세 가지 레버: 배치(50% 할인), 플렉스(50% 할인, 느린 대기열), 재시도 루프를 없애기 위한 엄격한 스키마. 전체 비용 계산은 GPT-5.5 가격 분석을 참조하십시오.
API GA 발표는 어디서 볼 수 있나요?OpenAI 개발자 커뮤니티와 OpenAI API 가격 책정 페이지가 가장 빠른 공개 신호입니다.
