Cómo Usar la API de GPT-5.5

GPT-5.5 se lanzó el 23 de abril de 2026, y el titular para desarrolladores es simple: OpenAI abrió el modelo dentro de ChatGPT y Codex el mismo día, y se comprometió a lanzar las API de Responses y Chat Completions "muy pronto". Esta guía cubre ambos lados de esa línea; cómo llamar a GPT-5.5 en el momento en que las claves funcionen, y cómo los primeros probadores lo están utilizando hoy a través de la ruta de inicio de sesión de Codex.

Obtendrá formas de endpoints, autenticación, ejemplos en Python y Node, la tabla completa de parámetros, cálculos de precios en modo de pensamiento, manejo de errores y un flujo de trabajo de prueba en Apidog que ahorra créditos cuando itera.

botón

Para una descripción general del modelo a nivel de producto, consulte Qué es GPT-5.5. Para una ruta gratuita pura, consulte Cómo usar la API de GPT-5.5 gratis.

En resumen

GPT-5.5 se envía en los endpoints de Responses y Chat Completions; el ID del modelo es gpt-5.5. La versión Pro es gpt-5.5-pro.
El precio de la API es de $5 / M de entrada y $30 / M de salida; la versión Pro es de $30 / M de entrada y $180 / M de salida.
La ventana de contexto es de 1 M de tokens en la API y 400 K dentro de Codex CLI.
Hasta que finalice el despliegue general de la API, los desarrolladores pueden utilizar GPT-5.5 a través de Codex usando un inicio de sesión de ChatGPT.
Utilice Apidog para pre-construir la colección; la forma de la solicitud coincide con GPT-5.4 con un nuevo ID de modelo y un bloque reasoning expandido.

Requisitos previos

Antes de enviar la primera solicitud, prepare cuatro cosas:

Una cuenta de desarrollador de OpenAI con un nivel de facturación. Una suscripción a ChatGPT Plus o Pro es independiente de la facturación de la API; necesita ambas si desea acceso a la interfaz de usuario y acceso programático.
Una clave API con acceso a la familia de modelos GPT-5. Se recomiendan encarecidamente las claves con alcance de proyecto sobre las claves de usuario para cualquier carga de trabajo de producción.
La versión del SDK que admite gpt-5.5. En Python, es openai>=2.1.0; en Node, es openai@5.1.0 o posterior.
Un cliente API que pueda reproducir solicitudes sin saturar la terminal. curl funciona para una llamada; después de eso, cambie a Apidog o similar.

Exporte su clave una vez:

export OPENAI_API_KEY="sk-proj-..."

Endpoint y autenticación

GPT-5.5 reside en los mismos dos endpoints que el resto de la familia GPT-5.

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions

La API de Responses es la interfaz más nueva y consciente de herramientas de OpenAI, y es donde el modo de pensamiento, la búsqueda web y el uso de computadoras se conectan limpiamente. Chat Completions sigue funcionando y aún maneja la mayoría de las integraciones heredadas.

La autenticación es un token de portador (bearer token). Cada solicitud toma un cuerpo JSON con el ID del modelo, el prompt o array de mensajes, y cualquier parámetro que desee.

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'

Si la llamada tiene éxito, obtendrá un objeto JSON con un array output de mensajes y un bloque usage desglosado en tokens de entrada, salida y razonamiento. Los fallos devuelven la estructura estándar de OpenAI con un code y un message legible por humanos; la tabla de errores al final de esta guía cubre los que encontrará primero.

Parámetros de solicitud

Cada campo en el cuerpo se relaciona con el costo o el comportamiento. Aquí está el mapa completo para gpt-5.5.

Parámetro	Tipo	Valores	Notas
`model`	string	`gpt-5.5`, `gpt-5.5-pro`	Obligatorio. Pro cuesta 6 veces la entrada y 6 veces la salida.
`input` / `messages`	string o array	Prompt o array de chat	Obligatorio. `input` para Responses, `messages` para Chat Completions.
`reasoning.effort`	string	`none`, `low`, `medium`, `high`, `xhigh`	El valor predeterminado es `low`. `xhigh` desbloquea la profundidad de estilo Pensamiento con un costo de tokens.
`max_output_tokens`	integer	1 – 128000	Límite estricto para la salida, excluyendo tokens de razonamiento.
`tools`	array	Function, web_search, file_search, computer_use, code_interpreter	Definiciones de herramientas; el modelo las elige y encadena.
`tool_choice`	string o object	`auto`, `none`, o una herramienta nombrada	Forzar la llamada a una herramienta específica cuando se sabe que se necesita.
`response_format`	object	`{ "type": "json_schema", "schema": {...} }`	Salida estructurada; el modo estricto es ahora el predeterminado.
`stream`	boolean	true / false	Eventos enviados por el servidor. Los tokens de razonamiento llegan como eventos separados.
`user`	string	Formato libre	Se usa para detección de abuso; pase un ID de usuario hasheado.
`metadata`	object	Hasta 16 pares clave-valor	Aparece en el panel y los registros de OpenAI.
`seed`	integer	Cualquier int32	Determinismo suave; la misma semilla con el mismo prompt es cercana, no idéntica.
`temperature`	number	0 – 2	Ignorado cuando `reasoning.effort >= medium`.

Los tres campos que más influyen en el costo son reasoning.effort, max_output_tokens y tools. Las ejecuciones de estilo de pensamiento con reasoning.effort: "high" o "xhigh" pueden añadir fácilmente de 3 a 8 veces la cantidad de tokens de salida de una ejecución low.

Ejemplo de Python

La forma del SDK para GPT-5.5 sigue la API de Responses de 5.4; la única diferencia es el ID del modelo y el rango más amplio de reasoning.effort.

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())

Dos cosas a tener en cuenta:

response.output_text aplana el array output por usted. Si necesita los eventos estructurados (llamadas a herramientas, trazas de razonamiento, citaciones), lea response.output directamente.
usage ahora devuelve input_tokens, output_tokens y reasoning_tokens como contadores separados. Facture en base a los tres.

Ejemplo de Node

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);

Configure reasoning.effort en high cuando la tarea sea de tipo revisión y el costo de un problema no detectado sea mayor que el costo de unos pocos centavos extra en tokens de razonamiento.

Modo de pensamiento

El modo de Pensamiento de GPT-5.5 no es un ID de modelo diferente; es el modelo estándar gpt-5.5 ejecutado con reasoning.effort en high o xhigh, junto con un presupuesto más largo de max_output_tokens. La interfaz de usuario de ChatGPT de OpenAI lo expone como un interruptor; en la API, usted lo controla por solicitud.

Dos reglas generales:

Use medium como valor predeterminado. Cubre la mayoría del trabajo de agente, la depuración de múltiples archivos y la generación de documentos. Los costos se mantienen casi planos en comparación con GPT-5.4.
Reserve high y xhigh para investigación, revisión crítica para la corrección y cadenas de herramientas largas. Asigne de 3 a 8 veces la cantidad de tokens de salida y mida el tiempo de respuesta en lugar de asumir que regresará en menos de 30 segundos.

Si su solicitud implica computer_use o largas cadenas de búsqueda web, el esfuerzo a nivel de Pensamiento vale la pena; la reducción de la alucinación que OpenAI citó en la publicación de lanzamiento se manifiesta principalmente en estos flujos de trabajo.

Salida estructurada

La salida JSON estricta es el valor predeterminado en GPT-5.5. Pase un esquema y el SDK se negará a devolver JSON mal formado.

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)

Para cualquier pipeline que alimente código aguas abajo, siempre establezca un esquema. No cuesta nada a nivel de tokens y elimina el bucle de reintento que de otro modo escribiría para manejar salidas mal formadas.

Uso de herramientas y agentes

La API de Responses expone cinco tipos de herramientas de primera parte:

web_search — búsqueda en tiempo real, ahora con citaciones por resultado.
file_search — búsqueda vectorial sobre archivos subidos.
code_interpreter — Python en sandbox.
computer_use — ratón, teclado y navegador a través de la pila Operator.
function — sus propias devoluciones de llamada.

La mejora de GPT-5.5 sobre 5.4 aquí no es la lista de herramientas; es la disposición del modelo a encadenarlas sin supervisión. En las pruebas contra el conjunto de reproducción de The Decoder, GPT-5.5 completó un 11 % más de cadenas de herramientas de varios pasos sin intervención del usuario que 5.4 con el mismo prompt.

Manejo de errores y reintentos

Espere cuatro códigos de error con la suficiente frecuencia como para manejarlos por nombre.

Código	Significado	¿Reintentar?
`429 rate_limit_exceeded`	Límite por minuto o por día alcanzado.	Sí, con retroceso exponencial + fluctuación.
`400 context_length_exceeded`	Entrada + salida + razonamiento > 1 M tokens.	No, acorte la entrada.
`500 server_error`	Error transitorio en el lado de OpenAI.	Sí, hasta 3 intentos.
`403 policy_violation`	Rechazo por política de seguridad.	No, reescriba el prompt.

Los tokens de razonamiento cuentan para la ventana de contexto. Una llamada reasoning.effort: "xhigh" en una entrada de 900 K tokens alcanzará 400 por desbordamiento de contexto, incluso si su mensaje de usuario es corto.

Flujo de trabajo de prueba con Apidog

Las llamadas a GPT-5.5 son lo suficientemente costosas como para que no quiera descubrir un error de esquema volviendo a ejecutar el prompt 20 veces. El flujo de trabajo que menos tokens desperdicia:

Construya la solicitud una vez en Apidog, guárdela como una entrada de colección y etiquete el entorno (clave de desarrollo, staging, producción).
Utilice el servidor de simulacros incorporado para reproducir la última respuesta real mientras itera en el código aguas abajo.
Cambie a la clave en vivo solo cuando el esquema sea estable.

Apidog también incluye una integración de Claude Code y Cursor para que la misma colección sea accesible desde cualquier agente a nivel de editor que utilice. Consulte nuestra guía de Apidog en VS Code y la comparación de Apidog vs. Postman para la configuración completa.

Llamar a GPT-5.5 antes de que la API sea general

Hasta que OpenAI finalice el despliegue de la API de Responses, el camino práctico para los desarrolladores que desean tener una experiencia práctica con GPT-5.5 es el flujo de inicio de sesión de Codex. La guía gratuita de Codex explica cómo instalar la CLI, autenticarse con una cuenta de ChatGPT y seleccionar el modelo.

Preguntas frecuentes

¿Hay un gpt-5.5-mini? No en el lanzamiento. OpenAI mantuvo gpt-5.4-mini como la SKU optimizada en costos.

¿Cuál es la ventana de contexto? 1 M de tokens en la API. 400 K dentro de Codex CLI. Ambos incluyen tokens de razonamiento.

¿Necesito reescribir mi código de GPT-5.4? No. Cambie el ID del modelo, amplíe max_output_tokens si desea una salida a nivel de Pensamiento, y ajuste reasoning.effort para su carga de trabajo.

¿Cómo reduzco el costo? Tres palancas: Batch (50 % de descuento), Flex (50 % de descuento, colas más lentas) y esquemas estrictos para eliminar bucles de reintentos. Matemáticas de costos completas en el desglose de precios de GPT-5.5.

¿Dónde puedo ver el anuncio de disponibilidad general de la API? La comunidad de desarrolladores de OpenAI y la página de precios de la API de OpenAI son las señales públicas más rápidas.