Novedades de ChatGPT Imágenes 2.0

OpenAI lanzó ChatGPT Images 2.0 el 21 de abril de 2026, impulsado por un nuevo modelo llamado gpt-image-2. Lee tu prompt, planifica el diseño, renderiza texto multilingüe nítido y puede producir hasta diez imágenes de una sola vez; todo hasta 2,000 píxeles de ancho y en relaciones de aspecto que el antiguo modelo de imagen nunca admitió.

Para los desarrolladores, la noticia principal no es la actualización de la interfaz de usuario de ChatGPT. Es que gpt-image-2 se expone a través de la API de OpenAI con un modo de "pensamiento" consciente del razonamiento, precios por token y el mismo patrón de punto final que ya se conecta en producción.

Esta guía cubre lo que cambió, cuánto cuesta la API, cómo llamarla de extremo a extremo y cómo probarla con Apidog sin escribir scripts desechables. Si evaluaste APIs de imágenes anteriores y las abandonaste porque el texto salía distorsionado o la resolución estaba limitada a 1024, empieza aquí.

botón

¿Qué es gpt-image-2?

gpt-image-2 es el ID del modelo para el generador de imágenes de segunda generación de OpenAI, lanzado junto con el producto ChatGPT Images 2.0 el 21 de abril de 2026. Reemplaza a la familia anterior gpt-image-1 en el lado de la API y potencia la creación de imágenes dentro de ChatGPT en la web y dispositivos móviles.

Tres cosas hacen que valga la pena echarle un nuevo vistazo si probaste la generación de imágenes de OpenAI por última vez en 2024 o 2025:

Texto legible en diferentes escrituras. Las pequeñas etiquetas de interfaz de usuario, logotipos, subtítulos y escrituras no latinas (japonés, coreano, chino, hindi, bengalí) ahora se renderizan con la suficiente claridad como para enviarse sin un retoque manual.
Razonamiento antes de los píxeles. Un modo thinking dedica computación extra a planificar la composición, contar elementos y verificar restricciones antes de renderizar. OpenAI lo describe como el modelo "pensando" en el encargo; en la práctica, reduce el número de prompts de reintento que gastas en recuentos de objetos incorrectos o diagramas mal etiquetados.
Mayor resolución, lienzo más amplio. Hasta 2,000 px en el borde largo y relaciones de aspecto tan extremas como 3:1 o 1:3, lo que te permite generar banners, portadas de diapositivas y videos verticales cortos sin un paso de escalado.

El propio artículo de OpenAI posiciona esto como un salto de "juguete creativo" a "herramienta de flujo de trabajo visual"; doble páginas de revistas, infografías, plantillas de diapositivas, incluso paneles de manga. .

Qué cambió vs. gpt-image-1

Si desarrollaste con el punto final de imagen anterior de OpenAI, aquí está la diferencia que importa a nivel de código.

Capacidad	gpt-image-1	gpt-image-2
Resolución máxima	1024 px	2,000 px en el borde largo
Relaciones de aspecto	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Imágenes por solicitud	1	Hasta 10, con consistencia de estilo
Renderizado de texto	Solo inglés, a menudo ilegible	Multilingüe, incluyendo escrituras CJK e índicas
Modo de razonamiento	No	Sí (bandera `thinking`)
Búsqueda web durante la generación	No	Sí, en modo de pensamiento

El modo por lotes es el cambio más discreto pero más útil. Un solo prompt puede devolver diez variaciones que comparten composición y paleta, que es como un diseñador itera y cómo un equipo de producto genera imágenes de héroe consistentes en un conjunto de páginas.

Disponibilidad y precios

El lanzamiento se realiza por niveles.

Los usuarios de **ChatGPT Free** obtienen el modelo estándar gpt-image-2.
Los suscriptores de **ChatGPT Plus, Pro y Business** obtienen el modo de pensamiento, ejecuciones de razonamiento más largas y búsqueda web dentro de la generación.
Los **desarrolladores de API** obtienen ambos modos a través del ID de modelo gpt-image-2. La disponibilidad se escalonó después del lanzamiento de ChatGPT.

El precio, según la página de precios de la API de OpenAI, está tokenizado: $5 por millón de tokens de texto de entrada, $10 por millón de tokens de texto de salida, $8 por millón de tokens de imagen de entrada y $30 por millón de tokens de imagen de salida. Con una renderización de alta calidad estándar de 1024 × 1024, eso asciende a aproximadamente $0.21 por imagen; aproximadamente un 60 por ciento más que la generación anterior, que es el costo del lienzo más grande y el paso de razonamiento.

Cabe señalar: el modo de pensamiento se factura en los tokens de razonamiento adicionales, por lo que un diagrama con un requisito de diseño estricto cuesta más que un prompt de ilustración libre. Presupueste para ello en lugar de asumir una tarifa plana por imagen.

Llamando a la API

El punto final sigue el mismo patrón images/generations que el modelo anterior. Una solicitud mínima se ve así:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Para habilitar la ruta de razonamiento, pasa el parámetro thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

La respuesta devuelve datos de imagen base64 o URLs dependiendo de tu response_format; el esquema no ha cambiado desde gpt-image-1, por lo que los wrappers SDK existentes siguen funcionando después de un cambio de ID de modelo.

Una versión en Python usando el SDK oficial:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

Dos notas prácticas de las pruebas:

El modo de pensamiento tiene tres niveles (low, medium, high) que intercambian latencia por precisión del diseño. Para gráficos, tablas y cualquier imagen que deba tener un número correcto, medium es el valor predeterminado útil.
La salida por lotes (n > 1) mantiene la coherencia de estilo dentro de una llamada, pero pierde la coherencia entre llamadas separadas. Si necesitas un conjunto de diez elementos coincidentes, solicita diez en una sola petición.

Probando gpt-image-2 con Apidog

Iterar en un modelo de imagen desde la línea de comandos es complicado; no puedes previsualizar resultados, cambiar prompts o versionarlos. Un cliente de API dedicado es la herramienta adecuada, y si ya estás usando Postman o una herramienta REST de terminal, considera una alternativa creada específicamente que maneje las respuestas de imagen de forma nativa.

Apidog trata el punto final de imagen de OpenAI como una solicitud de primera clase. Importas la especificación OpenAPI de OpenAI, configuras OPENAI_API_KEY como variable de entorno, pegas tu prompt en el cuerpo y haces clic en Enviar. Las respuestas de imagen se renderizan en línea, base64 o URL, y puedes bifurcar la solicitud en variantes para comparar relaciones de aspecto, niveles de calidad y modos de pensamiento uno al lado del otro.

Un flujo de trabajo útil:

Crea una solicitud gpt-image-2 en una colección de Apidog.
Guarda dos entornos: uno con thinking: "off", otro con thinking: "medium".
Ejecuta el mismo prompt a través de ambos, compara los resultados y guarda el ganador en tu biblioteca de prompts.
Bifurca la colección para cada tipo de activo (banner, portada de diapositiva, infografía) para que cada uno tenga su propio conjunto de parámetros ajustados.

También puedes encadenar la llamada: generar la imagen, luego publicar la URL en tu punto final de carga de CDN dentro de la misma ejecución de prueba de Apidog. Esa es la parte que los scripts curl no hacen bien.

Si has estado ejecutando experimentos de generación de imágenes en un cliente HTTP genérico, aquí es donde una plataforma de API real demuestra su valía. Descarga Apidog y apúntalo a tu clave de OpenAI; la configuración lleva menos de cinco minutos.

Dónde gpt-image-2 todavía tiene dificultades

El anuncio es potente, pero existen límites honestos.

Las **caras fotorrealistas en primer plano** todavía se desvían, especialmente para figuras públicas conocidas. Las barreras de seguridad de identidad de OpenAI rechazan muchos de esos prompts directamente.
Los **activos de marca precisos** (geometría exacta del logotipo, personajes con marca registrada) no son fiables; úsalo para el ambiente, no para enviar marcas finales.
Los **bloques de texto muy largos** (párrafos completos dentro de una imagen) aún se rompen después de unos pocos cientos de caracteres. Está diseñado para subtítulos, encabezados y etiquetas, no para renderizar un artículo como una imagen.
La **consistencia entre sesiones** no está garantizada. La función por lotes mantiene la coherencia de estilo dentro de una llamada; una llamada separada al día siguiente se desviará incluso con el mismo prompt tipo semilla.

The Decoder y PetaPixel señalaron límites similares en sus artículos prácticos. Consulta la reseña de The Decoder para un desglose más extenso.

Cómo se compara con el resto del campo de generación de imágenes de 2026

OpenAI no está solo en el espacio de razonamiento más imagen. Nano Banana 2 de Google se lanzó semanas antes, y varios modelos multimodales de peso abierto han reducido la brecha en el renderizado de texto.

Si estás evaluando alternativas en el lado de la API, algunas inmersiones profundas relacionadas valen tu tiempo:

El anuncio de Qwen 3.5 Omni cubre el impulso multimodal de Alibaba, incluyendo la entrada y generación de imágenes.
La guía de la API de GLM 5V Turbo explica la API de visión-lenguaje de Zhipu, que es más barata pero sacrifica la fidelidad del texto.
Cómo usar Qwen 3.5 Omni es el compañero práctico de la publicación del anuncio.
El análisis de Cursor Composer 2 enmarca cómo los productos de IA centrados en el razonamiento remodelan la UX de las herramientas; el mismo patrón que impulsa ChatGPT Images 2.0.
Para otro lanzamiento reciente adyacente a OpenAI, consulta nuestra guía de Microsoft VibeVoice.

Elige gpt-image-2 cuando la precisión del texto, el razonamiento sobre la composición y la integración con el resto de la pila de OpenAI importan más que el costo. Elige un modelo multimodal de peso abierto cuando necesites autoalojamiento, un costo por imagen más bajo o una licencia permisiva para la salida comercial.

Preguntas frecuentes

¿Está gpt-image-2 disponible en el nivel gratuito de ChatGPT? Sí. El modo estándar está disponible para todos los usuarios de ChatGPT. El modo de pensamiento, el razonamiento extendido y la búsqueda web durante la generación están restringidos a Plus, Pro y Business. El acceso a la API es independiente y está vinculado a tu cuenta de desarrollador de OpenAI; se aplican los mismos niveles de límite de tasa que ya utilizas.

¿Es compatible gpt-image-2 con la edición y el inpainting de imágenes? El lanzamiento se centra en la conversión de texto a imagen con modos por lotes y de pensamiento. Se espera que los puntos finales de estilo de edición (imagen + máscara) sigan el mismo patrón que la generación anterior, pero bajo el nuevo ID de modelo. Consulta la página del modelo gpt-image-2 antes de desarrollar en torno al inpainting.

¿Qué resolución y relaciones de aspecto admite? Hasta 2,000 píxeles en el borde largo, con relaciones 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 y 1:3. Eso cubre banners de héroe, videos verticales cortos, publicaciones cuadradas para redes sociales y recortes anchos estilo LinkedIn sin un paso de escalado.

¿Cómo pruebo las solicitudes de gpt-image-2 rápidamente? Utiliza un cliente de API dedicado. Apidog renderiza las respuestas de imagen en línea, almacena los prompts como variables de colección y te permite comparar los modos de pensamiento uno al lado del otro. Los equipos que vienen de flujos de trabajo de línea de comandos a menudo lo combinan con nuestra guía de pruebas de API sin Postman.

¿Cuánto cuesta una imagen a través de la API? Aproximadamente $0.21 a 1024 × 1024 de alta calidad en modo estándar. El modo de pensamiento agrega tokens de razonamiento adicionales, así que planifica un costo variable por imagen para prompts con diseños complejos. Consulta la página de precios de OpenAI para conocer las tarifas exactas de los tokens.

¿Puede el modelo buscar en la web mientras genera? Sí, en modo de pensamiento. El modelo puede obtener imágenes de referencia y datos durante la generación, lo que ayuda con la precisión de los diagramas (gráficos con números reales, mapas con etiquetas correctas). El modo estándar no realiza búsquedas.