Novedades de ChatGPT Imágenes 2.0

Ashley Innocent

Ashley Innocent

22 April 2026

Novedades de ChatGPT Imágenes 2.0

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

OpenAI lanzó ChatGPT Images 2.0 el 21 de abril de 2026, impulsado por un nuevo modelo llamado gpt-image-2. Lee tu prompt, planifica el diseño, renderiza texto multilingüe nítido y puede producir hasta diez imágenes de una sola vez; todo hasta 2,000 píxeles de ancho y en relaciones de aspecto que el antiguo modelo de imagen nunca admitió.

Para los desarrolladores, la noticia principal no es la actualización de la interfaz de usuario de ChatGPT. Es que gpt-image-2 se expone a través de la API de OpenAI con un modo de "pensamiento" consciente del razonamiento, precios por token y el mismo patrón de punto final que ya se conecta en producción.

Esta guía cubre lo que cambió, cuánto cuesta la API, cómo llamarla de extremo a extremo y cómo probarla con Apidog sin escribir scripts desechables. Si evaluaste APIs de imágenes anteriores y las abandonaste porque el texto salía distorsionado o la resolución estaba limitada a 1024, empieza aquí.

botón

¿Qué es gpt-image-2?

gpt-image-2 es el ID del modelo para el generador de imágenes de segunda generación de OpenAI, lanzado junto con el producto ChatGPT Images 2.0 el 21 de abril de 2026. Reemplaza a la familia anterior gpt-image-1 en el lado de la API y potencia la creación de imágenes dentro de ChatGPT en la web y dispositivos móviles.

Tres cosas hacen que valga la pena echarle un nuevo vistazo si probaste la generación de imágenes de OpenAI por última vez en 2024 o 2025:

El propio artículo de OpenAI posiciona esto como un salto de "juguete creativo" a "herramienta de flujo de trabajo visual"; doble páginas de revistas, infografías, plantillas de diapositivas, incluso paneles de manga. .

Qué cambió vs. gpt-image-1

Si desarrollaste con el punto final de imagen anterior de OpenAI, aquí está la diferencia que importa a nivel de código.

Capacidad gpt-image-1 gpt-image-2
Resolución máxima 1024 px 2,000 px en el borde largo
Relaciones de aspecto 1:1, 3:2, 2:3 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Imágenes por solicitud 1 Hasta 10, con consistencia de estilo
Renderizado de texto Solo inglés, a menudo ilegible Multilingüe, incluyendo escrituras CJK e índicas
Modo de razonamiento No Sí (bandera thinking)
Búsqueda web durante la generación No Sí, en modo de pensamiento

El modo por lotes es el cambio más discreto pero más útil. Un solo prompt puede devolver diez variaciones que comparten composición y paleta, que es como un diseñador itera y cómo un equipo de producto genera imágenes de héroe consistentes en un conjunto de páginas.

Disponibilidad y precios

El lanzamiento se realiza por niveles.

El precio, según la página de precios de la API de OpenAI, está tokenizado: $5 por millón de tokens de texto de entrada, $10 por millón de tokens de texto de salida, $8 por millón de tokens de imagen de entrada y $30 por millón de tokens de imagen de salida. Con una renderización de alta calidad estándar de 1024 × 1024, eso asciende a aproximadamente $0.21 por imagen; aproximadamente un 60 por ciento más que la generación anterior, que es el costo del lienzo más grande y el paso de razonamiento.

Cabe señalar: el modo de pensamiento se factura en los tokens de razonamiento adicionales, por lo que un diagrama con un requisito de diseño estricto cuesta más que un prompt de ilustración libre. Presupueste para ello en lugar de asumir una tarifa plana por imagen.

Llamando a la API

El punto final sigue el mismo patrón images/generations que el modelo anterior. Una solicitud mínima se ve así:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Para habilitar la ruta de razonamiento, pasa el parámetro thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

La respuesta devuelve datos de imagen base64 o URLs dependiendo de tu response_format; el esquema no ha cambiado desde gpt-image-1, por lo que los wrappers SDK existentes siguen funcionando después de un cambio de ID de modelo.

Una versión en Python usando el SDK oficial:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

Dos notas prácticas de las pruebas:

  1. El modo de pensamiento tiene tres niveles (low, medium, high) que intercambian latencia por precisión del diseño. Para gráficos, tablas y cualquier imagen que deba tener un número correcto, medium es el valor predeterminado útil.
  2. La salida por lotes (n > 1) mantiene la coherencia de estilo dentro de una llamada, pero pierde la coherencia entre llamadas separadas. Si necesitas un conjunto de diez elementos coincidentes, solicita diez en una sola petición.

Probando gpt-image-2 con Apidog

Iterar en un modelo de imagen desde la línea de comandos es complicado; no puedes previsualizar resultados, cambiar prompts o versionarlos. Un cliente de API dedicado es la herramienta adecuada, y si ya estás usando Postman o una herramienta REST de terminal, considera una alternativa creada específicamente que maneje las respuestas de imagen de forma nativa.

Apidog trata el punto final de imagen de OpenAI como una solicitud de primera clase. Importas la especificación OpenAPI de OpenAI, configuras OPENAI_API_KEY como variable de entorno, pegas tu prompt en el cuerpo y haces clic en Enviar. Las respuestas de imagen se renderizan en línea, base64 o URL, y puedes bifurcar la solicitud en variantes para comparar relaciones de aspecto, niveles de calidad y modos de pensamiento uno al lado del otro.

Un flujo de trabajo útil:

  1. Crea una solicitud gpt-image-2 en una colección de Apidog.
  2. Guarda dos entornos: uno con thinking: "off", otro con thinking: "medium".
  3. Ejecuta el mismo prompt a través de ambos, compara los resultados y guarda el ganador en tu biblioteca de prompts.
  4. Bifurca la colección para cada tipo de activo (banner, portada de diapositiva, infografía) para que cada uno tenga su propio conjunto de parámetros ajustados.

También puedes encadenar la llamada: generar la imagen, luego publicar la URL en tu punto final de carga de CDN dentro de la misma ejecución de prueba de Apidog. Esa es la parte que los scripts curl no hacen bien.

Si has estado ejecutando experimentos de generación de imágenes en un cliente HTTP genérico, aquí es donde una plataforma de API real demuestra su valía. Descarga Apidog y apúntalo a tu clave de OpenAI; la configuración lleva menos de cinco minutos.

Dónde gpt-image-2 todavía tiene dificultades

El anuncio es potente, pero existen límites honestos.

The Decoder y PetaPixel señalaron límites similares en sus artículos prácticos. Consulta la reseña de The Decoder para un desglose más extenso.

Cómo se compara con el resto del campo de generación de imágenes de 2026

OpenAI no está solo en el espacio de razonamiento más imagen. Nano Banana 2 de Google se lanzó semanas antes, y varios modelos multimodales de peso abierto han reducido la brecha en el renderizado de texto.

Si estás evaluando alternativas en el lado de la API, algunas inmersiones profundas relacionadas valen tu tiempo:

Elige gpt-image-2 cuando la precisión del texto, el razonamiento sobre la composición y la integración con el resto de la pila de OpenAI importan más que el costo. Elige un modelo multimodal de peso abierto cuando necesites autoalojamiento, un costo por imagen más bajo o una licencia permisiva para la salida comercial.

Preguntas frecuentes

¿Está gpt-image-2 disponible en el nivel gratuito de ChatGPT? Sí. El modo estándar está disponible para todos los usuarios de ChatGPT. El modo de pensamiento, el razonamiento extendido y la búsqueda web durante la generación están restringidos a Plus, Pro y Business. El acceso a la API es independiente y está vinculado a tu cuenta de desarrollador de OpenAI; se aplican los mismos niveles de límite de tasa que ya utilizas.

¿Es compatible gpt-image-2 con la edición y el inpainting de imágenes? El lanzamiento se centra en la conversión de texto a imagen con modos por lotes y de pensamiento. Se espera que los puntos finales de estilo de edición (imagen + máscara) sigan el mismo patrón que la generación anterior, pero bajo el nuevo ID de modelo. Consulta la página del modelo gpt-image-2 antes de desarrollar en torno al inpainting.

¿Qué resolución y relaciones de aspecto admite? Hasta 2,000 píxeles en el borde largo, con relaciones 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 y 1:3. Eso cubre banners de héroe, videos verticales cortos, publicaciones cuadradas para redes sociales y recortes anchos estilo LinkedIn sin un paso de escalado.

¿Cómo pruebo las solicitudes de gpt-image-2 rápidamente? Utiliza un cliente de API dedicado. Apidog renderiza las respuestas de imagen en línea, almacena los prompts como variables de colección y te permite comparar los modos de pensamiento uno al lado del otro. Los equipos que vienen de flujos de trabajo de línea de comandos a menudo lo combinan con nuestra guía de pruebas de API sin Postman.

¿Cuánto cuesta una imagen a través de la API? Aproximadamente $0.21 a 1024 × 1024 de alta calidad en modo estándar. El modo de pensamiento agrega tokens de razonamiento adicionales, así que planifica un costo variable por imagen para prompts con diseños complejos. Consulta la página de precios de OpenAI para conocer las tarifas exactas de los tokens.

¿Puede el modelo buscar en la web mientras genera? Sí, en modo de pensamiento. El modelo puede obtener imágenes de referencia y datos durante la generación, lo que ayuda con la precisión de los diagramas (gráficos con números reales, mapas con etiquetas correctas). El modo estándar no realiza búsquedas.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs