TL;DR / Respuesta Rápida
GPT-5.4 es el modelo de frontera más avanzado de OpenAI para el trabajo profesional, lanzado el 5 de marzo de 2026. Combina las capacidades de codificación líderes en la industria de GPT-5.3-Codex con razonamiento mejorado, uso de computadoras e integración de herramientas. El modelo logra una tasa de éxito del 83% en tareas de trabajo de conocimiento, un 75% en pruebas comparativas de uso de computadoras y utiliza significativamente menos tokens que GPT-5.2. Disponible a través de API a $2.50/M tokens de entrada y $15/M tokens de salida, con la versión Pro ($30/$180) para tareas complejas.
Introducción
OpenAI acaba de elevar el listón para el trabajo profesional impulsado por IA. El 5 de marzo de 2026, lanzaron GPT-5.4, un modelo que ofrece un 83% de victorias frente a profesionales de la industria en tareas de trabajo de conocimiento del mundo real, utilizando significativamente menos tokens que su predecesor.
Si ha trabajado con modelos de IA que alucinan hechos, tienen dificultades con flujos de trabajo complejos o gastan tokens en tareas simples, GPT-5.4 aborda estos puntos débiles directamente. Tiene un 33% menos de probabilidades de cometer errores fácticos y completa las tareas de uso de la computadora 3 veces más rápido que los modelos anteriores.
Esta guía desglosa lo que realmente hace GPT-5.4, cómo se compara con versiones anteriores y si las mejoras de rendimiento justifican los mayores costos de tokens. Obtendrá datos comparativos específicos, comparaciones de rendimiento reales y una guía clara sobre qué variante de GPT-5.4 se adapta a su caso de uso.
Lo que aprenderá:
- Mejoras exactas de rendimiento sobre GPT-5.2 y GPT-5.3-Codex
- Puntuaciones de referencia en codificación, uso de computadoras y trabajo de conocimiento
- Nuevas capacidades de uso de computadoras y visión con ejemplos reales
- Desglose de precios y cuándo usar la versión Pro vs la estándar
- Consideraciones de integración para desarrolladores de API
¿Qué es GPT-5.4?
GPT-5.4 representa el primer modelo de propósito general de OpenAI con capacidades nativas de uso de computadoras. Fusiona la excelencia en codificación de GPT-5.3-Codex con razonamiento mejorado, percepción visual e integración de herramientas en un único modelo de frontera.

El modelo se dirige a tres escenarios profesionales principales:
Trabajo de conocimiento - Creación de hojas de cálculo, presentaciones, documentos y análisis en 44 ocupaciones. GPT-5.4 iguala o supera a los profesionales de la industria en el 83% de las comparaciones en GDPval, frente al 70.9% de GPT-5.2.
Uso de computadoras y agentes - Operación de computadoras mediante comandos de ratón/teclado, automatización de navegadores y flujos de trabajo de varios pasos entre aplicaciones. Alcanza una tasa de éxito del 75% en OSWorld-Verified, superando el rendimiento humano del 72.4%.
Codificación y desarrollo - Escritura, depuración e iteración de código con un rendimiento de vanguardia en SWE-Bench Pro (57.7%) mientras soporta ventanas de contexto de hasta 1 millón de tokens para bases de código complejas.
GPT-5.4 se presenta en dos variantes:
- GPT-5.4 - Modelo estándar para la mayoría de las tareas profesionales
- GPT-5.4 Pro - Máximo rendimiento en tareas de razonamiento complejas ($30/M de entrada, $180/M de salida)
Mejoras Clave sobre GPT-5.2
GPT-5.4 no es una actualización incremental. OpenAI logró avances sustanciales en cuatro áreas críticas.
1. Precisión Factual y Reducción de Alucinaciones
Las afirmaciones falsas se redujeron un 33% a nivel de afirmación individual. Las respuestas completas contienen un 18% menos de errores en general. Esto es importante cuando se generan documentos legales, modelos financieros o documentación técnica donde un solo hecho alucinado puede descarrilar un proyecto completo.
2. Eficiencia de Tokens
GPT-5.4 utiliza significativamente menos tokens para resolver problemas en comparación con GPT-5.2. En flujos de trabajo intensivos en herramientas con los benchmarks MCP Atlas, el uso de tokens se redujo un 47% manteniendo la precisión. Para usuarios de API de alto volumen, esta ganancia de eficiencia compensa el precio más alto por token.
3. Capacidades de Uso de Computadoras
Los modelos anteriores requerían modelos especializados separados para el uso de computadoras. GPT-5.4 lo maneja de forma nativa:
- Emite comandos de ratón y teclado a partir de capturas de pantalla
- Automatiza navegadores a través de Playwright
- Navega entornos de escritorio mediante interacciones basadas en coordenadas
- Admite políticas de seguridad personalizadas y requisitos de confirmación
4. Búsqueda e Integración de Herramientas
La búsqueda de herramientas elimina la necesidad de cargar miles de definiciones de herramientas en cada solicitud. El modelo busca las definiciones de herramientas bajo demanda, reduciendo los costos iniciales de tokens y permitiendo trabajar con ecosistemas que contienen decenas de miles de herramientas.
En el benchmark Toolathlon, GPT-5.4 logra una precisión del 54.6% en comparación con el 45.7% de GPT-5.2, con menos "tool yields" (proxy de latencia) requeridos.
Puntos de Referencia de Rendimiento de GPT-5.4
Los datos de referencia muestran dónde destaca GPT-5.4 y dónde los modelos anteriores siguen siendo competitivos.
Trabajo de Conocimiento (GDPval)
Modelo | Tasa de Éxito vs Profesionales |
|---|---|
GPT-5.4 | 83.0% |
GPT-5.4 Pro | 82.0% |
GPT-5.2 Pro | 74.1% |
GPT-5.2 | 70.9% |
GDPval evalúa el trabajo de conocimiento bien especificado en 44 ocupaciones de las 9 principales industrias que contribuyen al PIB de EE. UU. Las tareas incluyen presentaciones de ventas, hojas de cálculo contables, programaciones de atención urgente, diagramas de fabricación y videos cortos.
Creación de Hojas de Cálculo y Documentos
En tareas internas de modelado de banca de inversión:
- GPT-5.4: 87.3% de puntuación media
- GPT-5.2: 68.4% de puntuación media
Para la evaluación de presentaciones, los evaluadores humanos prefirieron las salidas de GPT-5.4 el 68% de las veces debido a una estética más sólida, mayor variedad visual y un uso más efectivo de la generación de imágenes.
Rendimiento de Codificación (SWE-Bench Pro)
Modelo | Precisión | Latencia Estimada |
|---|---|---|
GPT-5.4 | 57.7% | ~1000s |
GPT-5.3-Codex | 56.8% | ~1200s |
GPT-5.2 | 55.6% | ~1500s |

GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro, al tiempo que ofrece una menor latencia en los esfuerzos de razonamiento. El modo /fast en Codex ofrece una velocidad de token hasta 1.5 veces mayor con GPT-5.4.
Uso de Computadoras (OSWorld-Verified)
OSWorld-Verified mide el éxito en la navegación de entornos de escritorio a través de capturas de pantalla y acciones de teclado/ratón:
- GPT-5.4: 75.0%
- GPT-5.3-Codex: 74.0% (con parámetro de API que conserva la resolución original de la imagen)
- GPT-5.2: 47.3%
- Rendimiento humano: 72.4%
Este benchmark evalúa flujos de trabajo de escritorio reales: gestión de correo electrónico y calendario, entrada de datos masiva, operaciones de archivos y tareas entre aplicaciones.
Navegación Web (BrowseComp)
BrowseComp evalúa la investigación web persistente para encontrar información difícil de localizar:
- GPT-5.4 Pro: 89.3%
- GPT-5.4: 82.7%
- GPT-5.2 Pro: 77.9%
- GPT-5.2: 65.8%
La mejora absoluta del 17% sobre GPT-5.2 refleja una mejor síntesis de información de múltiples fuentes y estrategias de búsqueda más persistentes.
Comprensión Visual
MMMU Pro (sin herramientas) - Evalúa la comprensión y el razonamiento visual:
- GPT-5.4: 81.2%
- GPT-5.2: 79.5%
OmniDocBench - Precisión del análisis de documentos (menor error = mejor):
- GPT-5.4: 0.109 distancia de edición normalizada
- GPT-5.2: 0.140 distancia de edición normalizada
Capacidades de Uso de Computadoras y Visión
Las capacidades de uso de computadoras de GPT-5.4 merecen un examen detallado. Este es el primer modelo de propósito general de OpenAI que puede operar computadoras de forma nativa.
Cómo Funciona el Uso de Computadoras
El modelo interpreta capturas de pantalla de interfaces de navegador o escritorio y responde con:
- Clics basados en coordenadas en elementos de la interfaz de usuario
- Entrada de teclado para la introducción de texto
- Comandos Playwright para la automatización del navegador
- Movimientos de ratón y operaciones de arrastre
Los desarrolladores configuran el comportamiento a través de mensajes del sistema, ajustando las políticas de seguridad y los requisitos de confirmación según la tolerancia al riesgo.
Ejemplo de Uso de Computadoras en el Mundo Real
Mainstay probó GPT-5.4 en aproximadamente 30,000 portales de HOA y impuestos a la propiedad:
- GPT-5.4: 95% de éxito en el primer intento, 100% en tres intentos
- Modelos CUA anteriores: 73-79% de tasa de éxito
- Finalización de sesión: 3 veces más rápida con GPT-5.4
- Uso de tokens: 70% menos de tokens por sesión
El modelo navega por las interfaces del portal, extrae datos de diversas distribuciones de UI, maneja flujos de autenticación y gestiona casos extremos como captchas o formularios de varios pasos.
Percepción Visual Mejorada
GPT-5.4 introdujo un nivel de detalle de entrada de imagen original que soporta:
- Hasta 10.24M píxeles totales
- Dimensión máxima de 6000 píxeles
- Percepción de fidelidad completa para imágenes densas y de alta resolución
El nivel de detalle alto soporta hasta 2.56M píxeles totales o una dimensión máxima de 2048 píxeles. Las pruebas tempranas de usuarios de API mostraron grandes mejoras en la capacidad de localización, la comprensión de imágenes y la precisión de los clics con configuraciones de detalle original o alto.
Mejoras en el Análisis de Documentos
Una mejor percepción visual se traduce en el manejo de documentos. GPT-5.4 analiza:
- PDFs de varias páginas con tablas y figuras
- Documentos escaneados con diseños variados
- Capturas de pantalla que contienen texto y elementos de la interfaz de usuario
- Diagramas técnicos y gráficos
La mejora del 22% en OmniDocBench (tasa de error de 0.140 a 0.109) refleja esta capacidad.
Características de Codificación y Desarrollo
GPT-5.4 hereda la excelencia en codificación de GPT-5.3-Codex, añadiendo el uso de computadoras para flujos de trabajo de desarrollo integrados.
Desarrollo Frontend
Las evaluaciones internas encontraron que GPT-5.4 se destaca en tareas complejas de frontend con resultados notablemente más estéticos y funcionales que los modelos anteriores. La habilidad experimental Playwright Interactive en Codex demuestra esto:
Ejemplo: Simulación de Parque Temático Un solo prompt generó una simulación de parque temático isométrico con:
- Colocación de caminos basada en mosaicos
- Construcción de atracciones y escenarios
- Búsqueda de rutas y colas de visitantes
- Métricas del parque (dinero, visitantes, felicidad, limpieza)
- Pruebas de juego en navegador mediante automatización de Playwright
- Generación de imágenes para activos isométricos
El modelo construyó el juego y luego utilizó Playwright para automatizar las pruebas de juego, verificando la colocación, la navegación, las reacciones de los visitantes y la estabilidad de la interfaz de usuario en múltiples rondas.
Modo Rápido para Desarrolladores
GPT-5.4 en Codex admite el modo /fast que ofrece una velocidad de tokens hasta 1.5 veces mayor. Los desarrolladores de API acceden a velocidades equivalentes a través del procesamiento prioritario. Esto mantiene la misma inteligencia al tiempo que reduce el tiempo de iteración durante la depuración y el desarrollo.
Soporte de Ventana de Contexto
GPT-5.4 Codex incluye soporte experimental para ventanas de contexto de 1 millón de tokens. Configure a través de:
model_context_windowparametermodel_auto_compact_token_limitparameter
Las solicitudes que exceden el contexto estándar de 272K se contabilizan contra los límites de uso al doble de la tarifa normal. Esto permite el análisis de bases de código completas, grandes conjuntos de documentación o proyectos de varios archivos en una sola solicitud.
Apidog para Documentación de API:documentación de API

Integración y Búsqueda de Herramientas
La búsqueda de herramientas representa un cambio fundamental en la forma en que los modelos interactúan con herramientas externas y servidores MCP.
Cómo Funciona la Búsqueda de Herramientas
Enfoque anterior: Todas las definiciones de herramientas se cargaban en cada solicitud por adelantado. Para sistemas con muchas herramientas, esto añadía miles a decenas de miles de tokens, aumentando los costos y ralentizando las respuestas.
Enfoque de búsqueda de herramientas: El modelo recibe una lista ligera de herramientas disponibles. Cuando es necesario, busca definiciones de herramientas específicas y las añade a la conversación en ese momento.
Ejemplo de Ahorro de Tokens
El benchmark MCP Atlas de Scale probó 250 tareas con los 36 servidores MCP habilitados:

Desglose de tokens sin búsqueda de herramientas:
- 65,320 tokens de entrada iniciales (definiciones de herramientas)
- Tokens adicionales de las salidas de herramientas
- Tokens de salida
La búsqueda de herramientas elimina el costo inicial al tiempo que preserva la eficiencia de la caché.
Rendimiento de MCP Atlas
En el benchmark MCP Atlas (250 tareas, 36 servidores MCP):
- GPT-5.4: 67.2% de precisión
- GPT-5.2: 60.6% de precisión
El modelo funciona con ecosistemas de herramientas más grandes sin sacrificar la precisión ni sobrecargar las ventanas de contexto.
Llamada Agéntica de Herramientas
El benchmark Toolathlon evalúa flujos de trabajo de herramientas de varios pasos (lectura de correos electrónicos, extracción de archivos adjuntos, carga de archivos, calificación, registro de resultados):

Los "tool yields" (espera de respuestas de herramientas) reflejan mejor la latencia que el recuento de llamadas a herramientas porque capturan los beneficios de la paralelización. GPT-5.4 completa las tareas en menos rondas.
GPT-5.4 vs GPT-5.3-Codex vs GPT-5.2
La elección entre modelos depende de sus requisitos específicos.
Cuándo Usar GPT-5.4
- Se requiere uso de computadora - Operación nativa de computadora, automatización de navegadores
- Trabajo de conocimiento - Hojas de cálculo, presentaciones, documentos
- Flujos de trabajo intensivos en herramientas - Servidores MCP, APIs externas, automatización de múltiples pasos
- Sensible al costo a escala - La eficiencia de tokens reduce los costos totales a pesar de un precio por token más alto
- Necesidades de contexto largo - Hasta 1 millón de tokens para bases de código complejas
Cuándo GPT-5.3-Codex Sigue Siendo Competitivo
- Tareas de codificación puras - Rendimiento similar en SWE-Bench Pro (56.8% vs 57.7%)
- Flujos de trabajo de Codex establecidos - Las integraciones existentes pueden no necesitar el uso de la computadora
- Optimización de costos - Si el precio de GPT-5.3-Codex sigue siendo más bajo
Cuándo GPT-5.2 Es Suficiente
- Consultas simples - Preguntas y respuestas básicas, resumen, generación directa
- Restricciones presupuestarias - Costos por token más bajos ($1.75/$14 vs $2.50/$15)
- Flujos de trabajo no agénticos - Solicitudes de una sola interacción sin uso de herramientas
Comparación de Precios
Modelo | Precio de Entrada | Entrada en Caché | Precio de Salida |
|---|---|---|---|
GPT-5.2 | $1.75/M | $0.175/M | $14/M |
GPT-5.4 | $2.50/M | $0.25/M | $15/M |
GPT-5.2 Pro | $21/M | - | $168/M |
GPT-5.4 Pro | $30/M | - | $180/M |
Precios Batch y Flex disponibles al 50% de las tarifas estándar. Procesamiento prioritario al 200% de las tarifas estándar.
Opciones de Disponibilidad y Acceso
GPT-5.4 se implementó gradualmente a partir del 5 de marzo de 2026 en ChatGPT, Codex y API.
Acceso a ChatGPT
GPT-5.4 Thinking disponible para:
- Suscriptores de ChatGPT Plus
- Suscriptores de ChatGPT Team
- Suscriptores de ChatGPT Pro
GPT-5.4 Pro disponible para:
- Suscriptores de ChatGPT Pro
- Suscriptores de ChatGPT Enterprise
Acceso heredado: GPT-5.2 Thinking sigue disponible durante tres meses en la sección Modelos Heredados, retirándose el 5 de junio de 2026.
Empresarial y Educación: Acceso anticipado disponible a través de la configuración de administrador.
Acceso a Codex
GPT-5.4 es el modelo predeterminado en Codex con:
- Soporte experimental de ventana de contexto de 1 millón de tokens
- Habilidad Playwright Interactive para pruebas de juego en navegador
- Modo /fast para una velocidad de tokens 1.5 veces mayor
Acceso a la API
Nombres de modelos:
gpt-5.4- Modelo estándargpt-5.4-pro- Modelo Pro para tareas complejas
Ventanas de contexto:
- Estándar: 272K tokens
- Extendida: Hasta 1M tokens (experimental, tasa de uso 2x)
Precios:
- Estándar: $2.50/M de entrada, $0.25/M de entrada en caché, $15/M de salida
- Pro: $30/M de entrada, $180/M de salida
- Batch/Flex: 50% de descuento
- Prioritario: 2 veces la tarifa estándar
Cronograma de Desaprobación
GPT-5.2 Thinking se retira el 5 de junio de 2026. Migre los flujos de trabajo antes de esta fecha para evitar interrupciones.
Conclusión
GPT-5.4 ofrece mejoras medibles en el trabajo de conocimiento, el uso de computadoras y las tareas de codificación. La tasa de éxito del 83% en GDPval, la puntuación del 75% en OSWorld-Verified y la precisión del 57.7% en SWE-Bench Pro lo establecen como el nuevo estado del arte para los flujos de trabajo profesionales de IA.
Para los desarrolladores que integran GPT-5.4 en aplicaciones, contar con herramientas robustas de prueba y depuración de API se vuelve esencial. Apidog agiliza el proceso de integración con capacidades unificadas de diseño, depuración, prueba y documentación de API. Ya sea que esté construyendo agentes de IA, automatizando flujos de trabajo o creando funciones orientadas al cliente impulsadas por GPT-5.4, Apidog ayuda a garantizar que sus integraciones de API funcionen correctamente desde el primer día.
Puntos clave:
- Reducción del 33% en afirmaciones falsas y un 18% menos de errores en las respuestas
- Reducción del 47% de tokens en flujos de trabajo intensivos en herramientas
- Tasa de éxito del 75% en el uso de computadoras, superando la línea base humana
- Operación nativa de computadora mediante comandos de ratón/teclado
- La búsqueda de herramientas permite trabajar con decenas de miles de herramientas
- Ventana de contexto de 1 millón de tokens para bases de código complejas
- Disponible a $2.50/$15 por millón de tokens (variante estándar)
Cuándo adoptar:
- Necesita el uso de computadoras o la automatización de navegadores
- La eficiencia de tokens es importante para flujos de trabajo de alto volumen
- La precisión fáctica es crítica (legal, financiera, técnica)
- Trabaja con grandes ecosistemas de herramientas o servidores MCP
- Análisis de contexto largo de bases de código o documentos
Cuándo esperar:
- Los flujos de trabajo simples de preguntas y respuestas no se benefician de las nuevas capacidades
- Las restricciones presupuestarias priorizan los costos más bajos por token
- Los flujos de trabajo existentes de GPT-5.2 o GPT-5.3-Codex funcionan adecuadamente
GPT-5.4 representa el modelo de razonamiento más eficiente de OpenAI hasta la fecha. La combinación de alucinaciones reducidas, eficiencia de tokens mejorada y capacidades nativas de uso de computadoras justifica el precio más alto por token para aplicaciones profesionales.
Preguntas Frecuentes
¿Cuál es la diferencia entre GPT-5.4 y GPT-5.2?
GPT-5.4 logra una tasa de éxito del 83% en trabajo de conocimiento frente al 70.9% de GPT-5.2, utiliza significativamente menos tokens, tiene capacidades nativas de uso de computadoras y reduce los errores fácticos en un 33%. Los precios son más altos ($2.50/$15 vs $1.75/$14), pero los costos totales pueden ser menores debido a las ganancias de eficiencia.
¿Cuánto cuesta la API de GPT-5.4?
GPT-5.4 cuesta $2.50 por millón de tokens de entrada, $0.25 por millón de tokens de entrada en caché y $15 por millón de tokens de salida. GPT-5.4 Pro cuesta $30/M de entrada y $180/M de salida. Los precios Batch y Flex ofrecen descuentos del 50%.
¿Tiene GPT-5.4 un límite de ventana de contexto?
La ventana de contexto estándar es de 272K tokens. El soporte experimental de ventana de contexto de 1 millón de tokens está disponible en Codex configurando los parámetros model_context_window y model_auto_compact_token_limit. Las solicitudes que exceden los 272K se contabilizan al doble de la tasa de uso.
¿Para qué se utiliza GPT-5.4 Pro?
GPT-5.4 Pro apunta al máximo rendimiento en tareas de razonamiento complejas. Obtiene puntuaciones más altas en benchmarks como BrowseComp (89.3% vs 82.7%) y GDPval (82.0% vs 83.0% estándar) pero cuesta 12 veces más ($30/$180 vs $2.50/$15).
¿Cuándo se lanzó GPT-5.4?
GPT-5.4 se lanzó el 5 de marzo de 2026, implementándose gradualmente en ChatGPT, Codex y la API. GPT-5.2 Thinking sigue disponible hasta el 5 de junio de 2026 para la migración.
¿Puede GPT-5.4 usar computadoras y navegadores?
Sí. GPT-5.4 es el primer modelo de propósito general de OpenAI con capacidades nativas de uso de computadoras. Emite comandos de ratón/teclado, automatiza navegadores a través de Playwright y navega por entornos de escritorio mediante la interpretación de capturas de pantalla.
¿Qué es la búsqueda de herramientas en GPT-5.4?
La búsqueda de herramientas permite que el modelo busque definiciones de herramientas bajo demanda en lugar de cargar todas las definiciones por adelantado. Esto reduce el uso de tokens en un 47% en flujos de trabajo intensivos en herramientas y permite trabajar con ecosistemas que contienen decenas de miles de herramientas.
¿Cómo se compara GPT-5.4 con GPT-5.3-Codex para la codificación?
GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro (57.7% vs 56.8%), al tiempo que ofrece menor latencia y añade capacidades de uso de computadoras. Es la opción recomendada para nuevos flujos de trabajo de desarrollo.
¿Está GPT-5.4 disponible en ChatGPT?
Sí. GPT-5.4 Thinking está disponible para suscriptores Plus, Team y Pro. GPT-5.4 Pro está disponible para planes Pro y Enterprise. GPT-5.2 Thinking sigue disponible en Modelos Heredados hasta el 5 de junio de 2026.
¿Cuáles son las consideraciones de seguridad para GPT-5.4?
GPT-5.4 se clasifica como de alta capacidad cibernética bajo el Marco de Preparación de OpenAI. Las protecciones incluyen una pila de ciberseguridad expandida, sistemas de monitoreo, controles de acceso confiables y bloqueo asincrónico para solicitudes de mayor riesgo en superficies de Retención Cero de Datos. Pueden ocurrir algunos falsos positivos a medida que mejoran los clasificadores.
