¿Qué es GPT-5.4? Guía Completa del Modelo Más Avanzado de OpenAI

Ashley Innocent

Ashley Innocent

6 March 2026

¿Qué es GPT-5.4? Guía Completa del Modelo Más Avanzado de OpenAI

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

TL;DR / Respuesta Rápida

GPT-5.4 es el modelo de frontera más avanzado de OpenAI para el trabajo profesional, lanzado el 5 de marzo de 2026. Combina las capacidades de codificación líderes en la industria de GPT-5.3-Codex con razonamiento mejorado, uso de computadoras e integración de herramientas. El modelo logra una tasa de éxito del 83% en tareas de trabajo de conocimiento, un 75% en pruebas comparativas de uso de computadoras y utiliza significativamente menos tokens que GPT-5.2. Disponible a través de API a $2.50/M tokens de entrada y $15/M tokens de salida, con la versión Pro ($30/$180) para tareas complejas.

Introducción

OpenAI acaba de elevar el listón para el trabajo profesional impulsado por IA. El 5 de marzo de 2026, lanzaron GPT-5.4, un modelo que ofrece un 83% de victorias frente a profesionales de la industria en tareas de trabajo de conocimiento del mundo real, utilizando significativamente menos tokens que su predecesor.

Si ha trabajado con modelos de IA que alucinan hechos, tienen dificultades con flujos de trabajo complejos o gastan tokens en tareas simples, GPT-5.4 aborda estos puntos débiles directamente. Tiene un 33% menos de probabilidades de cometer errores fácticos y completa las tareas de uso de la computadora 3 veces más rápido que los modelos anteriores.

💡
Para los desarrolladores que crean aplicaciones impulsadas por IA, probar y validar las integraciones de API se vuelve fundamental. Herramientas como Apidog le ayudan a diseñar, depurar y probar puntos finales de API, ya sea que esté integrando GPT-5.4 o construyendo sus propios servicios. La plataforma unificada de Apidog combina el diseño de API, la depuración, las pruebas y la simulación en una única interfaz, agilizando el flujo de trabajo de desarrollo para los equipos que integran modelos de IA en sus aplicaciones.
botón

Esta guía desglosa lo que realmente hace GPT-5.4, cómo se compara con versiones anteriores y si las mejoras de rendimiento justifican los mayores costos de tokens. Obtendrá datos comparativos específicos, comparaciones de rendimiento reales y una guía clara sobre qué variante de GPT-5.4 se adapta a su caso de uso.

Lo que aprenderá:

¿Qué es GPT-5.4?

GPT-5.4 representa el primer modelo de propósito general de OpenAI con capacidades nativas de uso de computadoras. Fusiona la excelencia en codificación de GPT-5.3-Codex con razonamiento mejorado, percepción visual e integración de herramientas en un único modelo de frontera.

El modelo se dirige a tres escenarios profesionales principales:

Trabajo de conocimiento - Creación de hojas de cálculo, presentaciones, documentos y análisis en 44 ocupaciones. GPT-5.4 iguala o supera a los profesionales de la industria en el 83% de las comparaciones en GDPval, frente al 70.9% de GPT-5.2.

Uso de computadoras y agentes - Operación de computadoras mediante comandos de ratón/teclado, automatización de navegadores y flujos de trabajo de varios pasos entre aplicaciones. Alcanza una tasa de éxito del 75% en OSWorld-Verified, superando el rendimiento humano del 72.4%.

Codificación y desarrollo - Escritura, depuración e iteración de código con un rendimiento de vanguardia en SWE-Bench Pro (57.7%) mientras soporta ventanas de contexto de hasta 1 millón de tokens para bases de código complejas.

GPT-5.4 se presenta en dos variantes:

Mejoras Clave sobre GPT-5.2

GPT-5.4 no es una actualización incremental. OpenAI logró avances sustanciales en cuatro áreas críticas.

1. Precisión Factual y Reducción de Alucinaciones

Las afirmaciones falsas se redujeron un 33% a nivel de afirmación individual. Las respuestas completas contienen un 18% menos de errores en general. Esto es importante cuando se generan documentos legales, modelos financieros o documentación técnica donde un solo hecho alucinado puede descarrilar un proyecto completo.

2. Eficiencia de Tokens

GPT-5.4 utiliza significativamente menos tokens para resolver problemas en comparación con GPT-5.2. En flujos de trabajo intensivos en herramientas con los benchmarks MCP Atlas, el uso de tokens se redujo un 47% manteniendo la precisión. Para usuarios de API de alto volumen, esta ganancia de eficiencia compensa el precio más alto por token.

3. Capacidades de Uso de Computadoras

Los modelos anteriores requerían modelos especializados separados para el uso de computadoras. GPT-5.4 lo maneja de forma nativa:

4. Búsqueda e Integración de Herramientas

La búsqueda de herramientas elimina la necesidad de cargar miles de definiciones de herramientas en cada solicitud. El modelo busca las definiciones de herramientas bajo demanda, reduciendo los costos iniciales de tokens y permitiendo trabajar con ecosistemas que contienen decenas de miles de herramientas.

En el benchmark Toolathlon, GPT-5.4 logra una precisión del 54.6% en comparación con el 45.7% de GPT-5.2, con menos "tool yields" (proxy de latencia) requeridos.

Puntos de Referencia de Rendimiento de GPT-5.4

Los datos de referencia muestran dónde destaca GPT-5.4 y dónde los modelos anteriores siguen siendo competitivos.

Trabajo de Conocimiento (GDPval)

Modelo

Tasa de Éxito vs Profesionales

GPT-5.4

83.0%

GPT-5.4 Pro

82.0%

GPT-5.2 Pro

74.1%

GPT-5.2

70.9%

GDPval evalúa el trabajo de conocimiento bien especificado en 44 ocupaciones de las 9 principales industrias que contribuyen al PIB de EE. UU. Las tareas incluyen presentaciones de ventas, hojas de cálculo contables, programaciones de atención urgente, diagramas de fabricación y videos cortos.

Creación de Hojas de Cálculo y Documentos

En tareas internas de modelado de banca de inversión:

Para la evaluación de presentaciones, los evaluadores humanos prefirieron las salidas de GPT-5.4 el 68% de las veces debido a una estética más sólida, mayor variedad visual y un uso más efectivo de la generación de imágenes.

Rendimiento de Codificación (SWE-Bench Pro)

Modelo

Precisión

Latencia Estimada

GPT-5.4

57.7%

~1000s

GPT-5.3-Codex

56.8%

~1200s

GPT-5.2

55.6%

~1500s

GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro, al tiempo que ofrece una menor latencia en los esfuerzos de razonamiento. El modo /fast en Codex ofrece una velocidad de token hasta 1.5 veces mayor con GPT-5.4.

Uso de Computadoras (OSWorld-Verified)

OSWorld-Verified mide el éxito en la navegación de entornos de escritorio a través de capturas de pantalla y acciones de teclado/ratón:

Este benchmark evalúa flujos de trabajo de escritorio reales: gestión de correo electrónico y calendario, entrada de datos masiva, operaciones de archivos y tareas entre aplicaciones.

BrowseComp evalúa la investigación web persistente para encontrar información difícil de localizar:

La mejora absoluta del 17% sobre GPT-5.2 refleja una mejor síntesis de información de múltiples fuentes y estrategias de búsqueda más persistentes.

Comprensión Visual

MMMU Pro (sin herramientas) - Evalúa la comprensión y el razonamiento visual:

OmniDocBench - Precisión del análisis de documentos (menor error = mejor):

Capacidades de Uso de Computadoras y Visión

Las capacidades de uso de computadoras de GPT-5.4 merecen un examen detallado. Este es el primer modelo de propósito general de OpenAI que puede operar computadoras de forma nativa.

Cómo Funciona el Uso de Computadoras

El modelo interpreta capturas de pantalla de interfaces de navegador o escritorio y responde con:

  1. Clics basados en coordenadas en elementos de la interfaz de usuario
  2. Entrada de teclado para la introducción de texto
  3. Comandos Playwright para la automatización del navegador
  4. Movimientos de ratón y operaciones de arrastre

Los desarrolladores configuran el comportamiento a través de mensajes del sistema, ajustando las políticas de seguridad y los requisitos de confirmación según la tolerancia al riesgo.

Ejemplo de Uso de Computadoras en el Mundo Real

Mainstay probó GPT-5.4 en aproximadamente 30,000 portales de HOA y impuestos a la propiedad:

El modelo navega por las interfaces del portal, extrae datos de diversas distribuciones de UI, maneja flujos de autenticación y gestiona casos extremos como captchas o formularios de varios pasos.

Percepción Visual Mejorada

GPT-5.4 introdujo un nivel de detalle de entrada de imagen original que soporta:

El nivel de detalle alto soporta hasta 2.56M píxeles totales o una dimensión máxima de 2048 píxeles. Las pruebas tempranas de usuarios de API mostraron grandes mejoras en la capacidad de localización, la comprensión de imágenes y la precisión de los clics con configuraciones de detalle original o alto.

Mejoras en el Análisis de Documentos

Una mejor percepción visual se traduce en el manejo de documentos. GPT-5.4 analiza:

La mejora del 22% en OmniDocBench (tasa de error de 0.140 a 0.109) refleja esta capacidad.

Características de Codificación y Desarrollo

GPT-5.4 hereda la excelencia en codificación de GPT-5.3-Codex, añadiendo el uso de computadoras para flujos de trabajo de desarrollo integrados.

Desarrollo Frontend

Las evaluaciones internas encontraron que GPT-5.4 se destaca en tareas complejas de frontend con resultados notablemente más estéticos y funcionales que los modelos anteriores. La habilidad experimental Playwright Interactive en Codex demuestra esto:

Ejemplo: Simulación de Parque Temático Un solo prompt generó una simulación de parque temático isométrico con:

El modelo construyó el juego y luego utilizó Playwright para automatizar las pruebas de juego, verificando la colocación, la navegación, las reacciones de los visitantes y la estabilidad de la interfaz de usuario en múltiples rondas.

Modo Rápido para Desarrolladores

GPT-5.4 en Codex admite el modo /fast que ofrece una velocidad de tokens hasta 1.5 veces mayor. Los desarrolladores de API acceden a velocidades equivalentes a través del procesamiento prioritario. Esto mantiene la misma inteligencia al tiempo que reduce el tiempo de iteración durante la depuración y el desarrollo.

Soporte de Ventana de Contexto

GPT-5.4 Codex incluye soporte experimental para ventanas de contexto de 1 millón de tokens. Configure a través de:

Las solicitudes que exceden el contexto estándar de 272K se contabilizan contra los límites de uso al doble de la tarifa normal. Esto permite el análisis de bases de código completas, grandes conjuntos de documentación o proyectos de varios archivos en una sola solicitud.

Apidog para Documentación de API:documentación de API

Integración y Búsqueda de Herramientas

La búsqueda de herramientas representa un cambio fundamental en la forma en que los modelos interactúan con herramientas externas y servidores MCP.

Cómo Funciona la Búsqueda de Herramientas

Enfoque anterior: Todas las definiciones de herramientas se cargaban en cada solicitud por adelantado. Para sistemas con muchas herramientas, esto añadía miles a decenas de miles de tokens, aumentando los costos y ralentizando las respuestas.

Enfoque de búsqueda de herramientas: El modelo recibe una lista ligera de herramientas disponibles. Cuando es necesario, busca definiciones de herramientas específicas y las añade a la conversación en ese momento.

Ejemplo de Ahorro de Tokens

El benchmark MCP Atlas de Scale probó 250 tareas con los 36 servidores MCP habilitados:

Desglose de tokens sin búsqueda de herramientas:

La búsqueda de herramientas elimina el costo inicial al tiempo que preserva la eficiencia de la caché.

Rendimiento de MCP Atlas

En el benchmark MCP Atlas (250 tareas, 36 servidores MCP):

El modelo funciona con ecosistemas de herramientas más grandes sin sacrificar la precisión ni sobrecargar las ventanas de contexto.

Llamada Agéntica de Herramientas

El benchmark Toolathlon evalúa flujos de trabajo de herramientas de varios pasos (lectura de correos electrónicos, extracción de archivos adjuntos, carga de archivos, calificación, registro de resultados):

Los "tool yields" (espera de respuestas de herramientas) reflejan mejor la latencia que el recuento de llamadas a herramientas porque capturan los beneficios de la paralelización. GPT-5.4 completa las tareas en menos rondas.

GPT-5.4 vs GPT-5.3-Codex vs GPT-5.2

La elección entre modelos depende de sus requisitos específicos.

Cuándo Usar GPT-5.4

Cuándo GPT-5.3-Codex Sigue Siendo Competitivo

Cuándo GPT-5.2 Es Suficiente

Comparación de Precios

Modelo

Precio de Entrada

Entrada en Caché

Precio de Salida

GPT-5.2

$1.75/M

$0.175/M

$14/M

GPT-5.4

$2.50/M

$0.25/M

$15/M

GPT-5.2 Pro

$21/M

-

$168/M

GPT-5.4 Pro

$30/M

-

$180/M

Precios Batch y Flex disponibles al 50% de las tarifas estándar. Procesamiento prioritario al 200% de las tarifas estándar.

Opciones de Disponibilidad y Acceso

GPT-5.4 se implementó gradualmente a partir del 5 de marzo de 2026 en ChatGPT, Codex y API.

Acceso a ChatGPT

GPT-5.4 Thinking disponible para:

GPT-5.4 Pro disponible para:

Acceso heredado: GPT-5.2 Thinking sigue disponible durante tres meses en la sección Modelos Heredados, retirándose el 5 de junio de 2026.

Empresarial y Educación: Acceso anticipado disponible a través de la configuración de administrador.

Acceso a Codex

GPT-5.4 es el modelo predeterminado en Codex con:

Acceso a la API

Nombres de modelos:

Ventanas de contexto:

Precios:

Cronograma de Desaprobación

GPT-5.2 Thinking se retira el 5 de junio de 2026. Migre los flujos de trabajo antes de esta fecha para evitar interrupciones.

Conclusión

GPT-5.4 ofrece mejoras medibles en el trabajo de conocimiento, el uso de computadoras y las tareas de codificación. La tasa de éxito del 83% en GDPval, la puntuación del 75% en OSWorld-Verified y la precisión del 57.7% en SWE-Bench Pro lo establecen como el nuevo estado del arte para los flujos de trabajo profesionales de IA.

Para los desarrolladores que integran GPT-5.4 en aplicaciones, contar con herramientas robustas de prueba y depuración de API se vuelve esencial. Apidog agiliza el proceso de integración con capacidades unificadas de diseño, depuración, prueba y documentación de API. Ya sea que esté construyendo agentes de IA, automatizando flujos de trabajo o creando funciones orientadas al cliente impulsadas por GPT-5.4, Apidog ayuda a garantizar que sus integraciones de API funcionen correctamente desde el primer día.

botón

Puntos clave:

Cuándo adoptar:

Cuándo esperar:

GPT-5.4 representa el modelo de razonamiento más eficiente de OpenAI hasta la fecha. La combinación de alucinaciones reducidas, eficiencia de tokens mejorada y capacidades nativas de uso de computadoras justifica el precio más alto por token para aplicaciones profesionales.

Preguntas Frecuentes

¿Cuál es la diferencia entre GPT-5.4 y GPT-5.2?

GPT-5.4 logra una tasa de éxito del 83% en trabajo de conocimiento frente al 70.9% de GPT-5.2, utiliza significativamente menos tokens, tiene capacidades nativas de uso de computadoras y reduce los errores fácticos en un 33%. Los precios son más altos ($2.50/$15 vs $1.75/$14), pero los costos totales pueden ser menores debido a las ganancias de eficiencia.

¿Cuánto cuesta la API de GPT-5.4?

GPT-5.4 cuesta $2.50 por millón de tokens de entrada, $0.25 por millón de tokens de entrada en caché y $15 por millón de tokens de salida. GPT-5.4 Pro cuesta $30/M de entrada y $180/M de salida. Los precios Batch y Flex ofrecen descuentos del 50%.

¿Tiene GPT-5.4 un límite de ventana de contexto?

La ventana de contexto estándar es de 272K tokens. El soporte experimental de ventana de contexto de 1 millón de tokens está disponible en Codex configurando los parámetros model_context_window y model_auto_compact_token_limit. Las solicitudes que exceden los 272K se contabilizan al doble de la tasa de uso.

¿Para qué se utiliza GPT-5.4 Pro?

GPT-5.4 Pro apunta al máximo rendimiento en tareas de razonamiento complejas. Obtiene puntuaciones más altas en benchmarks como BrowseComp (89.3% vs 82.7%) y GDPval (82.0% vs 83.0% estándar) pero cuesta 12 veces más ($30/$180 vs $2.50/$15).

¿Cuándo se lanzó GPT-5.4?

GPT-5.4 se lanzó el 5 de marzo de 2026, implementándose gradualmente en ChatGPT, Codex y la API. GPT-5.2 Thinking sigue disponible hasta el 5 de junio de 2026 para la migración.

¿Puede GPT-5.4 usar computadoras y navegadores?

Sí. GPT-5.4 es el primer modelo de propósito general de OpenAI con capacidades nativas de uso de computadoras. Emite comandos de ratón/teclado, automatiza navegadores a través de Playwright y navega por entornos de escritorio mediante la interpretación de capturas de pantalla.

¿Qué es la búsqueda de herramientas en GPT-5.4?

La búsqueda de herramientas permite que el modelo busque definiciones de herramientas bajo demanda en lugar de cargar todas las definiciones por adelantado. Esto reduce el uso de tokens en un 47% en flujos de trabajo intensivos en herramientas y permite trabajar con ecosistemas que contienen decenas de miles de herramientas.

¿Cómo se compara GPT-5.4 con GPT-5.3-Codex para la codificación?

GPT-5.4 iguala o supera a GPT-5.3-Codex en SWE-Bench Pro (57.7% vs 56.8%), al tiempo que ofrece menor latencia y añade capacidades de uso de computadoras. Es la opción recomendada para nuevos flujos de trabajo de desarrollo.

¿Está GPT-5.4 disponible en ChatGPT?

Sí. GPT-5.4 Thinking está disponible para suscriptores Plus, Team y Pro. GPT-5.4 Pro está disponible para planes Pro y Enterprise. GPT-5.2 Thinking sigue disponible en Modelos Heredados hasta el 5 de junio de 2026.

¿Cuáles son las consideraciones de seguridad para GPT-5.4?

GPT-5.4 se clasifica como de alta capacidad cibernética bajo el Marco de Preparación de OpenAI. Las protecciones incluyen una pila de ciberseguridad expandida, sistemas de monitoreo, controles de acceso confiables y bloqueo asincrónico para solicitudes de mayor riesgo en superficies de Retención Cero de Datos. Pueden ocurrir algunos falsos positivos a medida que mejoran los clasificadores.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs