TL;DR / Resposta Rápida
O GPT-5.4 é o modelo de fronteira mais avançado da OpenAI para trabalho profissional, lançado em 5 de março de 2026. Ele combina as capacidades de codificação líderes da indústria do GPT-5.3-Codex com raciocínio aprimorado, uso de computador e integração de ferramentas. O modelo atinge uma taxa de sucesso de 83% em tarefas de trabalho intelectual, 75% em benchmarks de uso de computador e utiliza significativamente menos tokens do que o GPT-5.2. Disponível via API por $2,50/M tokens de entrada e $15/M tokens de saída, com versão Pro ($30/$180) para tarefas complexas.
Introdução
A OpenAI acaba de elevar o nível para o trabalho profissional impulsionado por IA. Em 5 de março de 2026, eles lançaram o GPT-5.4, um modelo que oferece uma taxa de sucesso de 83% contra profissionais da indústria em tarefas de trabalho intelectual do mundo real, utilizando significativamente menos tokens do que seu predecessor.
Se você já trabalhou com modelos de IA que "alucinam" fatos, têm dificuldades com fluxos de trabalho complexos ou gastam muitos tokens em tarefas simples, o GPT-5.4 aborda esses problemas diretamente. Ele tem 33% menos probabilidade de cometer erros factuais e conclui tarefas de uso de computador 3x mais rápido que os modelos anteriores.
Este guia detalha o que o GPT-5.4 realmente faz, como ele se compara às versões anteriores e se os ganhos de desempenho justificam os custos mais altos dos tokens. Você obterá dados de benchmark específicos, comparações de desempenho reais e orientações claras sobre qual variante do GPT-5.4 se adapta ao seu caso de uso.
O que você aprenderá:
- Melhorias exatas de desempenho em relação ao GPT-5.2 e GPT-5.3-Codex
- Pontuações de benchmark em codificação, uso de computador e trabalho intelectual
- Novas capacidades de uso de computador e visão com exemplos reais
- Detalhes de preços e quando usar a versão Pro versus a padrão
- Considerações de integração para desenvolvedores de API
O Que É o GPT-5.4?
O GPT-5.4 representa o primeiro modelo de propósito geral da OpenAI com capacidades nativas de uso de computador. Ele mescla a excelência de codificação do GPT-5.3-Codex com raciocínio aprimorado, percepção visual e integração de ferramentas em um único modelo de fronteira.

O modelo visa três cenários profissionais principais:
Trabalho intelectual - Criação de planilhas, apresentações, documentos e análises em 44 ocupações. O GPT-5.4 iguala ou supera profissionais da indústria em 83% das comparações no GDPval, acima dos 70,9% do GPT-5.2.
Uso de computador e agentes - Operar computadores através de comandos de mouse/teclado, automação de navegador e fluxos de trabalho multi-etapas entre aplicativos. Atinge 75% de taxa de sucesso no OSWorld-Verified, superando o desempenho humano de 72,4%.
Codificação e desenvolvimento - Escrever, depurar e iterar código com desempenho de ponta no SWE-Bench Pro (57,7%), enquanto suporta janelas de contexto de até 1M de tokens para bases de código complexas.
O GPT-5.4 vem em duas variantes:
- GPT-5.4 - Modelo padrão para a maioria das tarefas profissionais
- GPT-5.4 Pro - Desempenho máximo em tarefas de raciocínio complexas ($30/M entrada, $180/M saída)
Principais Melhorias em Relação ao GPT-5.2
O GPT-5.4 não é uma atualização incremental. A OpenAI obteve ganhos substanciais em quatro áreas críticas.
1. Precisão Factual e Redução de "Alucinações"
Alegações falsas caíram 33% no nível da alegação individual. As respostas completas contêm 18% menos erros no geral. Isso é importante quando você está gerando documentos legais, modelos financeiros ou documentação técnica, onde um único fato "alucinado" pode inviabilizar um projeto inteiro.
2. Eficiência de Tokens
O GPT-5.4 usa significativamente menos tokens para resolver problemas em comparação com o GPT-5.2. Em fluxos de trabalho com muitas ferramentas e benchmarks MCP Atlas, o uso de tokens caiu 47%, mantendo a precisão. Para usuários de API de alto volume, esse ganho de eficiência compensa o preço mais alto por token.
3. Capacidades de Uso de Computador
Modelos anteriores exigiam modelos especializados separados para o uso de computador. O GPT-5.4 lida com isso nativamente:
- Emite comandos de mouse e teclado a partir de capturas de tela
- Automatiza navegadores via Playwright
- Navega em ambientes de desktop através de interações baseadas em coordenadas
- Suporta políticas de segurança personalizadas e requisitos de confirmação
4. Pesquisa e Integração de Ferramentas
A pesquisa de ferramentas elimina a necessidade de carregar milhares de definições de ferramentas em cada requisição. O modelo pesquisa definições de ferramentas sob demanda, reduzindo os custos iniciais de tokens e permitindo o trabalho com ecossistemas contendo dezenas de milhares de ferramentas.
No benchmark Toolathlon, o GPT-5.4 atinge 54,6% de precisão em comparação com 45,7% para o GPT-5.2, com menos "rendimentos" de ferramentas (proxy de latência) necessários.
Benchmarks de Desempenho do GPT-5.4
Os dados de benchmark mostram onde o GPT-5.4 se destaca e onde os modelos anteriores permanecem competitivos.
Trabalho Intelectual (GDPval)
Modelo | Taxa de Sucesso vs Profissionais |
|---|---|
GPT-5.4 | 83.0% |
GPT-5.4 Pro | 82.0% |
GPT-5.2 Pro | 74.1% |
GPT-5.2 | 70.9% |
O GDPval testa trabalho intelectual bem especificado em 44 ocupações das 9 principais indústrias que contribuem para o PIB dos EUA. As tarefas incluem apresentações de vendas, planilhas contábeis, agendamentos de atendimento de urgência, diagramas de fabricação e vídeos curtos.
Criação de Planilhas e Documentos
Em tarefas internas de modelagem para banco de investimento:
- GPT-5.4: pontuação média de 87,3%
- GPT-5.2: pontuação média de 68,4%
Para avaliação de apresentações, avaliadores humanos preferiram as saídas do GPT-5.4 em 68% das vezes devido à estética mais forte, maior variedade visual e uso mais eficaz da geração de imagens.
Desempenho de Codificação (SWE-Bench Pro)
Modelo | Precisão | Latência Estimada |
|---|---|---|
GPT-5.4 | 57.7% | ~1000s |
GPT-5.3-Codex | 56.8% | ~1200s |
GPT-5.2 | 55.6% | ~1500s |

O GPT-5.4 iguala ou supera o GPT-5.3-Codex no SWE-Bench Pro, enquanto oferece menor latência em esforços de raciocínio. O modo /fast no Codex oferece até 1,5x mais velocidade de tokens com o GPT-5.4.
Uso de Computador (OSWorld-Verified)
O OSWorld-Verified mede o sucesso na navegação em ambientes de desktop por meio de capturas de tela e ações de teclado/mouse:
- GPT-5.4: 75,0%
- GPT-5.3-Codex: 74,0% (com parâmetro de API que preserva a resolução original da imagem)
- GPT-5.2: 47,3%
- Desempenho humano: 72,4%
Este benchmark testa fluxos de trabalho reais de desktop: gerenciamento de e-mail e calendário, entrada de dados em massa, operações de arquivo e tarefas entre aplicativos.
Navegação na Web (BrowseComp)
O BrowseComp testa a pesquisa persistente na web para encontrar informações difíceis de localizar:
- GPT-5.4 Pro: 89,3%
- GPT-5.4: 82,7%
- GPT-5.2 Pro: 77,9%
- GPT-5.2: 65,8%
A melhoria absoluta de 17% em relação ao GPT-5.2 reflete uma melhor síntese de informações de múltiplas fontes e estratégias de busca mais persistentes.
Compreensão Visual
MMMU Pro (sem ferramentas) - Testa a compreensão e o raciocínio visual:
- GPT-5.4: 81,2%
- GPT-5.2: 79,5%
OmniDocBench - Precisão de análise de documentos (menor erro = melhor):
- GPT-5.4: 0,109 de distância de edição normalizada
- GPT-5.2: 0,140 de distância de edição normalizada
Capacidades de Uso de Computador e Visão
As capacidades de uso de computador do GPT-5.4 merecem um exame detalhado. Este é o primeiro modelo de propósito geral da OpenAI que pode operar computadores nativamente.
Como Funciona o Uso de Computador
O modelo interpreta capturas de tela de interfaces de navegador ou desktop e responde com:
- Cliques baseados em coordenadas em elementos da interface do usuário
- Entrada de teclado para digitação de texto
- Comandos Playwright para automação de navegador
- Movimentos do mouse e operações de arrastar e soltar
Os desenvolvedores configuram o comportamento através de mensagens do sistema, ajustando políticas de segurança e requisitos de confirmação com base na tolerância ao risco.
Exemplo de Uso de Computador no Mundo Real
A Mainstay testou o GPT-5.4 em aproximadamente 30.000 portais de associações de proprietários (HOA) e impostos sobre a propriedade:
- GPT-5.4: 95% de sucesso na primeira tentativa, 100% em até três tentativas
- Modelos CUA anteriores: taxa de sucesso de 73-79%
- Conclusão de sessão: 3x mais rápida com GPT-5.4
- Uso de tokens: 70% menos tokens por sessão
O modelo navega por interfaces de portal, extrai dados de layouts de UI variados, lida com fluxos de autenticação e gerencia casos extremos como captchas ou formulários de várias etapas.
Percepção Visual Aprimorada
O GPT-5.4 introduziu um nível de detalhe de entrada de imagem original que suporta:
- Até 10,24M pixels totais
- Dimensão máxima de 6000 pixels
- Percepção de fidelidade total para imagens densas e de alta resolução
O nível de detalhe alto suporta até 2,56M pixels totais ou dimensão máxima de 2048 pixels. Testes iniciais de usuários de API mostraram grandes ganhos na capacidade de localização, compreensão de imagem e precisão de clique com configurações originais ou de alto detalhe.
Melhorias na Análise de Documentos
Uma melhor percepção visual se traduz no manuseio de documentos. O GPT-5.4 analisa:
- PDFs de várias páginas com tabelas e figuras
- Documentos digitalizados com layouts variados
- Capturas de tela contendo texto e elementos da interface do usuário
- Diagramas e gráficos técnicos
A melhoria de 22% no OmniDocBench (de 0,140 para 0,109 taxa de erro) reflete essa capacidade.
Recursos de Codificação e Desenvolvimento
O GPT-5.4 herda a excelência de codificação do GPT-5.3-Codex, adicionando o uso de computador para fluxos de trabalho de desenvolvimento integrados.
Desenvolvimento Frontend
Avaliações internas descobriram que o GPT-5.4 se destaca em tarefas complexas de frontend com resultados visivelmente mais estéticos e funcionais do que os modelos anteriores. A habilidade experimental Playwright Interactive no Codex demonstra isso:
Exemplo: Simulação de Parque Temático Um único prompt gerou uma simulação isométrica de parque temático com:
- Colocação de caminho baseada em tiles (blocos)
- Construção de atrações e cenários
- Caminho e enfileiramento de visitantes
- Métricas do parque (dinheiro, visitantes, felicidade, limpeza)
- Testes de jogo no navegador via automação Playwright
- Geração de imagens para ativos isométricos
O modelo construiu o jogo e depois usou o Playwright para automatizar os testes de jogo, verificando posicionamento, navegação, reações dos visitantes e estabilidade da interface do usuário em várias rodadas.
Modo Rápido para Desenvolvedores
O GPT-5.4 no Codex suporta o modo /fast, oferecendo até 1,5x mais velocidade de tokens. Desenvolvedores de API acessam velocidades equivalentes através de processamento prioritário. Isso mantém a mesma inteligência, reduzindo o tempo de iteração durante a depuração e o desenvolvimento.
Suporte a Janela de Contexto
O GPT-5.4 Codex inclui suporte experimental a uma janela de contexto de 1M de tokens. Configure via:
- parâmetro
model_context_window - parâmetro
model_auto_compact_token_limit
Requisições que excedem o contexto padrão de 272K contam contra os limites de uso a 2x a taxa normal. Isso permite a análise de bases de código inteiras, grandes conjuntos de documentação ou projetos com vários arquivos em uma única requisição.
Apidog para Documentação de API:documentação de API

Integração e Pesquisa de Ferramentas
A pesquisa de ferramentas representa uma mudança fundamental na forma como os modelos interagem com ferramentas externas e servidores MCP.
Como Funciona a Pesquisa de Ferramentas
Abordagem anterior: Todas as definições de ferramentas eram carregadas em cada requisição antecipadamente. Para sistemas com muitas ferramentas, isso adicionava milhares a dezenas de milhares de tokens, aumentando os custos e diminuindo a velocidade das respostas.
Abordagem de pesquisa de ferramentas: O modelo recebe uma lista leve de ferramentas disponíveis. Quando necessário, ele pesquisa definições de ferramentas específicas e as anexa à conversa naquele momento.
Exemplo de Economia de Tokens
O benchmark MCP Atlas da Scale testou 250 tarefas com todos os 36 servidores MCP habilitados:

Detalhes do token sem pesquisa de ferramentas:
- 65.320 tokens de entrada iniciais (definições de ferramentas)
- Tokens adicionais das saídas das ferramentas
- Tokens de saída
A pesquisa de ferramentas elimina o custo inicial, preservando a eficiência do cache.
Desempenho do MCP Atlas
No benchmark MCP Atlas (250 tarefas, 36 servidores MCP):
- GPT-5.4: 67,2% de precisão
- GPT-5.2: 60,6% de precisão
O modelo funciona com ecossistemas de ferramentas maiores sem sacrificar a precisão ou sobrecarregar as janelas de contexto.
Chamada de Ferramentas Agêntica
O benchmark Toolathlon testa fluxos de trabalho de ferramentas multi-etapas (leitura de e-mails, extração de anexos, upload de arquivos, avaliação, registro de resultados):

Os "rendimentos" de ferramentas (espera por respostas de ferramentas) refletem melhor a latência do que a contagem de chamadas de ferramentas, pois capturam os benefícios da paralelização. O GPT-5.4 conclui as tarefas em menos rodadas.
GPT-5.4 vs GPT-5.3-Codex vs GPT-5.2
A escolha entre os modelos depende dos seus requisitos específicos.
Quando Usar o GPT-5.4
- Uso de computador necessário - Operação nativa do computador, automação de navegador
- Trabalho intelectual - Planilhas, apresentações, documentos
- Fluxos de trabalho com muitas ferramentas - Servidores MCP, APIs externas, automação multi-etapa
- Sensível ao custo em escala - A eficiência de tokens reduz os custos totais apesar do preço mais alto por token
- Necessidades de contexto longo - Até 1M de tokens para bases de código complexas
Quando o GPT-5.3-Codex Permanece Competitivo
- Tarefas de codificação pura - Desempenho SWE-Bench Pro semelhante (56,8% vs 57,7%)
- Fluxos de trabalho Codex estabelecidos - Integrações existentes podem não precisar de uso de computador
- Otimização de custos - Se o preço do GPT-5.3-Codex permanecer mais baixo
Quando o GPT-5.2 é Suficiente
- Consultas simples - Perguntas e respostas básicas, resumo, geração direta
- Restrições orçamentárias - Custos por token mais baixos ($1,75/$14 vs $2,50/$15)
- Fluxos de trabalho não-agênticos - Requisições de turno único sem uso de ferramentas
Comparação de Preços
Modelo | Preço de Entrada | Entrada em Cache | Preço de Saída |
|---|---|---|---|
GPT-5.2 | $1.75/M | $0.175/M | $14/M |
GPT-5.4 | $2.50/M | $0.25/M | $15/M |
GPT-5.2 Pro | $21/M | - | $168/M |
GPT-5.4 Pro | $30/M | - | $180/M |
Preços Batch e Flex disponíveis a 50% das taxas padrão. Processamento prioritário a 200% das taxas padrão.
Disponibilidade e Opções de Acesso
O GPT-5.4 foi lançado gradualmente a partir de 5 de março de 2026, abrangendo ChatGPT, Codex e API.
Acesso ao ChatGPT
GPT-5.4 Thinking disponível para:
- Assinantes do ChatGPT Plus
- Assinantes do ChatGPT Team
- Assinantes do ChatGPT Pro
GPT-5.4 Pro disponível para:
- Assinantes do ChatGPT Pro
- Assinantes do ChatGPT Enterprise
Acesso legado: O GPT-5.2 Thinking permanece disponível por três meses na seção Modelos Legados, sendo descontinuado em 5 de junho de 2026.
Empresarial e Educacional: Acesso antecipado disponível via configurações de administrador.
Acesso ao Codex
O GPT-5.4 é o modelo padrão no Codex com:
- Suporte experimental a janela de contexto de 1M de tokens
- Habilidade Playwright Interactive para testes de jogo em navegador
- Modo /fast para velocidade de token 1,5x mais rápida
Acesso à API
Nomes dos modelos:
gpt-5.4- Modelo padrãogpt-5.4-pro- Modelo Pro para tarefas complexas
Janelas de contexto:
- Padrão: 272K tokens
- Estendida: Até 1M de tokens (experimental, taxa de uso 2x)
Preços:
- Padrão: $2,50/M entrada, $0,25/M entrada em cache, $15/M saída
- Pro: $30/M entrada, $180/M saída
- Lote/Flex: 50% de desconto
- Prioridade: 2x taxa padrão
Cronograma de Descontinuação
O GPT-5.2 Thinking será descontinuado em 5 de junho de 2026. Migre os fluxos de trabalho antes desta data para evitar interrupções.
Conclusão
O GPT-5.4 oferece melhorias mensuráveis em trabalho intelectual, uso de computador e tarefas de codificação. A taxa de sucesso de 83% no GDPval, a pontuação de 75% no OSWorld-Verified e a precisão de 57,7% no SWE-Bench Pro o estabelecem como o novo estado da arte para fluxos de trabalho profissionais de IA.
Para desenvolvedores que integram o GPT-5.4 em aplicativos, ter ferramentas robustas de teste e depuração de API torna-se essencial. O Apidog simplifica o processo de integração com recursos unificados de design, depuração, teste e documentação de API. Quer você esteja construindo agentes de IA, automatizando fluxos de trabalho ou criando recursos voltados para o cliente alimentados pelo GPT-5.4, o Apidog ajuda a garantir que suas integrações de API funcionem corretamente desde o primeiro dia.
Principais pontos:
- Redução de 33% em alegações falsas e 18% menos erros de resposta
- Redução de 47% de tokens em fluxos de trabalho com muitas ferramentas
- Taxa de sucesso de uso de computador de 75%, superando a linha de base humana
- Operação nativa do computador via comandos de mouse/teclado
- A pesquisa de ferramentas permite trabalhar com dezenas de milhares de ferramentas
- Janela de contexto de 1M de tokens para bases de código complexas
- Disponível por $2,50/$15 por milhão de tokens (variante padrão)
Quando adotar:
- Você precisa de uso de computador ou automação de navegador
- A eficiência de tokens é importante para fluxos de trabalho de alto volume
- A precisão factual é crítica (jurídica, financeira, técnica)
- Você trabalha com grandes ecossistemas de ferramentas ou servidores MCP
- Análise de contexto longo de bases de código ou documentos
Quando esperar:
- Fluxos de trabalho simples de perguntas e respostas não se beneficiam das novas capacidades
- Restrições orçamentárias priorizam os custos mais baixos por token
- Os fluxos de trabalho existentes do GPT-5.2 ou GPT-5.3-Codex funcionam adequadamente
O GPT-5.4 representa o modelo de raciocínio mais eficiente da OpenAI até o momento. A combinação de "alucinações" reduzidas, eficiência de tokens aprimorada e capacidades nativas de uso de computador justifica o preço mais alto por token para aplicações profissionais.
Perguntas Frequentes
Qual é a diferença entre GPT-5.4 e GPT-5.2?
O GPT-5.4 atinge uma taxa de sucesso de 83% em trabalho intelectual contra 70,9% para o GPT-5.2, utiliza significativamente menos tokens, possui capacidades nativas de uso de computador e reduz erros factuais em 33%. Os preços são mais altos ($2,50/$15 vs $1,75/$14), mas os custos totais podem ser menores devido aos ganhos de eficiência.
Quanto custa a API do GPT-5.4?
O GPT-5.4 custa $2,50 por milhão de tokens de entrada, $0,25 por milhão de tokens de entrada em cache e $15 por milhão de tokens de saída. O GPT-5.4 Pro custa $30/M de entrada e $180/M de saída. Os preços Batch e Flex oferecem 50% de desconto.
O GPT-5.4 tem um limite de janela de contexto?
A janela de contexto padrão é de 272K tokens. O suporte experimental a janela de contexto de 1M de tokens está disponível no Codex configurando os parâmetros model_context_window e model_auto_compact_token_limit. Requisições que excedem 272K contam a uma taxa de uso 2x.
Para que é usado o GPT-5.4 Pro?
O GPT-5.4 Pro visa o desempenho máximo em tarefas de raciocínio complexas. Ele pontua mais alto em benchmarks como BrowseComp (89,3% vs 82,7%) e GDPval (82,0% vs 83,0% padrão), mas custa 12x mais ($30/$180 vs $2,50/$15).
Quando o GPT-5.4 foi lançado?
O GPT-5.4 foi lançado em 5 de março de 2026, sendo implementado gradualmente em ChatGPT, Codex e API. O GPT-5.2 Thinking permanece disponível até 5 de junho de 2026 para migração.
O GPT-5.4 pode usar computadores e navegadores?
Sim. O GPT-5.4 é o primeiro modelo de propósito geral da OpenAI com capacidades nativas de uso de computador. Ele emite comandos de mouse/teclado, automatiza navegadores via Playwright e navega em ambientes de desktop através da interpretação de capturas de tela.
O que é a pesquisa de ferramentas no GPT-5.4?
A pesquisa de ferramentas permite que o modelo procure definições de ferramentas sob demanda, em vez de carregar todas as definições antecipadamente. Isso reduz o uso de tokens em 47% em fluxos de trabalho com muitas ferramentas e permite trabalhar com ecossistemas contendo dezenas de milhares de ferramentas.
Como o GPT-5.4 se compara ao GPT-5.3-Codex para codificação?
O GPT-5.4 iguala ou supera o GPT-5.3-Codex no SWE-Bench Pro (57,7% vs 56,8%), enquanto oferece menor latência e adiciona capacidades de uso de computador. É a escolha recomendada para novos fluxos de trabalho de desenvolvimento.
O GPT-5.4 está disponível no ChatGPT?
Sim. O GPT-5.4 Thinking está disponível para assinantes Plus, Team e Pro. O GPT-5.4 Pro está disponível para planos Pro e Enterprise. O GPT-5.2 Thinking permanece disponível em Modelos Legados até 5 de junho de 2026.
Quais são as considerações de segurança para o GPT-5.4?
O GPT-5.4 é tratado como de alta capacidade cibernética sob o Framework de Preparação da OpenAI. As proteções incluem uma pilha expandida de segurança cibernética, sistemas de monitoramento, controles de acesso confiáveis e bloqueio assíncrono para requisições de maior risco em superfícies de Retenção Zero de Dados. Alguns falsos positivos podem ocorrer à medida que os classificadores melhoram.
