GPT-5.6 Sol benchmarks: vale a pena esperar?

A OpenAI anunciou o GPT-5.6 Sol em 26 de junho de 2026 com uma pilha de números de benchmark que parecem um recorde impecável. Líder no Terminal-Bench, o único modelo a ultrapassar 50% no Agent’s Last Exam no modo de código, avaliações cibernéticas que se igualam a um concorrente de ponta em um terço dos tokens. O detalhe que você precisa ler primeiro: você não pode executar nada disso. O Sol é lançado como uma prévia limitada, controlada pelo governo, apenas através da API da OpenAI e do Codex, restrito a aproximadamente 20 parceiros cujos nomes foram individualmente aprovados pelo governo dos EUA. Não está no ChatGPT, e não há nada para se inscrever hoje.

Portanto, os benchmarks não são conselhos de compra. Eles respondem a uma pergunta, e apenas uma: vale a pena esperar pelo GPT-5.6 Sol, ou você deve seguir em frente com um modelo que já pode usar? É isso que este artigo resolve. Analisamos o que cada benchmark de destaque mede, colocamos cada número ao lado das linhas de base GPT-5.5 e Claude Mythos 5 que você já tem, e terminamos com um veredito honesto de esperar ou seguir em frente. Cada figura aqui vem do próprio enquadramento da OpenAI e da cobertura secundária inicial, não de um teste que realizamos.

botão

Em Resumo

O GPT-5.6 Sol está em prévia limitada: apenas API da OpenAI e Codex, não no ChatGPT, cerca de 20 parceiros aprovados pelo governo. A disponibilidade geral está prevista para "próximas semanas", segundo a OpenAI.
As pontuações relatadas são fortes, mas de fonte secundária. Trate-as como afirmações da OpenAI, não como resultados medidos, até que o modelo seja disponibilizado.
Números de destaque (segundo OpenAI / cobertura inicial): SOTA no Terminal-Bench 2.1, modo de código do Agent’s Last Exam acima de 50%, paridade no ExploitBench com aproximadamente um terço dos tokens de saída.
Espere se seu trabalho envolve codificação agentic, tarefas de terminal longas ou segurança defensiva, e você pode esperar algumas semanas.
Não se preocupe em esperar se você precisa de um modelo em produção agora. As alternativas que você pode testar hoje cobrem a maior parte da lacuna.

Leia isto antes de ler as pontuações

Benchmarks informam o que um modelo pode fazer. Eles não dizem se você pode usá-lo. Para o GPT-5.6 Sol, esses são dois fatos diferentes, e o segundo domina no momento.

O lançamento é controlado pela administração dos EUA sob uma ordem executiva de 2 de junho de 2026 que estabeleceu o benchmarking e a avaliação para novos modelos de IA. A OpenAI concordou como uma etapa temporária. Em suas palavras, citadas pela MacRumors, “Estamos dando este passo de curto prazo porque acreditamos que é o caminho mais forte para uma disponibilidade mais ampla nas próximas semanas.” A OpenAI diz que a disponibilidade geral no ChatGPT, Codex e na API chegará nas próximas semanas. Até então, as pontuações são uma prévia de algo que você não pode comprar.

Essa contextualização é importante para como você lê o restante deste artigo. Uma vantagem de 4 pontos no Terminal-Bench é significativa se você puder implementá-la. É um motivo para continuar observando, não para paralisar seu roteiro, se você não puder. Se você quer o panorama completo do que é o Sol e por que ele está bloqueado, nosso explicador do GPT-5.6 Sol aborda a família e o bloqueio. Os identificadores exatos do modelo da API ainda não foram publicados, então não há nada para configurar mesmo que você quisesse.

Terminal-Bench 2.1: o número de destaque

O Terminal-Bench mede quão bem um modelo completa tarefas reais em um terminal: editar arquivos, executar comandos, encadear ferramentas, recuperar-se de erros. É o proxy público mais próximo para “esta coisa pode fazer trabalho de codificação agentic de ponta a ponta” em vez de apenas responder a um único prompt. É por isso que a OpenAI o destacou.

Segundo a OpenAI e a cobertura inicial, no Terminal-Bench 2.1, a nova configuração “ultra”, Sol Ultra, pontua cerca de 91,91%, com o Sol padrão em torno de 88,8%. As linhas de base que você já tem para contexto: Claude Mythos 5 em torno de 88% e GPT-5.5 em torno de 83,4%. Se esses números se mantiverem, o modo padrão do Sol empata aproximadamente com o Mythos 5, e o Sol Ultra se destaca alguns pontos à frente.

A parte “ultra” está fazendo um trabalho real nessa pontuação máxima. Conforme o anúncio da OpenAI, o modo ultra “vai além de um único agente, aproveitando subagentes para acelerar trabalhos complexos”. Então, os 91,91% não são um único modelo pensando mais; é um modelo gerando ajudantes. Essa é uma verdadeira mudança de capacidade, e também significa que o número de destaque não se traduz diretamente em uma única chamada GPT-5.5. Para uma comparação direta entre os modelos que você pode executar hoje, nossa comparação Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5 é a melhor referência enquanto o Sol permanece bloqueado.

Agent’s Last Exam: a afirmação “único modelo acima de 50%”

O Agent’s Last Exam é um benchmark agentic difícil, construído para resistir à saturação: tarefas multi-etapas onde o modelo precisa planejar, usar ferramentas e seguir em frente sem que um humano o direcione novamente. O modo de código é a parte que enfatiza especificamente o trabalho de software.

De acordo com a cobertura inicial, o GPT-5.6 Sol atinge cerca de 50,9% no modo de código e é descrito como o único modelo acima de 50%. Esse enquadramento é o ponto crucial. Em um benchmark onde a maioria dos modelos de ponta ficam na casa dos 40%, ultrapassar a metade é o tipo de salto que a OpenAI quer destacar no lançamento.

Leia isso com a mesma cautela que a figura do Terminal-Bench. 50,9% é uma afirmação da reportagem secundária, não um número que medimos, e “o único modelo acima de 50%” é um instantâneo que outros laboratórios irão contestar em questão de semanas. A leitura honesta: se seu trabalho é genuinamente codificação agentic e de longo prazo, onde um modelo precisa conduzir uma tarefa até a conclusão, este é o benchmark que defende a espera. Se seu trabalho é codificação de requisição e resposta mais curta, a diferença em relação a um modelo que você já executa é menor do que o título sugere.

ExploitBench: eficiência sobre pontuação bruta

O terceiro benchmark é o mais interessante para a decisão de esperar ou seguir em frente, porque não se trata realmente de uma pontuação maior. O ExploitBench (e o ExploitGym relacionado) medem a capacidade de cibersegurança. O Sol é ajustado para encontrar vulnerabilidades de software e escrever correções, enquanto resiste a esforços para criar cadeias completas de exploração. Esta é uma postura defensiva, não um modelo de hacking ofensivo, e a OpenAI o chama de seu “conjunto de segurança mais robusto até hoje.”

De acordo com a cobertura inicial, no ExploitBench, o Sol é competitivo com o Mythos Preview da Anthropic, usando aproximadamente um terço dos tokens de saída. O mesmo padrão aparece no lado científico: no GeneBench v1, a OpenAI relata uma melhoria sobre o GPT-5.5 usando menos tokens.

A história dos tokens é a que tem consequências orçamentárias reais. Se o Sol atinge um nível de qualidade similar com um terço dos tokens de saída, o custo efetivo por tarefa resolvida cai bem abaixo do que a tabela de preços de $5 de entrada / $30 de saída por milhão de tokens sugere no papel. Esse é o argumento de eficiência para esperar: não que o Sol seja mais inteligente em cada prompt, mas que ele pode chegar à mesma resposta de forma mais barata nas cargas de trabalho para as quais foi ajustado. O cartão do sistema de segurança de implantação da OpenAI é onde o enquadramento de segurança e cibernética está documentado, e vale a pena lê-lo antes de tratar qualquer número cibernético como definitivo.

Como ler essas pontuações em relação à sua linha de base

Junte os três benchmarks e uma forma aparece. O caso do Sol é mais forte em trabalhos longos, agentic e que utilizam muitas ferramentas: tarefas de terminal, codificação multi-etapas, varreduras de segurança defensiva. Nessas áreas, ele reivindica alguns pontos de vantagem sobre o Mythos 5 e uma lacuna maior sobre o GPT-5.5, além de uma vantagem em eficiência de tokens.

O que os benchmarks não mostram é tão importante quanto. Não há limite máximo de tokens de saída publicado, nenhum limite de conhecimento declarado, nenhuma lista de modalidades confirmada. A janela de contexto é relatada como aproximadamente 1,5 milhão de tokens por um veículo de imprensa e “não especificada” por outro, então trate isso como não confirmado.

O veredito: esperar ou seguir em frente

Aqui está o corte honesto.

Espere se: sua carga de trabalho principal é codificação agentic, sessões longas de terminal ou segurança defensiva, e você pode aguardar algumas semanas. A liderança no Terminal-Bench, o resultado do Agent’s Last Exam e a eficiência de tokens do ExploitBench apontam para esse perfil exato. Se alguns pontos percentuais nessas tarefas mudam sua economia, vale a pena observar o Sol de perto. Observe a disponibilidade geral e, mais importante, os benchmarks independentes que confirmam ou diminuem os números de lançamento.

Não se preocupe em esperar se: você precisa de um modelo em produção agora, ou seu trabalho envolve codificação mais curta de solicitação e resposta, chat, sumarização ou classificação. Você não pode obter o Sol hoje de qualquer forma, os IDs do modelo sequer foram publicados, e as alternativas que você pode executar agora cobrem a maior parte da lacuna no trabalho diário. Esperar que um modelo bloqueado seja lançado antes de resolver um problema que você tem hoje é uma troca errada. O movimento mais inteligente é escolher um modelo de ponta que você possa realmente usar; nossa seleção de modelos de ponta que você pode usar hoje compara cada um ao trabalho para o qual o Sol está sendo divulgado.

Mais uma observação honesta: mesmo quando a disponibilidade geral chegar, a primeira onda será do GPT-5.6 em toda a linha de camadas, incluindo Terra e Luna, não apenas Sol. O Terra é posicionado como aproximadamente 2x mais barato que o GPT-5.5 com desempenho similar, que é a camada que a maioria das equipes acabará usando. Então, "esperar pelo Sol" pode realmente significar esperar para escolher a camada certa, e essa é uma decisão mais calma do que os títulos dos benchmarks implicam.

Onde o Apidog se encaixa enquanto você espera

Você ainda não pode testar o Sol. Mas você pode testar tudo o que usaria enquanto isso. Mythos 5, GPT-5.5, Gemini e os demais expõem APIs compatíveis com OpenAI ou APIs HTTP padrão, e você pode controlá-las, fazer asserções sobre suas respostas e comparar comportamentos no Apidog hoje. Configure uma requisição, aponte-a para o endpoint de cada modelo e você terá um mecanismo repetível para a decisão que este artigo aborda.

Esse mecanismo também é sua prontidão para o dia do lançamento do Sol. No dia em que seu acesso à prévia for liberado, ou a disponibilidade geral for aberta, você troca o endpoint e o ID do modelo e executa os mesmos cenários que você já construiu. Sem novas ferramentas, sem correria. Baixe o Apidog para construir esses testes contra os modelos que você pode usar agora, para estar pronto no momento em que o bloqueado for liberado.

Conclusão

Os benchmarks do GPT-5.6 Sol são fortes, de forma específica para o trabalho agentic e de segurança para o qual foi ajustado, e ainda são apenas afirmações sob um bloqueio governamental que você não pode passar hoje. Espere se esse perfil de ponta é o seu trabalho e você pode aguentar algumas semanas. Caso contrário, siga em frente com um modelo que você pode enviar agora e revisite quando o Sol tiver números independentes e um endpoint público.

Construa seu mecanismo de avaliação contra os modelos que você pode usar hoje no Apidog, para estar pronto para testar o Sol no dia em que seu acesso for concedido.

botão