Três lançamentos de classe fronteira foram enviados nos últimos 33 dias. O Claude Opus 4.7 da Anthropic chegou em 16 de abril. O GPT-5.5 da OpenAI seguiu em 23 de abril. O Gemini 3.5 Flash do Google foi lançado em 19 de maio, com a versão Pro chegando em junho.
Vale dizer de antemão: esta é uma comparação de níveis desiguais. O Opus 4.7 e o GPT-5.5 são modelos carro-chefe com preços de carro-chefe. O Flash é a variante rápida e de baixo custo do Google, com um preço que é uma fração de qualquer um dos dois. A questão interessante é se o Flash se mantém quando você o compara a modelos que custam 5 a 10 vezes mais por token.
A resposta curta: o Flash se destaca bem acima do seu nível. Ele vence em custo, velocidade e em vários benchmarks de agente. Ele perde nas tarefas de codificação mais difíceis e na qualidade de escrita. O truque é adequar o modelo à carga de trabalho.
A resposta em 30 segundos
| Pergunta | Melhor opção |
|---|---|
| Loop de agente de produção mais barato | Gemini 3.5 Flash |
| Maior pontuação em correções de bugs verificadas no SWE-Bench | Opus 4.7 |
| Mais eficiente em termos de token em escala | GPT-5.5 |
| Melhor recuperação de contexto longo (1M tokens) | Gemini 3.5 Flash |
| Melhor compreensão de gráficos e documentos | Gemini 3.5 Flash |
| Melhor agente CLI de longo horizonte | GPT-5.5 (Terminal-Bench 2.0) |
| Melhor seguimento de instruções em várias etapas | Opus 4.7 |
| Saída de token mais rápida | Gemini 3.5 Flash (~4× os outros) |
| Melhor refatoração de código em todo o repositório | Opus 4.7 |
Não há um único vencedor. Continue lendo para a análise detalhada por carga de trabalho.
Cronograma de lançamento
Os modelos foram lançados próximos uns dos outros, mas com posicionamentos diferentes:
- Opus 4.7, 16 de abril de 2026. O modelo de raciocínio carro-chefe da Anthropic, otimizado para código e trabalho estendido em várias etapas. Nível carro-chefe.
- GPT-5.5, 23 de abril de 2026. O primeiro modelo base totalmente retreinado da OpenAI desde o GPT-4.5. Foco: eficiência de agente e redução de custo por token. Nível carro-chefe.
- Gemini 3.5 Flash, 19 de maio de 2026. A variante rápida da família 3.5 do Google. Foco: execução de agente a baixo custo e alta velocidade. Nível intermediário. O Gemini 3.5 Pro (nível carro-chefe) será lançado em junho de 2026.
Cada lançamento é um avanço em relação a um predecessor que não conseguiu fechar a lacuna no trabalho de agente em escala de produção. Veja nossa peça anterior Cursor Composer 2.5 vs Opus 4.7 vs GPT-5.5 para o ângulo das ferramentas de codificação, e nossa postagem Gemini 3.1 Pro vs Opus 4.6 vs GPT-5.3 para como a geração anterior se saiu.
Comparativo de preços
É aqui que a disparidade de níveis é mais visível:
| Modelo | Entrada ($/1M) | Saída ($/1M) | Notas |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1,50 | ~$9,00 | Nível gratuito disponível |
| GPT-5.5 | ~$10 | ~$30 | Entrada em cache mais barata |
| Claude Opus 4.7 | ~$15 | ~$75 | Preço de tabela mais alto |
Por token, o Flash é 6 a 10 vezes mais barato na entrada e 3 a 8 vezes mais barato na saída. Para o cálculo completo dos preços, incluindo o modo de lote e o Vertex AI, consulte o detalhamento de preços do Gemini 3.5 Flash. Para detalhes do GPT-5.5, consulte os preços do GPT-5.5.
Para cargas de trabalho de agente onde o modelo executa centenas de turnos por tarefa, a diferença de custo se agrava. A afirmação do Google de "menos da metade do custo de outros modelos fronteira" é uma comparação entre carro-chefe e carro-chefe; o Flash, especificamente, se posiciona bem abaixo da metade.
A eficiência de tokens inclina a matemática para o outro lado. O GPT-5.5 produz visivelmente menos tokens de saída para a mesma tarefa, às vezes 72% menos que o Opus 4.7. Isso fecha parcialmente a lacuna por tarefa, mesmo que a taxa por token seja maior.
Benchmarks de codificação
A codificação é onde os três modelos se confrontam de forma mais visível.

SWE-Bench Verified (correções de bugs de uma única edição)
| Modelo | Pontuação |
|---|---|
| Opus 4.7 | 87.6% |
| GPT-5.5 | ~85% |
| Gemini 3.5 Flash | Não relatado separadamente |
O Opus 4.7 ainda lidera nos benchmarks de correção de bugs isolados. A diferença para o GPT-5.5 é de alguns pontos percentuais, o que significa que para a maioria das tarefas de codificação de um só disparo, ambos parecem competitivos. O Flash não publica um número comparável, mas testes informais sugerem que ele fica abaixo de ambos os carros-chefe no SWE-Bench Verified puro, o que é esperado para um modelo de nível rápido.
SWE-Bench Pro (correções complexas de múltiplos arquivos)
| Modelo | Pontuação |
|---|---|
| Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| Gemini 3.5 Flash | Não relatado separadamente |
Refatorações de vários arquivos são o ponto forte do Opus 4.7. Se o seu trabalho diário é um fluxo de trabalho com Cursor Composer ou Claude Code fazendo refatorações reais em um repositório, o Opus é o padrão mais seguro. O Flash o levará na maior parte do caminho para mudanças de rotina a uma fração do custo.
Terminal-Bench 2.0/2.1 (loops de agente CLI)
| Modelo | Pontuação | Benchmark |
|---|---|---|
| GPT-5.5 | 82.7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76.2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69.4% | Terminal-Bench 2.0 |
Dois painéis de pontuação diferentes, 2.0 e 2.1 usam misturas de tarefas diferentes. A conclusão: Flash e GPT-5.5 superam Opus em execuções longas de agente CLI. O GPT-5.5 ainda lidera aqui, mas o Flash fechou a maior parte da lacuna, enquanto custa muito menos.
MCP Atlas (coordenação multi-ferramenta)
Gemini 3.5 Flash: 83,6%. A métrica principal do Google para uso de ferramentas por agente. OpenAI e Anthropic não publicaram números comparáveis no mesmo benchmark, o que torna a comparação direta difícil. Anedoticamente, todos os três são confiáveis em cargas de trabalho de chamada de ferramenta em 2026.
Trabalho de agente e de longo horizonte
Para tarefas que duram de dezenas de minutos a horas sem supervisão:
- Gemini 3.5 Flash: vence em preço por tarefa e velocidade de saída. A pontuação MCP Atlas (83,6%) e Terminal-Bench 2.1 (76,2%) apontam para um comportamento consistente no uso de ferramentas. O despacho de subagentes é de primeira linha.
- GPT-5.5: vence no Terminal-Bench 2.0 (82,7%) e em eficiência de tokens. Menos tokens de saída por tarefa significam menor variação e menores custos excedentes.
- Opus 4.7: vence em seguimento de instruções em várias etapas e qualidade de código. Perde em velocidade e preço para execuções muito longas devido à saída prolixa e de estilo narrativo.
Se você estiver configurando agentes que rodam continuamente, como no padrão de comando /goal com Codex e Claude Code, a economia importa. O Flash vence em custo; o Opus vence em qualidade de saída por turno; o GPT-5.5 vence em disciplina de tokens.
Janela de contexto e recuperação de contexto longo
| Modelo | Entrada Máx. | Saída Máx. |
|---|---|---|
| Gemini 3.5 Flash | 1M tokens | 64K tokens |
| GPT-5.5 | 400K tokens | 128K tokens |
| Opus 4.7 | 1M tokens (beta) | 64K tokens |
O Flash lidera a tabela publicada do Google no benchmark de recuperação MRCR v2 de 1M de tokens. Isso faz do Flash a escolha mais clara quando a tarefa é "encontrar a resposta certa em um PDF de 200 páginas" sem estratégias de divisão, especialmente dado o seu nível de preço.
O Opus 4.7 se iguala em tamanho bruto da janela, mas fica atrás na consistência da recuperação no limite superior. Os 400K do GPT-5.5 são generosos, mas perdem para o Flash em escala bruta.
Para fluxos de trabalho que envolvem muitos documentos, relatórios longos, bases de código completas, análise de vários documentos, o Flash é o padrão prático.
Multimodal
Flash lidera em raciocínio com gráficos e documentos:
- Raciocínio CharXiv: 84,2% (Gemini 3.5 Flash)
- MMMU-Pro: 83,6% (Gemini 3.5 Flash)
OpenAI e Anthropic suportam entrada de imagem em seus modelos carro-chefe, mas nenhum deles se iguala à pontuação do Flash em raciocínio de gráficos no dia do lançamento. Para análises visuais, extração de PDF ou fluxos de trabalho que misturam texto e capturas de tela, o Flash é a escolha óbvia.
Se você estiver roteando a geração de imagens como parte do pipeline, consulte nossa opinião sobre Gemini 3 Pro Image vs Seedream para seleção de modelos nesse aspecto.
Velocidade de saída
Tokens por segundo importam quando os usuários esperam pela saída em streaming.
| Modelo | Velocidade de saída relativa |
|---|---|
| Gemini 3.5 Flash | ~4× linha de base |
| GPT-5.5 | linha de base |
| Opus 4.7 | ~0.7× linha de base |
Os números variam por região e carga. A direção é consistente: o Flash transmite visivelmente mais rápido que ambos os modelos carro-chefe. Para UIs de chat e assistentes de codificação ao vivo, o aumento na qualidade percebida devido ao streaming instantâneo é real.
Raciocínio, matemática e ciência
| Benchmark | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | Forte (conforme tabela do Google) | Alta | Alta |
| Raciocínio matemático | Forte | Forte | Forte |
| Escrita de formato longo | Boa | Boa | Melhor |
Esta linha está apertada no topo do placar, mas com uma ressalva: o Flash se mantém aqui apesar de ser um modelo de nível rápido. O Opus ainda tem a voz de escrita narrativa mais forte. Os outros dois alcançaram o raciocínio bruto.
Ecossistema de ferramentas e integrações
- Opus 4.7: Claude Code, MCP, Anthropic API, ecossistema de ferramentas maduro, Bitwarden Agent e amplo suporte a IDE
- GPT-5.5: OpenAI Codex, Responses API, integração com o aplicativo ChatGPT. A chamada de função tem o histórico mais longo
- Gemini 3.5 Flash: Antigravity, Gemini Enterprise Agent Platform, Gemini CLI, integração com Android Studio, crescendo rapidamente
A Anthropic possui o ecossistema de adaptadores de terceiros mais profundo. A OpenAI tem a maior adoção por desenvolvedores. O Google está alcançando rapidamente com Antigravity e Agent Platform, mas parte de uma base de terceiros menor.
Quando escolher qual modelo
Esqueça os benchmarks por um minuto e olhe para as cargas de trabalho.
Escolha o Gemini 3.5 Flash quando:
- Você tem um orçamento apertado por tarefa
- A velocidade de saída em uma interface de usuário de streaming é importante
- Você está processando documentos longos (1M de tokens)
- A tarefa envolve gráficos, PDFs, capturas de tela
- Você deseja um loop de agente confiável no nível de preço mais baixo
- Você já está no ecossistema Google Cloud ou Workspace
- A carga de trabalho é de alto volume e "bom o suficiente" supera "perfeito"
Escolha o GPT-5.5 quando:
- A eficiência de token é a prioridade (você paga por milhão)
- A tarefa é trabalho de agente guiado por CLI (líder no Terminal-Bench)
- Você deseja a mais ampla biblioteca de adaptadores de ferramentas de terceiros
- O ChatGPT já faz parte do fluxo da sua equipe
- Veja a configuração completa em Como usar a API do GPT-5.5
Escolha o Opus 4.7 quando:
- A tarefa é refatoração de código de múltiplos arquivos ou mudanças em todo o repositório (líder no SWE-Bench Pro)
- A qualidade do seguimento de instruções em várias etapas importa mais do que a velocidade
- A escrita de formato longo ou uma saída narrativa cuidadosa é o produto final
- Você já usa o Claude Code com o plano Claude
- O custo por tarefa não é a restrição principal
Escolha uma mistura quando:
A maioria das arquiteturas de produção acaba usando dois desses. Padrões comuns:
- Flash para recuperação e preparação, Opus para o commit final: trabalho intensivo em contexto e barato alimenta o modelo caro com as entradas certas
- GPT-5.5 para loops de agente CLI, Flash para análise de gráficos/documentos: cada um faz o que sabe fazer de melhor
- Flash para 80% do tráfego, Opus ou GPT-5.5 para os 20% difíceis: roteie pela complexidade da tarefa
- Todos os três atrás de um roteador barato que escolhe com base no tipo de tarefa
Comparação de níveis gratuitos
Todos os três têm um caminho gratuito:
- Gemini 3.5 Flash: Chave de API do AI Studio, ~1.500 solicitações/dia. Veja nosso guia gratuito do Flash
- GPT-5.5: consultas gratuitas limitadas no ChatGPT, além de gateways cobertos no guia gratuito do GPT-5.5
- Opus 4.7: limite diário do Claude.ai, além de caminhos gratuitos em nosso guia gratuito do Opus 4.7
Dos três, o caminho da API gratuita do Flash é o mais amigável para desenvolvedores. O AI Studio oferece uma chave funcional sem necessidade de cartão de crédito e cotas diárias úteis.
Como realmente testar estes contra sua própria carga de trabalho
Os benchmarks dizem o que o modelo pode fazer em média. Sua carga de trabalho é o que importa. Construa um pequeno sistema de avaliação:
- Escolha 20 tarefas representativas do seu caso de uso real
- Execute todos os três modelos para cada tarefa
- Pontue em três dimensões: sucesso da tarefa, custo total, latência
- Observe os modos de falha específicos da sua carga de trabalho, recusas, desvio de esquema, mudanças na forma da chamada da ferramenta
É aqui que o Apidog ajuda. Você salva os três endpoints de API (Gemini, OpenAI, Anthropic) como requisições parametrizadas, armazena as chaves como variáveis de ambiente e executa o mesmo prompt nos três com um clique. As respostas voltam para a estrutura de teste do Apidog, onde você pode compará-las lado a lado.
Configuração prática:
- Baixe o Apidog
- Crie um espaço de trabalho chamado "Avaliação de Modelo Fronteira"

- Salve três solicitações, uma para cada provedor (Flash, GPT-5.5, Opus 4.7)
- Crie um cenário de teste que execute o mesmo prompt nos três
- Adicione asserções de resposta (formato JSON, strings obrigatórias, limites de latência)
- Execute o cenário semanalmente para detectar desvios no modelo
Dois dias de configuração superam três meses de discussão sobre qual modelo "parece" melhor.
O que muda a seguir
Três coisas para observar nos próximos 90 dias:
- Gemini 3.5 Pro GA. Uma vez que o Pro for lançado em junho, a comparação muda. O Flash ainda manterá a vantagem de custo/velocidade, mas o Pro será a comparação "apples-to-apples" de carro-chefe para o Opus e o GPT-5.5.
- A resposta da OpenAI. O GPT-5.5 foi lançado em abril. Uma atualização de meio de ciclo ou uma nova variante é provável se o Gemini 3.5 Pro chegar com força.
- O próximo passo da Anthropic. O Opus 4.7 é o atual carro-chefe da Anthropic. Uma atualização do Sonnet ou o Opus 4.8 no próximo trimestre estaria dentro do ciclo.
- Este espaço muda mensalmente agora. A estratégia inteligente é manter seu sistema de avaliação funcionando, mudar quando os números se alterarem e nunca se prender às ferramentas de um único provedor.
- O Gemini 3.5 Flash é realmente competitivo com o Opus 4.7 e o GPT-5.5? Sim, em seu nível. O Flash se destaca acima de sua categoria em benchmarks de agente e domina em custo. Para as tarefas mais difíceis (refatorações complexas de múltiplos arquivos, escrita cuidadosa de formato longo), os modelos carro-chefe ainda lideram.
- Por que comparar um modelo de nível rápido com carros-chefe? Porque a diferença de custo é tão grande que muitas cargas de trabalho de produção deveriam estar rodando no Flash, mesmo quando um carro-chefe faria a tarefa marginalmente melhor. A pergunta honesta é "o Flash é bom o suficiente para esta carga de trabalho?", não "o Flash é o melhor em tudo?".
- O Opus 4.7 vale o preço mais alto? Para cargas de trabalho onde a qualidade do código ou da escrita por turno importa mais, sim. Para loops de agente de alto volume, onde você executa milhares de turnos, a matemática por tarefa favorece o Flash.
- Posso usar os três através de uma única API? Não diretamente. Cada provedor tem seu próprio endpoint. O modo compatível com OpenAI da OpenAI é suportado pelo Google (um "shim"), mas você ainda manterá três conjuntos de credenciais. O padrão mais limpo é abstrair a chamada do modelo por trás de sua própria camada fina.
- Quando o Gemini 3.5 Pro será lançado? Junho de 2026. Esse será o modelo carro-chefe para o Opus e o GPT-5.5. Até lá, o Flash é a única opção da família 3.5.
- Como monitorar o custo ao usar três provedores? Rastreie o gasto por modelo no histórico de solicitações do Apidog, ou consolide seus painéis de provedor. Defina alertas de orçamento por modelo para evitar surpresas durante os testes.
- Três modelos credíveis, três pontos fortes diferentes.
- Gemini 3.5 Flash para trabalho barato, rápido, multimodal, de contexto longo e uma quantidade notável da carga de trabalho de agente que antes exigia um carro-chefe
- GPT-5.5 para automação de agente eficiente em termos de tokens e com uso intensivo de CLI
- Opus 4.7 para refatorações de código de alta qualidade e escrita de formato longo
- Construa sua própria avaliação. Teste contra sua carga de trabalho real. Mude quando os números se moverem. Essa é a única resposta honesta em um mercado onde o líder muda mensalmente. E fique de olho em junho: o Gemini 3.5 Pro vai remodelar esse confronto.
