Novidades do ChatGPT Imagens 2.0: O Que Há de Novo?

A OpenAI lançou o ChatGPT Images 2.0 em 21 de abril de 2026, impulsionado por um novo modelo chamado gpt-image-2. Ele lê seu prompt, planeja o layout, renderiza textos multilingues nítidos e pode produzir até dez imagens de uma só vez; tudo com até 2.000 pixels de largura e em proporções que o antigo modelo de imagem nunca suportou.

Para desenvolvedores, a principal notícia não é a atualização da interface do usuário do ChatGPT. É que o gpt-image-2 é exposto via API da OpenAI com um modo de “pensamento” com consciência de raciocínio, precificação por token e o mesmo padrão de endpoint que você já usa em produção.

Este guia aborda o que mudou, quanto custa a API, como chamá-la de ponta a ponta e como testá-la com o Apidog sem escrever scripts descartáveis. Se você avaliou APIs de imagem anteriores e desistiu porque o texto saiu distorcido ou a resolução era limitada a 1024, comece por aqui.

botão

O que é gpt-image-2?

gpt-image-2 é o ID do modelo para o gerador de imagens de segunda geração da OpenAI, lançado junto com o produto ChatGPT Images 2.0 em 21 de abril de 2026. Ele substitui a família anterior gpt-image-1 no lado da API e impulsiona a criação de imagens dentro do ChatGPT em toda a web e dispositivos móveis.

Três coisas fazem valer a pena dar uma nova olhada se você testou a geração de imagens da OpenAI pela última vez em 2024 ou 2025:

Texto legível em vários scripts. Pequenos rótulos de UI, logotipos, legendas e scripts não latinos (japonês, coreano, chinês, hindi, bengali) agora são renderizados com clareza suficiente para serem usados sem uma passagem de redesenho manual.
Raciocínio antes dos pixels. Um modo thinking (pensamento) gasta computação extra planejando a composição, contando itens e verificando restrições antes da renderização. A OpenAI o descreve como o modelo "pensando" sobre o briefing; na prática, ele reduz o número de prompts de rerolagem que você gasta em contagens erradas de objetos ou diagramas rotulados incorretamente.
Maior resolução, tela mais ampla. Até 2.000 px na borda mais longa e proporções tão extremas quanto 3:1 ou 1:3, o que permite gerar banners, capas de slides e vídeos curtos verticais sem uma etapa de upscaling.

A própria descrição da OpenAI posiciona isso como um salto de "brinquedo criativo" para "ferramenta de fluxo de trabalho visual"; páginas de revistas, infográficos, modelos de slides, até mesmo painéis de mangá.

O que mudou em relação ao gpt-image-1

Se você desenvolveu usando o endpoint de imagem anterior da OpenAI, aqui está a diferença que importa no nível do código.

Capacidade	gpt-image-1	gpt-image-2
Resolução máxima	1024 px	2.000 px na borda mais longa
Proporções	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Imagens por requisição	1	Até 10, com consistência de estilo
Renderização de texto	Somente inglês, frequentemente ilegível	Multilingue, incluindo scripts CJK e índicos
Modo de raciocínio	Não	Sim (parâmetro `thinking`)
Pesquisa web durante a geração	Não	Sim, no modo de pensamento

O modo em lote é a mudança mais discreta, mas a mais útil. Um único prompt pode retornar dez variações que compartilham composição e paleta, que é como um designer itera e como uma equipe de produto gera imagens de destaque consistentes em um conjunto de páginas.

Disponibilidade e preços

O lançamento é escalonado.

Usuários do ChatGPT Free recebem o modelo padrão gpt-image-2.
Assinantes do ChatGPT Plus, Pro e Business recebem o modo de pensamento, execuções de raciocínio mais longas e pesquisa na web durante a geração.
Desenvolvedores de API obtêm ambos os modos através do ID do modelo gpt-image-2. A disponibilidade foi escalonada após o lançamento do ChatGPT.

A precificação, de acordo com a página de preços da API da OpenAI, é tokenizada: $5 por milhão de tokens de texto de entrada, $10 por milhão de tokens de texto de saída, $8 por milhão de tokens de imagem de entrada e $30 por milhão de tokens de imagem de saída. Em uma renderização padrão de alta qualidade de 1024 × 1024, isso custa cerca de $0,21 por imagem; aproximadamente 60% mais do que a geração anterior, que é o custo da tela maior e da etapa de raciocínio.

Vale ressaltar: o modo de pensamento é cobrado pelos tokens de raciocínio extras, então um diagrama com um briefing de layout rigoroso custa mais do que um prompt de ilustração mais livre. Orce para isso em vez de assumir uma taxa fixa por imagem.

Chamando a API

O endpoint segue o mesmo padrão images/generations do modelo anterior. Uma requisição mínima se parece com isto:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Para habilitar o caminho de raciocínio, passe o parâmetro thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

A resposta retorna dados de imagem em base64 ou URLs dependendo do seu response_format; o esquema permanece inalterado em relação ao gpt-image-1, então os wrappers de SDK existentes continuam funcionando após a troca do ID do modelo.

Uma versão em Python usando o SDK oficial:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

Duas notas práticas dos testes:

O modo de pensamento possui três níveis (low, medium, high) que trocam latência por precisão de layout. Para gráficos, tabelas e qualquer imagem que precise ter um número correto, medium é o padrão útil.
A saída em lote (n > 1) mantém a coerência de estilo dentro de uma chamada, mas perde a coerência em chamadas separadas. Se você precisa de um conjunto correspondente de dez, peça dez em uma única requisição.

Testando gpt-image-2 com Apidog

Iterar em um modelo de imagem a partir da linha de comando é doloroso; você não pode pré-visualizar resultados, trocar prompts ou versioná-los. Um cliente de API dedicado é a ferramenta certa, e se você já usa Postman ou uma ferramenta REST de terminal, considere uma alternativa construída para essa finalidade que lida com respostas de imagem nativamente.

Apidog trata o endpoint de imagem da OpenAI como uma requisição de primeira classe. Você importa a especificação OpenAPI da OpenAI, define OPENAI_API_KEY como uma variável de ambiente, cola seu prompt no corpo e clica em Enviar. As respostas de imagem são renderizadas inline, em base64 ou URL, e você pode bifurcar a requisição em variantes para comparar proporções, níveis de qualidade e modos de pensamento lado a lado.

Um fluxo de trabalho útil:

Crie uma requisição gpt-image-2 em uma coleção Apidog.
Salve dois ambientes: um com thinking: "off", outro com thinking: "medium".
Execute o mesmo prompt em ambos, compare as saídas e mantenha o vencedor em sua biblioteca de prompts.
Bifurque a coleção para cada tipo de ativo (banner, capa de slide, infográfico) para que cada um tenha seu próprio conjunto de parâmetros ajustados.

Você também pode encadear a chamada: gerar a imagem e, em seguida, postar a URL no seu endpoint de upload CDN dentro da mesma execução de teste do Apidog. Essa é a parte que os scripts curl não fazem bem.

Se você tem executado experimentos de geração de imagem em um cliente HTTP genérico, é aqui que uma verdadeira plataforma de API se mostra valiosa. Baixe o Apidog e aponte-o para sua chave da OpenAI; a configuração leva menos de cinco minutos.

Onde o gpt-image-2 ainda tem dificuldades

O anúncio é forte, mas limites honestos existem.

Rostos fotorrealistas em closes ainda apresentam imperfeições, especialmente para figuras públicas nomeadas. As salvaguardas de identidade da OpenAI rejeitam muitos desses prompts diretamente.
Ativos de marca precisos (geometria exata de logotipo, caracteres registrados) não são confiáveis; use-o para o clima, não para entregar marcas finais.
Blocos de texto muito longos (parágrafos inteiros dentro de uma imagem) ainda se desintegram após algumas centenas de caracteres. Ele é projetado para legendas, títulos e rótulos, não para renderizar um artigo como imagem.
A consistência entre sessões não é garantida. O recurso de lote mantém a coerência de estilo dentro de uma chamada; uma chamada separada no dia seguinte pode apresentar variações mesmo com o mesmo prompt semelhante a uma semente.

O Decoder e o PetaPixel ambos apontaram limites semelhantes em suas análises práticas. Veja a análise do The Decoder para uma descrição mais detalhada.

Como se compara ao restante do campo de geração de imagem de 2026

A OpenAI não está sozinha no espaço de raciocínio mais imagem. O Nano Banana 2 do Google foi lançado semanas antes, e vários modelos multimodais de peso aberto reduziram a diferença na renderização de texto.

Se você está avaliando alternativas do lado da API, algumas análises aprofundadas relacionadas valem o seu tempo:

Anúncio do Qwen 3.5 Omni abrange o avanço multimodal da Alibaba, incluindo entrada e geração de imagens.
O guia da API GLM 5V Turbo explica a API de visão-linguagem da Zhipu, que é mais barata, mas compromete a fidelidade do texto.
Como usar o Qwen 3.5 Omni é o guia prático que acompanha a postagem de anúncio.
A análise do Cursor Composer 2 enquadra como produtos de IA baseados em raciocínio reformulam a UX da ferramenta; o mesmo padrão que impulsiona o ChatGPT Images 2.0.
Para outro lançamento recente adjacente à OpenAI, veja nosso guia do Microsoft VibeVoice.

Escolha o gpt-image-2 quando a precisão do texto, o raciocínio sobre a composição e a integração com o restante da pilha da OpenAI importarem mais do que o custo. Escolha um modelo multimodal de peso aberto quando precisar de auto-hospedagem, menor custo por imagem ou uma licença permissiva para saída comercial.

Perguntas Frequentes

O gpt-image-2 está disponível na camada gratuita do ChatGPT?Sim. O modo padrão está disponível para todos os usuários do ChatGPT. O modo de pensamento, raciocínio estendido e pesquisa na web durante a geração são restritos aos planos Plus, Pro e Business. O acesso à API é separado e vinculado à sua conta de desenvolvedor da OpenAI; os mesmos níveis de limite de taxa que você já usa se aplicam.

O gpt-image-2 suporta edição de imagem e inpainting?O lançamento foca em texto para imagem com modos de lote e de pensamento. Endpoints no estilo de edição (imagem + máscara) devem seguir o mesmo padrão da geração anterior, mas sob o novo ID de modelo. Verifique a página do modelo gpt-image-2 antes de desenvolver soluções baseadas em inpainting.

Quais resoluções e proporções ele suporta?Até 2.000 pixels na borda mais longa, com proporções de 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 e 1:3. Isso cobre banners de destaque, vídeos curtos verticais, posts sociais quadrados e cortes largos no estilo LinkedIn sem uma etapa de upscaling.

Como testo requisições gpt-image-2 rapidamente?Use um cliente de API dedicado. Apidog renderiza respostas de imagem inline, armazena prompts como variáveis de coleção e permite comparar modos de pensamento lado a lado. Equipes que vêm de fluxos de trabalho de linha de comando frequentemente o combinam com nosso guia de teste de API sem Postman.

Quanto custa uma imagem pela API?Aproximadamente $0,21 para 1024 × 1024 de alta qualidade no modo padrão. O modo de pensamento adiciona tokens de raciocínio, então planeje um custo variável por imagem para prompts com layouts complexos. Consulte a página de preços da OpenAI para as taxas de token exatas.

O modelo pode pesquisar na web durante a geração?Sim, no modo de pensamento. O modelo pode buscar imagens de referência e fatos durante a geração, o que ajuda na precisão de diagramas (gráficos com números reais, mapas com rótulos corretos). O modo padrão não realiza buscas.