Novos Modelos de IA do Gemini 2.5 Vão Mudar Tudo? Conheça o Pro, Flash e Flash-Lite

Ashley Innocent

Ashley Innocent

18 junho 2025

Novos Modelos de IA do Gemini 2.5 Vão Mudar Tudo? Conheça o Pro, Flash e Flash-Lite

A família de modelos de IA Gemini 2.5 do Google marca um marco significativo em IA generativa, fazendo a transição da versão prévia para a disponibilidade geral a partir de 17 de junho de 2025. Este lançamento inclui o Gemini 2.5 Pro, Gemini 2.5 Flash e o recém-introduzido Gemini 2.5 Flash-Lite, cada um projetado para atender a distintas necessidades de desenvolvedores com raciocínio aprimorado, eficiência e custo-benefício. Esses modelos, agora estáveis para uso em produção, oferecem capacidades avançadas para tarefas que vão desde codificação complexa até processamento de texto de alto volume.

💡
Para explorar as APIs desses modelos e integrá-los em seus projetos, baixe o Apidog gratuitamente—uma poderosa ferramenta de teste de API que simplifica a interação com os endpoints do Gemini, garantindo fluxos de trabalho de desenvolvimento contínuos. 
botão

Gemini 2.5 Pro: O Ápice da Inteligência

Visão Geral e Capacidades

O Gemini 2.5 Pro se destaca como o modelo principal da família Gemini 2.5, projetado para tarefas que exigem raciocínio profundo e processamento multimodal. Ele se destaca no tratamento de grandes conjuntos de dados, bases de código e documentos complexos, ostentando uma janela de contexto de 1 milhão de tokens, com planos de expansão para 2 milhões em breve. Este modelo lidera benchmarks como LMArena (pontuação Elo de 1470) e WebDevArena (pontuação Elo de 1443), demonstrando sua destreza em tarefas de codificação, matemática, ciência e raciocínio.

Além disso, o Gemini 2.5 Pro introduz orçamentos de pensamento configuráveis, permitindo que os desenvolvedores controlem o número de tokens usados para raciocínio (0 a 24.576 tokens). Esse recurso otimiza o equilíbrio entre qualidade de resposta, custo e latência, tornando-o ideal para aplicações em escala empresarial. Por exemplo, os desenvolvedores podem definir um orçamento de pensamento alto para tarefas complexas como codificação agêntica ou reduzi-lo para consultas mais simples para minimizar custos.

Métricas de Desempenho

O desempenho do modelo em benchmarks desafiadores ressalta sua superioridade técnica:

Adicionalmente, o Gemini 2.5 Pro aborda regressões anteriores notadas na prévia 03-25, melhorando a criatividade e formatação das respostas. Sua integração com ferramentas como Google Search e execução de código aprimora ainda mais sua utilidade para aplicações do mundo real.

Casos de Uso

Desenvolvedores utilizam o Gemini 2.5 Pro para:

Gemini 2.5 Flash: Velocidade Encontra Raciocínio

Visão Geral e Recursos

O Gemini 2.5 Flash visa desenvolvedores que buscam um equilíbrio entre velocidade, custo e inteligência. Como um modelo de raciocínio híbrido, ele mantém a baixa latência de seu predecessor, Gemini 2.0 Flash, enquanto introduz capacidades de pensamento avançadas. Disponível desde 17 de abril de 2025, em prévia, ele atingiu a disponibilidade geral sem alterações da build 05-20, garantindo estabilidade para ambientes de produção.

Assim como o Gemini 2.5 Pro, ele suporta orçamentos de pensamento, permitindo que os desenvolvedores ajustem a profundidade do raciocínio. Quando definido como zero, o Gemini 2.5 Flash iguala o custo e a latência do Gemini 2.0 Flash, mas com desempenho aprimorado. Sua janela de contexto de 1 milhão de tokens e entrada multimodal (texto, imagens, áudio) o tornam versátil para diversas aplicações.

Métricas de Desempenho

O Gemini 2.5 Flash brilha em benchmarks que exigem raciocínio multi-etapa:

Sua eficiência é evidente em avaliações do mundo real, usando 20-30% menos tokens do que modelos anteriores, o que se traduz em economia de custos para tarefas de alto throughput.

Casos de Uso

O Gemini 2.5 Flash se destaca em:

Gemini 2.5 Flash-Lite: Eficiência Redefinida

Visão Geral e Inovações

Introduzido em 17 de junho de 2025, o Gemini 2.5 Flash-Lite é o modelo mais econômico e rápido da família Gemini 2.5, atualmente em prévia. Projetado como uma atualização do Gemini 2.0 Flash-Lite, ele visa tarefas de alto volume e sensíveis à latência, mantendo as capacidades de raciocínio distintivas da família. Apesar de seu tamanho menor, ele supera seu predecessor em benchmarks de codificação, matemática, ciência, raciocínio e multimodal.



O Gemini 2.5 Flash-Lite suporta a mesma janela de contexto de 1 milhão de tokens e entradas multimodais que seus irmãos, juntamente com orçamentos de pensamento para controle de custos. Sua menor latência e custo o tornam uma opção atraente para desenvolvedores que priorizam a eficiência sem sacrificar a qualidade.

Métricas de Desempenho

Métricas chave destacam a eficiência do Gemini 2.5 Flash-Lite:

Seu desempenho em tarefas de alto volume como tradução e classificação demonstra sua capacidade de lidar com cargas de trabalho intensivas com consumo mínimo de recursos.

Casos de Uso

O Gemini 2.5 Flash-Lite é adaptado para:

Avanços Técnicos na Família Gemini 2.5

Modelos de Pensamento e Orçamentos Configuráveis

Todos os modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar sobre prompts antes de gerar respostas. Este processo envolve analisar a consulta, dividir tarefas complexas e planejar a saída, resultando em maior precisão e relevância.

A introdução de orçamentos de pensamento oferece aos desenvolvedores controle granular sobre este processo, permitindo que eles:

Essa flexibilidade garante que os desenvolvedores possam adaptar os modelos aos seus casos de uso específicos, equilibrando efetivamente qualidade, custo e latência.

Capacidades Multimodais

A família Gemini 2.5 suporta entradas multimodais nativas, incluindo texto, imagens, áudio e vídeo, possibilitando diversas aplicações. Por exemplo, o Gemini 2.5 Pro pode gerar uma UI de reprodutor de vídeo que combine com o estilo de um aplicativo, enquanto o Gemini 2.5 Flash processa entradas de áudio para transcrição em tempo real. Essas capacidades são aprimoradas por uma janela de contexto de 1 milhão de tokens, permitindo que os modelos lidem com extensos conjuntos de dados ou repositórios de código inteiros.



Melhorias de Segurança

O Google reforçou a segurança na família Gemini 2.5, particularmente contra ataques de injeção de prompt indireta durante o uso de ferramentas. Essa melhoria torna os modelos os mais seguros no portfólio do Google, algo crítico para a adoção empresarial. Empresas como Automation Anywhere e UiPath estão explorando essas salvaguardas para proteger seus fluxos de trabalho impulsionados por IA.

Integração com Ferramentas de Desenvolvedor

Os modelos Gemini 2.5 se integram perfeitamente com o Google AI Studio e o Vertex AI, oferecendo APIs para fácil adoção. Desenvolvedores podem acessar resumos de pensamento para transparência, configurar orçamentos de pensamento via sliders ou parâmetros de API, e aproveitar ferramentas como Google Search ou execução de código. A disponibilidade do Gemini 2.5 Flash-Lite em prévia nessas plataformas incentiva a experimentação antes da implantação completa em produção.

Implementação Prática: Primeiros Passos

Integração de API

Para usar os modelos Gemini 2.5, desenvolvedores podem acessar a API Gemini via Google AI Studio ou Vertex AI. Abaixo está um trecho de código Python de exemplo para interagir com o Gemini 2.5 Flash:

from google import genai

client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Calculate the probability of rolling a 7 with two dice.",
    config=genai.types.GenerateContentConfig(
        thinking_config=genai.types.ThinkingConfig(thinking_budget=1024)
    )
)
print(response.text)

Este código define um orçamento de pensamento de 1024 tokens, garantindo que o modelo raciocine sobre o cálculo de probabilidade para resultados precisos.

Considerações de Implantação

Ao implantar modelos Gemini 2.5:



Transição de Modelos de Prévia

Desenvolvedores usando versões de prévia (por exemplo, Gemini 2.5 Flash Preview 04-17 ou Gemini 2.5 Pro Preview 05-06) devem fazer a transição para modelos estáveis:

Conclusão

A família Gemini 2.5—composta por Gemini 2.5 Pro, Gemini 2.5 Flash e Gemini 2.5 Flash-Lite— redefine a IA generativa com seu foco em raciocínio, eficiência e controle do desenvolvedor. Agora fora da prévia, esses modelos oferecem soluções estáveis e prontas para produção para diversas aplicações, desde codificação e desenvolvimento web até processamento de texto de alto volume. Ao integrar orçamentos de pensamento, capacidades multimodais e segurança robusta, o Google posiciona a família Gemini 2.5 como líder no cenário de IA.

Comece a construir com esses modelos hoje usando o Google AI Studio ou o Vertex AI, e otimize suas interações de API com o download gratuito do Apidog. Experimente orçamentos de pensamento, explore entradas multimodais e junte-se à comunidade de desenvolvedores que está moldando o futuro da IA.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs