A família Gemini do Google é a linha de modelos de fronteira mais econômica para cargas de trabalho de alto volume, com o Gemini 2.5 Pro custando $1.25 / $10 por milhão de tokens e as variantes Flash custando muito mais barato. Para um aplicativo público gratuito, um projeto paralelo ou uma construção de hackathon, mesmo essas taxas se somam rapidamente assim que alguns milhares de usuários acessam seu endpoint. Puter.js inverte o modelo: ele expõe toda a linha Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash, a prévia do 3 Flash, além da família aberta Gemma 2/3/4) sem uma chave de API do Google e cobra o usuário final em vez de você. Para o desenvolvedor, a superfície é gratuita e ilimitada.
RESUMO
- Puter.js oferece aos desenvolvedores acesso gratuito e ilimitado a todo o catálogo Gemini e Gemma sem chave de API do Google, sem projeto Google Cloud, sem servidor.
- Gemini suportados: 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, além de prévias mais antigas.
- Gemma suportados: Gemma 2, 3, 4 em vários tamanhos (4B, 12B, 27B, 31B, 26B-A4B).
- Uma tag
<script>, uma chamada de função, e você já está conversando com o Gemini. - Streaming, entrada de visão, controle de temperatura, tudo funciona no navegador.
- O usuário final cobre seu uso a partir de uma conta Puter; você paga zero, para sempre.
- Use Apidog para comparar o Puter com a API oficial do Gemini para planejamento de migração.
Como funciona o "gratuito ilimitado"
Puter.js inverte o modelo de faturamento de LLMs. Em vez de você manter a chave do Google AI Studio e arcar com o custo de cada token, seu usuário final faz login no Puter (conta gratuita) e a chamada é cobrada do saldo dele. Novas contas Puter recebem crédito inicial; os usuários recarregam se quiserem mais.
Para o desenvolvedor, as consequências são claras:
- Sem projeto Google Cloud, sem chave AI Studio. Sem negociação de cotas, sem rotação de chaves, sem relacionamento de faturamento.
- Sem limite de uso da sua parte. Seu "limite" escala linearmente com sua base de usuários.
- Sem dependência de faturamento do Google. O Puter gerencia a chamada upstream.
A contrapartida: este é um serviço primariamente para navegador. Um trabalho cron de backend não pode usar o Puter sem uma sessão de usuário logada.
Passo 1: Instalação
Uma tag CDN, sem etapa de build:
<script src="https://js.puter.com/v2/"></script>
Essa é a instalação completa. Ou para um aplicativo empacotado:
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Passo 2: Escolha um modelo
A linha Gemini no Puter, com a ferramenta certa para cada formato:
| ID do Modelo | Quando usar |
|---|---|
google/gemini-2.5-pro |
Raciocínio mais profundo; análise complexa e tarefas de longo contexto |
google/gemini-2.5-flash |
Padrão para uso diário; forte equilíbrio entre custo e qualidade |
google/gemini-2.5-flash-lite |
Variante Flash mais barata; classificação de alto volume |
google/gemini-2.0-flash |
Base estável; comportamento bem compreendido |
google/gemini-3-flash-preview |
Prévia mais recente; velocidade de ponta |
google/gemma-3-27b-it |
Gemma aberto; ajustado para instruções, bom para bases de fine-tuning |
google/gemma-4-31b-it |
Maior Gemma aberto; mais próximo da qualidade dos Gemini fechados |
Para a maioria dos aplicativos, use como padrão o gemini-2.5-flash e só recorra ao Pro para prompts difíceis. As variantes Lite são uma ordem de magnitude mais rápidas e boas o suficiente para marcação, classificação e Q&A simples.
Passo 3: Faça o Gemini falar
A chamada mínima viável:
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Explique aprendizado de máquina em três frases",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
</script>
</body>
</html>
Abra em um navegador. O Puter gerencia a chamada, o usuário faz login (ou cria uma conta Puter gratuita na primeira execução), e a resposta é impressa na página. Sem chave de API, sem variável de ambiente, sem servidor.
Passo 4: Transmita a resposta
Para interfaces de chat e respostas longas, o streaming é o padrão ideal:
const response = await puter.ai.chat(
"Explique a fotossíntese em detalhes",
{
model: 'google/gemini-2.5-flash',
stream: true,
}
);
for await (const part of response) {
if (part?.text) {
outputDiv.innerHTML += part.text;
}
}
Cada part.text é um pedaço da resposta. Anexe à sua interface; o usuário vê o texto aparecer palavra por palavra.
Passo 5: Visão (entrada de imagem)
A característica mais forte do Gemini é o seu fundamento multimodal. Passe uma URL de imagem como segundo argumento:
puter.ai.chat(
"O que você vê nesta imagem? Descreva cores, objetos e humor.",
"https://assets.puter.site/doge.jpeg",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
Casos de uso: geração de texto alternativo, QA visual, análise de captura de tela, OCR, ferramentas de acessibilidade, marcação de imagem de produto. A qualidade da visão do Gemini é consistentemente forte em imagens naturais e diagramas; em capturas de tela de texto denso, o GPT-5.x às vezes o supera.
Passo 6: Ajuste a temperatura
Passe parâmetros padrão no objeto de opções:
const response = await puter.ai.chat(
'Escreva um conto criativo sobre um chef robô',
{
model: 'google/gemini-2.5-flash',
temperature: 0.2,
}
);
Temperatura mais baixa (0.0–0.3) para saída factual ou estruturada, mais alta (0.7–1.0) para escrita criativa. Os padrões do Gemini Flash funcionam bem com temperatura de 0.7 para a maioria dos casos de uso de chat.
Passo 7: Conversas com múltiplas interações
Passe um array de mensagens:
const messages = [
{ role: 'user', content: 'Estou construindo um aplicativo Next.js com Postgres.' },
{ role: 'assistant', content: 'Entendi. Com o que você precisa de ajuda?' },
{ role: 'user', content: 'Como devo estruturar as migrações?' },
];
const response = await puter.ai.chat(messages, {
model: 'google/gemini-2.5-pro',
});
console.log(response);
Adicione cada mensagem do usuário e cada resposta do assistente ao array antes da próxima chamada. O Gemini lê a transcrição completa e mantém a consistência entre as interações.
Comparando Gemini com outros modelos no mesmo prompt
Puter expõe todos os principais LLMs através de uma única interface. A maneira mais rápida de encontrar o modelo certo para o seu caso de uso é roteirizar o mesmo prompt em vários provedores:
const models = [
'google/gemini-2.5-flash',
'claude-sonnet-4-6',
'gpt-5.5',
'x-ai/grok-4.3',
];
const prompt = "Refatore este componente React para usar hooks: ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response);
console.log('---');
}
Execute uma vez e você verá o padrão de trade-off. O Gemini Flash geralmente é o vencedor em latência, o Sonnet é o vencedor em qualidade para codificação, o GPT-5.5 é o vencedor em qualidade para escrita longa, o Grok 4.3 vence em custo. Escolha o modelo que se encaixa no seu formato.
O que você obtém e o que você não obtém
A divisão honesta:
Você obtém:
- Catálogo completo Gemini 2.5/2.0/3 Flash mais 2.5 Pro
- Família Gemma aberta (2/3/4) para fluxos de trabalho de código aberto
- Conversas com múltiplas interações
- Respostas em streaming
- Entrada de visão (URL da imagem)
- Temperatura, max_tokens, prompts de sistema
- Escala pronta para produção
Você pode não obter (dependendo da versão do Puter):
- Chamada de função nativa no Gemini (verifique a documentação mais recente do Puter)
- Ferramenta de execução de código
- Fundamentação com o Google Search
- Contexto longo até o teto total de 2M tokens do Gemini
- Uso no lado do servidor sem um contexto de navegador
- Visibilidade direta do limite de taxa do Google
Para fluxos agenticos profundos que precisam de execução de código e fundamentação, a API oficial do Google AI Studio oferece mais. Para chat típico, Q&A, geração de conteúdo e tarefas visuais, o Puter é suficiente.
Quando usar Puter vs a API oficial do Gemini
A divisão:
Use Puter quando:
- Você está lançando um aplicativo público gratuito e não quer exposição a faturamento.
- Você está prototipando e não quer configurar um projeto Google Cloud.
- Você quer Gemini em um site estático, projeto de hackathon ou extensão de navegador sem um backend.
- Seus usuários estão dispostos a fazer login no Puter.
Use a API oficial do Gemini quando:
- Você precisa de chamadas do lado do servidor (cron, lote, webhooks).
- Você precisa de execução de código, fundamentação com Search ou Gemini Pro de contexto longo no teto total de 2M.
- Você precisa de um relacionamento contratual com o Google para conformidade.
- Você precisa de fine-tuning em seu próprio conjunto de dados.
- Seus usuários não tolerarão uma etapa de login do Puter.
Para o tutorial autônomo do Gemini 3 Flash, consulte Como usar a API de prévia do Gemini 3 Flash.
Testando a integração no Apidog
As chamadas do Puter acontecem no navegador, então você não pode roteirizá-las a partir de um testador de backend. O padrão que funciona:
- Construa uma pequena página estática com o script Puter e um parâmetro de consulta para o prompt.
- Use Apidog para validar a superfície da API upstream do Google Gemini (quando você eventualmente migrar).
- Mantenha ambos como ambientes separados na mesma coleção Apidog para que você possa alternar com um clique.
Baixe o Apidog e configure dois ambientes: puter-prototype (uma URL localhost hospedando sua página Puter) e gemini-prod (https://generativelanguage.googleapis.com/v1). A coleção se transfere facilmente quando você avança. Para padrões mais amplos de teste de API, consulte Ferramenta de teste de API para engenheiros de QA.
Outros caminhos gratuitos para LLMs via Puter
O mesmo modelo de "usuário paga" funciona para todos os principais LLMs:
- Obtenha API Claude gratuita ilimitada (Anthropic Opus, Sonnet, Haiku)
- Obtenha API GPT-5.5 gratuita ilimitada (catálogo completo da OpenAI)
- Como usar o Grok 4.3 gratuitamente (xAI)
- Obtenha API DeepSeek gratuita ilimitada
O script único do Puter gerencia todos eles. Altere a string model e você muda de provedor.
FAQ
É realmente ilimitado, ou há um limite oculto?Ilimitado do lado do desenvolvedor, sim. O usuário final tem o saldo que estiver em sua conta Puter; novas contas recebem crédito inicial e os usuários recarregam se quiserem mais.
Preciso de uma conta Google ou projeto Google Cloud?Não. O Puter lida com o relacionamento com o Google. Você nunca verá uma chave de API do Google.
Posso usar isso em produção?Sim, para aplicativos baseados em navegador. O Puter executa infraestrutura de produção. A pergunta certa é se seus usuários toleram uma etapa de login do Puter.
O Gemini via Puter se comporta de forma idêntica à API oficial?A saída do modelo é a mesma; o Puter chama a API do Google em nome do usuário. A latência pode ser marginalmente maior devido ao salto extra, mas o comportamento do modelo permanece inalterado.
E quanto à enorme janela de contexto de 2M tokens do Gemini?O Puter não expõe o teto total de 2M em todas as variantes de modelo hoje. Para contextos extremamente longos, a API oficial do Google AI Studio é o caminho certo. A maioria dos casos de uso fica bem abaixo de 200K tokens, onde o Puter é suficiente.
Posso usar o Gemini via Puter em um bot do Discord ou serviço de backend?Não de forma limpa. O Puter é focado no navegador e assume uma sessão de usuário. Serviços de backend devem usar a API oficial do Gemini diretamente.
Qual modelo devo usar como padrão?google/gemini-2.5-flash. É o equilíbrio certo de custo, velocidade e qualidade para a maioria dos prompts. Mude para google/gemini-2.5-pro para tarefas de raciocínio complexas e google/gemini-2.5-flash-lite para classificação de alto volume.
A geração de imagens é suportada (Imagen)?O Puter expõe a geração de imagens através das variantes gpt-image-2 e DALL-E da OpenAI hoje, não o Imagen. Veja Obtenha API GPT-5.5 gratuita ilimitada para o caminho de geração de imagens.
Conclusão
Gemini gratuito e ilimitado via Puter.js é o caminho mais limpo para qualquer aplicativo baseado em navegador que deseja saída multimodal de qualidade Google sem a configuração do Google Cloud. Basta inserir o script, escolher gemini-2.5-flash, e escrever o prompt. O usuário final cobre o uso; você entrega sem uma chave.
Para Gemini no lado do servidor, fine-tuning, ferramentas de execução de código ou contexto completo de 2M tokens, a API oficial do Google AI Studio ainda é a resposta certa. Para protótipos, construções de hackathon, aplicativos públicos gratuitos e sites estáticos, Puter é a resposta.
Construa a solicitação uma vez no Apidog, compare o Puter com a API oficial e escolha o caminho que se adapta às suas necessidades.
