La famille Gemini de Google est la ligne de modèles de pointe la plus rentable pour les charges de travail à volume élevé, avec Gemini 2.5 Pro coûtant 1,25 $ / 10 $ par million de jetons et les variantes Flash étant beaucoup moins chères. Pour une application publique gratuite, un projet annexe ou une construction de hackathon, même ces tarifs s'accumulent rapidement une fois que quelques milliers d'utilisateurs atteignent votre point de terminaison. Puter.js inverse le modèle : il expose toute la gamme Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash, la préversion 3 Flash, plus la famille open Gemma 2/3/4) sans clé API Google et facture l'utilisateur final au lieu de vous. Pour le développeur, la surface est gratuite et illimitée.
En bref
- Puter.js offre aux développeurs un accès gratuit et illimité au catalogue complet Gemini et Gemma, sans clé API Google, sans projet Google Cloud, sans serveur.
- Gemini pris en charge : 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, plus les préversions datées.
- Gemma pris en charge : Gemma 2, 3, 4 en plusieurs tailles (4B, 12B, 27B, 31B, 26B-A4B).
- Une balise
<script>, un appel de fonction, et vous communiquez avec Gemini. - Le streaming, l'entrée visuelle, le contrôle de la température fonctionnent tous dans le navigateur.
- L'utilisateur final couvre son utilisation depuis un compte Puter ; vous ne payez rien, pour toujours.
- Utilisez Apidog pour comparer Puter à l'API officielle Gemini pour la planification de la migration.
Comment fonctionne le « gratuit illimité »
Puter.js inverse le modèle de facturation des LLM. Au lieu que vous déteniez la clé Google AI Studio et que vous supportiez chaque coût de jeton, votre utilisateur final se connecte à Puter (compte gratuit) et l'appel est facturé sur son solde. Les nouveaux comptes Puter reçoivent un crédit de démarrage ; les utilisateurs rechargent s'ils en veulent plus.
Pour le développeur, les conséquences sont claires :
- Pas de projet Google Cloud, pas de clé AI Studio. Pas de négociation de quota, pas de rotation de clé, pas de relation de facturation.
- Pas de plafond d'utilisation de votre côté. Votre « limite » évolue linéairement avec votre base d'utilisateurs.
- Pas de verrouillage fournisseur sur la facturation Google. Puter gère l'appel en amont.
Le compromis : ceci est d'abord pour le navigateur. Une tâche cron backend ne peut pas utiliser Puter sans une session utilisateur connectée.
Étape 1 : Installer
Une balise CDN, pas d'étape de construction :
<script src="https://js.puter.com/v2/"></script>
C'est toute l'installation. Ou pour une application packagée :
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Étape 2 : Choisir un modèle
La gamme Gemini sur Puter, avec le bon outil pour chaque cas :
| ID du modèle | Quand l'utiliser |
|---|---|
google/gemini-2.5-pro |
Raisonnement le plus profond ; analyse complexe et tâches à long contexte |
google/gemini-2.5-flash |
Pilote quotidien par défaut ; bon équilibre coût/qualité |
google/gemini-2.5-flash-lite |
Variante Flash la moins chère ; classification à volume élevé |
google/gemini-2.0-flash |
Base stable ; comportement bien compris |
google/gemini-3-flash-preview |
Dernière préversion ; vitesse de pointe |
google/gemma-3-27b-it |
Gemma ouvert ; ajusté aux instructions, bon pour les bases de fine-tuning |
google/gemma-4-31b-it |
Le plus grand Gemma ouvert ; plus proche de la qualité Gemini fermée |
Pour la plupart des applications, utilisez par défaut gemini-2.5-flash et n'utilisez Pro que pour les invites difficiles. Les variantes Lite sont un ordre de grandeur plus rapides et suffisamment bonnes pour le balisage, la classification et les questions-réponses simples.
Étape 3 : Faire parler Gemini
L'appel minimal viable :
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Expliquez le machine learning en trois phrases",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
</script>
</body>
</html>
Ouvrez dans un navigateur. Puter gère l'appel, l'utilisateur se connecte (ou crée un compte Puter gratuit lors de la première exécution), et la réponse s'affiche sur la page. Pas de clé API, pas de variable d'environnement, pas de serveur.
Étape 4 : Diffuser la réponse en streaming
Pour les interfaces de chat et les réponses longues, le streaming est le bon défaut :
const response = await puter.ai.chat(
"Expliquez la photosynthèse en détail",
{
model: 'google/gemini-2.5-flash',
stream: true,
}
);
for await (const part of response) {
if (part?.text) {
outputDiv.innerHTML += part.text;
}
}
Chaque part.text est un fragment de la réponse. Ajoutez-le à votre interface ; l'utilisateur voit le texte apparaître mot par mot.
Étape 5 : Vision (entrée d'image)
La fonctionnalité la plus puissante de Gemini est l'ancrage multimodal. Passez une URL d'image comme deuxième argument :
puter.ai.chat(
"Que voyez-vous dans cette image ? Décrivez les couleurs, les objets et l'ambiance.",
"https://assets.puter.site/doge.jpeg",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
Cas d'utilisation : génération de texte alternatif, QA visuelle, analyse de captures d'écran, OCR, outils d'accessibilité, balisage d'images de produits. La qualité de vision de Gemini est constamment forte sur les images naturelles et les diagrammes ; sur les captures d'écran de texte dense, GPT-5.x le surpasse parfois.
Étape 6 : Ajuster la température
Passez les paramètres standards dans l'objet d'options :
const response = await puter.ai.chat(
'Écrivez une courte histoire créative sur un robot chef cuisinier',
{
model: 'google/gemini-2.5-flash',
temperature: 0.2,
}
);
Température plus basse (0,0–0,3) pour une sortie factuelle ou structurée, plus élevée (0,7–1,0) pour l'écriture créative. Les paramètres par défaut de Gemini Flash fonctionnent bien à une température de 0,7 pour la plupart des cas d'utilisation de chat.
Étape 7 : Conversations à plusieurs tours
Passez un tableau de messages :
const messages = [
{ role: 'user', content: 'Je construis une application Next.js avec Postgres.' },
{ role: 'assistant', content: 'Compris. De quoi avez-vous besoin d\'aide ?' },
{ role: 'user', content: 'Comment devrais-je structurer les migrations ?' },
];
const response = await puter.ai.chat(messages, {
model: 'google/gemini-2.5-pro',
});
console.log(response);
Ajoutez chaque message utilisateur et chaque réponse de l'assistant au tableau avant l'appel suivant. Gemini lit l'intégralité de la transcription et reste cohérent d'un tour à l'autre.
Comparaison de Gemini avec d'autres modèles sur la même invite
Puter expose tous les principaux LLM via une seule interface. Le moyen le plus rapide de trouver le bon modèle pour votre cas d'utilisation est de scripter la même invite sur plusieurs fournisseurs :
const models = [
'google/gemini-2.5-flash',
'claude-sonnet-4-6',
'gpt-5.5',
'x-ai/grok-4.3',
];
const prompt = "Refactorisez ce composant React pour utiliser des hooks : ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response);
console.log('---');
}
Exécutez-le une fois et vous verrez le modèle de compromis. Gemini Flash est généralement le vainqueur en termes de latence, Sonnet est le vainqueur en termes de qualité sur le codage, GPT-5.5 est le vainqueur en termes de qualité sur l'écriture longue, Grok 4.3 l'emporte sur le coût. Choisissez le modèle qui correspond à votre forme.
Ce que vous obtenez et ce que vous n'obtenez pas
La répartition honnête :
Vous obtenez :
- Catalogue complet Gemini 2.5/2.0/3 Flash plus 2.5 Pro
- Famille Open Gemma (2/3/4) pour les flux de travail open-weight
- Conversations à plusieurs tours
- Réponses en streaming
- Entrée visuelle (URL d'image)
- Température, max_tokens, invites système
- Échelle prête pour la production
Vous pourriez ne pas obtenir (selon la version de Puter) :
- Appel de fonction natif sur Gemini (vérifier la documentation Puter la plus récente)
- Outil d'exécution de code
- Ancrage Google Search
- Contexte long jusqu'au plafond complet de 2M de jetons de Gemini
- Utilisation côté serveur sans contexte de navigateur
- Visibilité directe des limites de débit de Google
Pour les flux agentiques profonds qui nécessitent l'exécution de code et l'ancrage, l'API officielle Google AI Studio vous offre plus. Pour le chat typique, les questions-réponses, la génération de contenu et les tâches visuelles, Puter est suffisant.
Quand utiliser Puter vs l'API officielle Gemini
La répartition :
Utilisez Puter quand :
- Vous lancez une application publique gratuite et ne souhaitez pas d'exposition à la facturation.
- Vous prototypez et ne voulez pas configurer un projet Google Cloud.
- Vous voulez Gemini dans un site statique, un projet de hackathon ou une extension de navigateur sans backend.
- Vos utilisateurs sont ravis de se connecter à Puter.
Utilisez l'API officielle Gemini quand :
- Vous avez besoin d'appels côté serveur (cron, batch, webhooks).
- Vous avez besoin d'exécution de code, d'ancrage Search ou du Gemini Pro à long contexte avec le plafond complet de 2M.
- Vous avez besoin d'une relation contractuelle avec Google pour la conformité.
- Vous avez besoin d'un fine-tuning sur votre propre ensemble de données.
- Vos utilisateurs ne toléreront pas une étape de connexion à Puter.
Pour la présentation autonome de Gemini 3 Flash, consultez Comment utiliser l'API de préversion Gemini 3 Flash.
Tester l'intégration dans Apidog
Les appels Puter se produisent dans le navigateur, vous ne pouvez donc pas les scripter à partir d'un exécuteur de tests backend. Le modèle qui fonctionne :
- Construisez une petite page statique avec le script Puter et un paramètre de requête pour l'invite.
- Utilisez Apidog pour valider la surface de l'API Google Gemini en amont (lorsque vous migrerez éventuellement).
- Gardez les deux comme environnements séparés dans la même collection Apidog afin de pouvoir basculer en un clic.
Téléchargez Apidog et configurez deux environnements : puter-prototype (une URL localhost hébergeant votre page Puter) et gemini-prod (https://generativelanguage.googleapis.com/v1). La collection se porte proprement lorsque vous passez à la production. Pour des modèles de test API plus larges, consultez Outil de test API pour les ingénieurs QA.
Autres chemins LLM gratuits via Puter
Le même modèle "l'utilisateur paie" fonctionne pour tous les principaux LLM :
- Obtenez l'API Claude illimitée gratuite (Anthropic Opus, Sonnet, Haiku)
- Obtenez l'API GPT-5.5 illimitée gratuite (catalogue OpenAI complet)
- Comment utiliser Grok 4.3 gratuitement (xAI)
- Obtenez l'API DeepSeek illimitée gratuite
Le script unique Puter les gère tous. Changez la chaîne model et vous changez de fournisseur.
FAQ
Est-ce vraiment illimité, ou y a-t-il un plafond caché ?Illimité du côté du développeur, oui. L'utilisateur final dispose du solde de son compte Puter ; les nouveaux comptes reçoivent un crédit de démarrage et les utilisateurs rechargent s'ils en veulent plus.
Ai-je besoin d'un compte Google ou d'un projet Google Cloud ?Non. Puter gère la relation avec Google. Vous ne verrez jamais de clé API Google.
Puis-je l'utiliser en production ?Oui pour les applications basées sur un navigateur. Puter gère l'infrastructure de production. La bonne question est de savoir si vos utilisateurs tolèrent une étape de connexion à Puter.
Gemini via Puter fonctionne-t-il de manière identique à l'API officielle ?La sortie du modèle est la même ; Puter appelle l'API de Google au nom de l'utilisateur. La latence peut être légèrement plus élevée en raison du saut supplémentaire, mais le comportement du modèle reste inchangé.
Qu'en est-il de la fenêtre de contexte massive de 2M de jetons de Gemini ?Puter n'expose pas le plafond complet de 2M sur toutes les variantes de modèle aujourd'hui. Pour un contexte extrêmement long, l'API officielle Google AI Studio est la bonne voie. La plupart des cas d'utilisation restent bien en dessous de 200K jetons, où Puter est suffisant.
Puis-je utiliser Gemini via Puter dans un bot Discord ou un service backend ?Pas proprement. Puter est d'abord basé sur le navigateur et suppose une session utilisateur. Les services backend devraient utiliser directement l'API officielle Gemini.
Quel modèle devrais-je utiliser par défaut ?google/gemini-2.5-flash. C'est le bon équilibre entre coût, vitesse et qualité pour la plupart des invites. Passez à google/gemini-2.5-pro pour les tâches de raisonnement difficiles, et à google/gemini-2.5-flash-lite pour la classification à volume élevé.
La génération d'images est-elle prise en charge (Imagen) ?Puter expose la génération d'images via gpt-image-2 d'OpenAI et les variantes DALL-E aujourd'hui, pas Imagen. Voir Obtenez l'API GPT-5.5 illimitée gratuite pour le chemin de génération d'images.
En résumé
Gemini illimité et gratuit via Puter.js est le moyen le plus simple pour toute application basée sur un navigateur qui souhaite une sortie multimodale de qualité Google sans la configuration Google Cloud. Intégrez le script, choisissez gemini-2.5-flash, écrivez l'invite. L'utilisateur final couvre l'utilisation ; vous livrez sans clé.
Pour Gemini côté serveur, le fine-tuning, les outils d'exécution de code ou le contexte complet de 2M de jetons, l'API officielle Google AI Studio reste la bonne réponse. Pour les prototypes, les constructions de hackathon, les applications publiques gratuites et les sites statiques, Puter est la réponse.
Construisez la requête une fois dans Apidog, comparez Puter à l'API officielle, et choisissez le chemin qui correspond à vos besoins.
