Googles Gemini-Familie ist die kostengünstigste wegweisende Modellreihe für Workloads mit hohem Volumen, wobei Gemini 2.5 Pro 1,25 $ / 10 $ pro Million Token kostet und Flash-Varianten wesentlich günstiger sind. Für eine kostenlose öffentliche App, ein Nebenprojekt oder einen Hackathon-Build können sich diese Raten schnell summieren, sobald ein paar tausend Benutzer Ihren Endpunkt erreichen. Puter.js kehrt das Modell um: Es stellt die gesamte Gemini-Reihe (2.5 Pro, 2.5 Flash, 2.0 Flash, die 3 Flash-Vorschau, sowie die offenen Gemma 2/3/4-Familien) ohne einen Google API-Schlüssel zur Verfügung und stellt dem Endnutzer statt Ihnen die Kosten in Rechnung. Für den Entwickler ist die Nutzung kostenlos und unbegrenzt.
Kurz gesagt
- Puter.js bietet Entwicklern kostenlosen, unbegrenzten Zugang zum vollständigen Gemini- und Gemma-Katalog ohne Google API-Schlüssel, ohne Google Cloud-Projekt, ohne Server.
- Unterstütztes Gemini: 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, plus ältere Previews.
- Unterstütztes Gemma: Gemma 2, 3, 4 in verschiedenen Größen (4B, 12B, 27B, 31B, 26B-A4B).
- Ein
<script>-Tag, ein Funktionsaufruf, und Sie sprechen mit Gemini. - Streaming, visuelle Eingabe, Temperaturkontrolle funktionieren alle im Browser.
- Der Endnutzer begleicht seine Nutzung über ein Puter-Konto; Sie zahlen null, für immer.
- Verwenden Sie Apidog, um Puter mit der offiziellen Gemini API für die Migrationsplanung zu vergleichen.
Wie „kostenlos und unbegrenzt“ funktioniert
Puter.js kehrt das LLM-Abrechnungsmodell um. Anstatt dass Sie den Google AI Studio-Schlüssel besitzen und alle Token-Kosten tragen, meldet sich Ihr Endnutzer bei Puter an (kostenloses Konto), und die Kosten des Aufrufs werden von dessen Guthaben abgebucht. Neue Puter-Konten erhalten ein Startguthaben; Benutzer können Guthaben aufladen, wenn sie mehr benötigen.
Für den Entwickler sind die Konsequenzen klar:
- Kein Google Cloud-Projekt, kein AI Studio-Schlüssel. Keine Quotenverhandlung, keine Schlüsselrotation, keine Abrechnungsbeziehung.
- Keine Nutzungsbegrenzung Ihrerseits. Ihr „Limit“ skaliert linear mit Ihrer Benutzerbasis.
- Keine Anbieterbindung an die Google-Abrechnung. Puter übernimmt den Upstream-Aufruf.
Der Kompromiss: Dies ist browserzentriert. Ein Backend-Cronjob kann Puter nicht ohne eine angemeldete Benutzersitzung verwenden.
Schritt 1: Installation
Ein CDN-Tag, kein Build-Schritt:
<script src="https://js.puter.com/v2/"></script>
Das ist die gesamte Installation. Oder für eine gebündelte App:
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Schritt 2: Modell auswählen
Die Gemini-Reihe auf Puter, mit dem richtigen Werkzeug für jeden Anwendungsfall:
| Modell-ID | Wann zu verwenden |
|---|---|
google/gemini-2.5-pro |
Tiefste Schlussfolgerungen; komplexe Analysen und Aufgaben mit langem Kontext |
google/gemini-2.5-flash |
Standard für den täglichen Gebrauch; starkes Kosten-Qualitäts-Verhältnis |
google/gemini-2.5-flash-lite |
Günstigste Flash-Variante; Klassifizierung mit hohem Volumen |
google/gemini-2.0-flash |
Stabile Basislinie; gut verstandenes Verhalten |
google/gemini-3-flash-preview |
Neueste Vorschau; Spitzengeschwindigkeit |
google/gemma-3-27b-it |
Offene Gemma; auf Anweisungen trainiert, gut für Fine-Tuning-Baselines |
google/gemma-4-31b-it |
Größte offene Gemma; näher an der Qualität von Closed-Gemini |
Für die meisten Apps sollten Sie standardmäßig gemini-2.5-flash verwenden und nur bei schwierigen Prompts auf Pro zurückgreifen. Die Lite-Varianten sind um Größenordnungen schneller und gut genug für Tagging, Klassifizierung und einfache Q&A.
Schritt 3: Gemini sprechen lassen
Der minimale funktionsfähige Aufruf:
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Erklären Sie maschinelles Lernen in drei Sätzen",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
</script>
</body>
</html>
Im Browser öffnen. Puter übernimmt den Aufruf, der Benutzer meldet sich an (oder erstellt beim ersten Start ein kostenloses Puter-Konto), und die Antwort wird auf der Seite ausgegeben. Kein API-Schlüssel, keine Umgebungsvariable, kein Server.
Schritt 4: Antwort streamen
Für Chat-Benutzeroberflächen und lange Antworten ist Streaming die richtige Standardeinstellung:
const response = await puter.ai.chat(
"Erklären Sie Photosynthese im Detail",
{
model: 'google/gemini-2.5-flash',
stream: true,
}
);
for await (const part of response) {
if (part?.text) {
outputDiv.innerHTML += part.text;
}
}
Jeder part.text ist ein Teil der Antwort. Hängen Sie es an Ihre Benutzeroberfläche an; der Benutzer sieht den Text Wort für Wort erscheinen.
Schritt 5: Vision (Bildeingabe)
Geminins stärkste Funktion ist das multimodale Grounding. Übergeben Sie eine Bild-URL als zweites Argument:
puter.ai.chat(
"Was sehen Sie auf diesem Bild? Beschreiben Sie Farben, Objekte und Stimmung.",
"https://assets.puter.site/doge.jpeg",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
Anwendungsfälle: Alt-Text-Generierung, visuelle Q&A, Screenshot-Analyse, OCR (Optische Zeichenerkennung), Barrierefreiheitstools, Produktbild-Tagging. Geminis Bildqualität ist bei natürlichen Bildern und Diagrammen durchweg stark; bei Screenshots mit dichtem Text ist GPT-5.x manchmal überlegen.
Schritt 6: Temperatur einstellen
Übergeben Sie Standardparameter im Optionen-Objekt:
const response = await puter.ai.chat(
'Schreiben Sie eine kreative Kurzgeschichte über einen Roboterkoch',
{
model: 'google/gemini-2.5-flash',
temperature: 0.2,
}
);
Niedrigere Temperatur (0,0–0,3) für faktische oder strukturierte Ausgaben, höhere (0,7–1,0) für kreatives Schreiben. Geminis Flash-Standardeinstellungen funktionieren bei einer Temperatur von 0,7 für die meisten Chat-Anwendungsfälle gut.
Schritt 7: Mehrstufige Gespräche
Übergeben Sie ein Array von Nachrichten:
const messages = [
{ role: 'user', content: 'Ich entwickle eine Next.js-App mit Postgres.' },
{ role: 'assistant', content: 'Verstanden. Wobei benötigen Sie Hilfe?' },
{ role: 'user', content: 'Wie sollte ich Migrationen strukturieren?' },
];
const response = await puter.ai.chat(messages, {
model: 'google/gemini-2.5-pro',
});
console.log(response);
Fügen Sie jede Benutzernachricht und jede Assistentenantwort dem Array vor dem nächsten Aufruf hinzu. Gemini liest das gesamte Transkript und bleibt über mehrere Runden hinweg konsistent.
Gemini mit anderen Modellen auf demselben Prompt vergleichen
Puter stellt jedes wichtige LLM über eine einzige Schnittstelle zur Verfügung. Der schnellste Weg, das richtige Modell für Ihren Anwendungsfall zu finden, besteht darin, denselben Prompt über verschiedene Anbieter hinweg zu skripten:
const models = [
'google/gemini-2.5-flash',
'claude-sonnet-4-6',
'gpt-5.5',
'x-ai/grok-4.3',
];
const prompt = "Refaktorieren Sie diese React-Komponente, um Hooks zu verwenden: ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response);
console.log('---');
}
Führen Sie es einmal aus, und Sie sehen das Kompromissmuster. Gemini Flash ist in der Regel der Latenz-Sieger, Sonnet der Qualitäts-Sieger beim Codieren, GPT-5.5 der Qualitäts-Sieger bei langen Texten, Grok 4.3 gewinnt bei den Kosten. Wählen Sie das Modell, das zu Ihren Anforderungen passt.
Was Sie bekommen und was nicht
Die ehrliche Aufteilung:
Das bekommen Sie:
- Vollständiger Gemini 2.5/2.0/3 Flash-Katalog plus 2.5 Pro
- Offene Gemma-Familie (2/3/4) für Open-Weight-Workflows
- Mehrstufige Gespräche
- Streaming-Antworten
- Visuelle Eingabe (Bild-URL)
- Temperatur, max_tokens, System-Prompts
- Produktionsreife Skalierbarkeit
Das bekommen Sie möglicherweise nicht (abhängig von der Puter-Version):
- Native Funktionsaufrufe auf Gemini (siehe aktuelle Puter-Dokumentation)
- Code-Ausführungstool
- Google Search Grounding
- Langer Kontext bis zur vollen 2M-Token-Grenze von Gemini
- Serverseitige Nutzung ohne Browserkontext
- Direkte Sichtbarkeit der Ratenbegrenzung von Google
Für komplexe agentenbasierte Abläufe, die Code-Ausführung und Grounding benötigen, bietet die offizielle Google AI Studio API mehr. Für typische Chat-, Q&A-, Content-Generierungs- und visuelle Aufgaben ist Puter ausreichend.
Wann Puter gegenüber der offiziellen Gemini API zu verwenden ist
Die Aufteilung:
Verwenden Sie Puter, wenn:
- Sie eine kostenlose öffentliche App veröffentlichen und keine Abrechnungsrisiken eingehen möchten.
- Sie Prototypen entwickeln und kein Google Cloud-Projekt einrichten möchten.
- Sie Gemini in einer statischen Website, einem Hackathon-Projekt oder einer Browser-Erweiterung ohne Backend benötigen.
- Ihre Benutzer bereit sind, sich bei Puter anzumelden.
Verwenden Sie die offizielle Gemini API, wenn:
- Sie serverseitige Aufrufe benötigen (Cron, Batch, Webhooks).
- Sie Code-Ausführung, Search Grounding oder Gemini Pro mit vollem 2M-Kontextlimit benötigen.
- Sie eine vertragliche Beziehung mit Google für die Compliance benötigen.
- Sie Feinabstimmung auf Ihrem eigenen Datensatz benötigen.
- Ihre Benutzer keinen Puter-Anmeldeschritt akzeptieren.
Eine detaillierte Anleitung für Gemini 3 Flash finden Sie unter So verwenden Sie die Gemini 3 Flash Preview API.
Die Integration in Apidog testen
Puter-Aufrufe finden im Browser statt, sodass Sie sie nicht von einem Backend-Test-Runner skripten können. Das funktionierende Schema:
- Erstellen Sie eine kleine statische Seite mit dem Puter-Skript und einem Abfrageparameter für den Prompt.
- Verwenden Sie Apidog, um die Upstream-Google Gemini API-Oberfläche zu validieren (wenn Sie schließlich migrieren).
- Bewahren Sie beide als separate Umgebungen in derselben Apidog-Sammlung auf, damit Sie mit einem Klick wechseln können.
Laden Sie Apidog herunter und richten Sie zwei Umgebungen ein: puter-prototype (eine Localhost-URL, die Ihre Puter-Seite hostet) und gemini-prod (https://generativelanguage.googleapis.com/v1). Die Sammlung lässt sich sauber übertragen, wenn Sie migrieren. Umfassendere API-Testmuster finden Sie unter API-Test-Tool für QA-Ingenieure.
Weitere kostenlose LLM-Pfade über Puter
Das Nutzer-zahlt-Modell funktioniert für jedes große LLM:
- Holen Sie sich eine kostenlose unbegrenzte Claude API (Anthropic Opus, Sonnet, Haiku)
- Holen Sie sich eine kostenlose unbegrenzte GPT-5.5 API (vollständiger OpenAI-Katalog)
- So verwenden Sie Grok 4.3 kostenlos (xAI)
- Holen Sie sich eine kostenlose unbegrenzte DeepSeek API
Das einzelne Puter-Skript deckt alle ab. Ändern Sie den model-String, und Sie wechseln den Anbieter.
Häufig gestellte Fragen (FAQ)
Ist dies wirklich unbegrenzt, oder gibt es eine versteckte Obergrenze?Ja, aus Sicht des Entwicklers ist es unbegrenzt. Der Endnutzer hat das Guthaben, das in seinem Puter-Konto vorhanden ist; neue Konten erhalten ein Startguthaben, und Benutzer laden Guthaben auf, wenn sie mehr benötigen.
Benötige ich ein Google-Konto oder ein Google Cloud-Projekt?Nein. Puter kümmert sich um die Beziehung zu Google. Sie sehen niemals einen Google API-Schlüssel.
Kann ich dies in der Produktion verwenden?Ja, für browserbasierte Apps. Puter betreibt Produktionsinfrastruktur. Die entscheidende Frage ist, ob Ihre Benutzer einen Puter-Anmeldeschritt tolerieren.
Funktioniert Gemini über Puter identisch mit der offiziellen API?Die Modellausgabe ist dieselbe; Puter ruft die Google API im Namen des Benutzers auf. Die Latenz kann aufgrund des zusätzlichen Hops geringfügig höher sein, aber das Modellverhalten ist unverändert.
Was ist mit Geminis riesigem 2M-Token-Kontextfenster?Puter bietet heute nicht die volle 2M-Grenze für jede Modellvariante. Für extrem lange Kontexte ist die offizielle Google AI Studio API der richtige Weg. Die meisten Anwendungsfälle liegen weit unter 200.000 Token, wo Puter ausreicht.
Kann ich Gemini über Puter in einem Discord-Bot oder Backend-Dienst verwenden?Nicht ohne Weiteres. Puter ist browserbasiert und setzt eine Benutzersitzung voraus. Backend-Dienste sollten die offizielle Gemini API direkt nutzen.
Welches Modell sollte ich standardmäßig verwenden?google/gemini-2.5-flash. Es bietet die richtige Balance aus Kosten, Geschwindigkeit und Qualität für die meisten Prompts. Wechseln Sie zu google/gemini-2.5-pro für komplexe Denkaufgaben und google/gemini-2.5-flash-lite für Klassifizierung mit hohem Volumen.
Wird Bildgenerierung unterstützt (Imagen)?Puter bietet heute Bildgenerierung über OpenAI's gpt-image-2 und DALL-E-Varianten an, nicht über Imagen. Siehe Holen Sie sich eine kostenlose unbegrenzte GPT-5.5 API für den Pfad der Bildgenerierung.
Zusammenfassung
Kostenloses, unbegrenztes Gemini über Puter.js ist der sauberste Weg für jede browserbasierte App, die multimodale Ausgaben in Google-Qualität ohne Google Cloud-Setup wünscht. Fügen Sie das Skript ein, wählen Sie gemini-2.5-flash, schreiben Sie den Prompt. Der Endbenutzer trägt die Nutzungskosten; Sie liefern ohne Schlüssel.
Für serverseitiges Gemini, Feinabstimmung, Code-Ausführungstools oder den vollen 2M-Token-Kontext ist die offizielle Google AI Studio API weiterhin die richtige Antwort. Für Prototypen, Hackathon-Projekte, kostenlose öffentliche Apps und statische Websites ist Puter die Antwort.
Erstellen Sie die Anfrage einmal in Apidog, vergleichen Sie Puter mit der offiziellen API und wählen Sie den Pfad, der zu Ihren Anforderungen passt.
