La familia Gemini de Google es la línea de modelos frontera más rentable para cargas de trabajo de alto volumen, con Gemini 2.5 Pro a 1.25 $ / 10 $ por millón de tokens y variantes Flash mucho más económicas. Para una aplicación pública gratuita, un proyecto personal o una construcción de hackathon, incluso esas tarifas se acumulan rápidamente una vez que unos pocos miles de usuarios llegan a su endpoint. Puter.js invierte el modelo: expone toda la línea Gemini (2.5 Pro, 2.5 Flash, 2.0 Flash, la vista previa 3 Flash, además de la familia abierta Gemma 2/3/4) sin una clave API de Google y factura al usuario final en lugar de a usted. Para el desarrollador, la superficie es gratuita e ilimitada. botón
TL;DR
- Puter.js ofrece a los desarrolladores acceso gratuito e ilimitado a todo el catálogo Gemini y Gemma sin clave API de Google, sin proyecto de Google Cloud, sin servidor.
- Gemini soportados: 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, además de vistas previas antiguas.
- Gemma soportados: Gemma 2, 3, 4 en múltiples tamaños (4B, 12B, 27B, 31B, 26B-A4B).
- Una etiqueta
<script>, una llamada de función, y ya está hablando con Gemini. - Streaming, entrada de visión, control de temperatura, todo funciona en el navegador.
- El usuario final cubre su uso desde una cuenta de Puter; usted paga cero, para siempre.
- Use Apidog para comparar Puter con la API oficial de Gemini para la planificación de la migración.
Cómo funciona "gratuito ilimitado"
Puter.js invierte el modelo de facturación de LLM. En lugar de que usted tenga la clave de Google AI Studio y asuma cada costo de token, su usuario final inicia sesión en Puter (cuenta gratuita) y la llamada se carga contra su saldo. Las nuevas cuentas de Puter obtienen crédito inicial; los usuarios recargan si quieren más.
Para el desarrollador, las consecuencias son claras:
- Sin proyecto de Google Cloud, sin clave de AI Studio. Sin negociación de cuotas, sin rotación de claves, sin relación de facturación.
- Sin límite de uso por su parte. Su "límite" escala linealmente con su base de usuarios.
- Sin dependencia del proveedor para la facturación de Google. Puter gestiona la llamada ascendente.
La contrapartida: esto es prioritario para el navegador. Una tarea programada de backend no puede usar Puter sin una sesión de usuario iniciada.
Paso 1: Instalar
Una etiqueta CDN, sin paso de construcción:
<script src="https://js.puter.com/v2/"></script>
Esa es toda la instalación. O para una aplicación empaquetada:
npm install @heyputer/puter.js
import { puter } from '@heyputer/puter.js';
Paso 2: Elegir un modelo
La línea Gemini en Puter, con la herramienta adecuada para cada forma:
| ID del Modelo | Cuándo usar |
|---|---|
google/gemini-2.5-pro |
Razonamiento más profundo; análisis complejo y tareas de contexto largo |
google/gemini-2.5-flash |
Modelo predeterminado para el uso diario; excelente equilibrio costo/calidad |
google/gemini-2.5-flash-lite |
Variante Flash más económica; clasificación de alto volumen |
google/gemini-2.0-flash |
Base estable; comportamiento bien comprendido |
google/gemini-3-flash-preview |
Vista previa más reciente; velocidad de vanguardia |
google/gemma-3-27b-it |
Gemma abierto; ajustado con instrucciones, bueno para líneas base de ajuste fino |
google/gemma-4-31b-it |
Gemma abierto más grande; más cercano a la calidad de Gemini cerrado |
Para la mayoría de las aplicaciones, use gemini-2.5-flash por defecto y solo recurra a Pro para prompts difíciles. Las variantes Lite son un orden de magnitud más rápidas y lo suficientemente buenas para etiquetado, clasificación y preguntas y respuestas simples.
Paso 3: Hacer que Gemini hable
La llamada mínima viable:
<!DOCTYPE html>
<html>
<body>
<script src="https://js.puter.com/v2/"></script>
<script>
puter.ai.chat(
"Explain machine learning in three sentences",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
</script>
</body>
</html>
Ábralo en un navegador. Puter maneja la llamada, el usuario inicia sesión (o crea una cuenta gratuita de Puter en la primera ejecución) y la respuesta se imprime en la página. Sin clave API, sin variable de entorno, sin servidor.
Paso 4: Transmitir la respuesta
Para las interfaces de chat y las respuestas largas, la transmisión es el valor predeterminado correcto:
const response = await puter.ai.chat(
"Explain photosynthesis in detail",
{
model: 'google/gemini-2.5-flash',
stream: true,
}
);
for await (const part of response) {
if (part?.text) {
outputDiv.innerHTML += part.text;
}
}
Cada part.text es un fragmento de la respuesta. Agréguelo a su interfaz de usuario; el usuario verá el texto aparecer palabra por palabra.
Paso 5: Visión (entrada de imagen)
La característica más potente de Gemini es la fundamentación multimodal. Pase una URL de imagen como segundo argumento:
puter.ai.chat(
"What do you see in this image? Describe colors, objects, and mood.",
"https://assets.puter.site/doge.jpeg",
{ model: 'google/gemini-2.5-flash' }
).then(response => {
puter.print(response);
});
Casos de uso: generación de texto alternativo, control de calidad visual, análisis de capturas de pantalla, OCR, herramientas de accesibilidad, etiquetado de imágenes de productos. La calidad de visión de Gemini es consistentemente fuerte en imágenes y diagramas naturales; en capturas de pantalla de texto densas, GPT-5.x a veces lo supera.
Paso 6: Ajustar la temperatura
Pase parámetros estándar en el objeto de opciones:
const response = await puter.ai.chat(
'Write a creative short story about a robot chef',
{
model: 'google/gemini-2.5-flash',
temperature: 0.2,
}
);
Temperatura más baja (0.0–0.3) para resultados fácticos o estructurados, más alta (0.7–1.0) para escritura creativa. Los valores predeterminados de Gemini Flash funcionan bien con una temperatura de 0.7 para la mayoría de los casos de uso de chat.
Paso 7: Conversaciones multiturno
Pase un array de mensajes:
const messages = [
{ role: 'user', content: 'I am building a Next.js app with Postgres.' },
{ role: 'assistant', content: 'Got it. What do you need help with?' },
{ role: 'user', content: 'How should I structure migrations?' },
];
const response = await puter.ai.chat(messages, {
model: 'google/gemini-2.5-pro',
});
console.log(response);
Agregue cada mensaje de usuario y cada respuesta del asistente al array antes de la siguiente llamada. Gemini lee toda la transcripción y se mantiene consistente entre turnos.
Comparando Gemini con otros modelos en el mismo prompt
Puter expone todos los LLM principales a través de una única interfaz. La forma más rápida de encontrar el modelo adecuado para su caso de uso es programar el mismo prompt para diferentes proveedores:
const models = [
'google/gemini-2.5-flash',
'claude-sonnet-4-6',
'gpt-5.5',
'x-ai/grok-4.3',
];
const prompt = "Refactor this React component to use hooks: ...";
for (const model of models) {
const start = performance.now();
const response = await puter.ai.chat(prompt, { model });
const elapsed = performance.now() - start;
console.log(`${model}: ${elapsed.toFixed(0)}ms`);
console.log(response);
console.log('---');
}
Ejecútelo una vez y verá el patrón de compensaciones. Gemini Flash suele ser el ganador en latencia, Sonnet es el ganador en calidad de codificación, GPT-5.5 es el ganador en calidad para escritura de formato largo, Grok 4.3 gana en costo. Elija el modelo que se adapte a su forma.
Lo que obtienes y lo que no
La división honesta:
Obtienes:
- Catálogo completo de Gemini 2.5/2.0/3 Flash más 2.5 Pro
- Familia Gemma abierta (2/3/4) para flujos de trabajo de peso abierto
- Conversaciones multiturno
- Respuestas en streaming
- Entrada de visión (URL de imagen)
- Temperatura, max_tokens, prompts del sistema
- Escala lista para producción
Puede que no obtengas (dependiendo de la versión de Puter):
- Llamadas de función nativas en Gemini (consulta la última documentación de Puter)
- Herramienta de ejecución de código
- Fundamentación en Google Search
- Contexto largo hasta el límite completo de 2M tokens de Gemini
- Uso del lado del servidor sin un contexto de navegador
- Visibilidad directa del límite de velocidad de Google
Para flujos agénticos profundos que necesitan ejecución de código y fundamentación, la API oficial de Google AI Studio te da más. Para tareas típicas de chat, preguntas y respuestas, generación de contenido y tareas visuales, Puter es suficiente.
Cuándo usar Puter frente a la API oficial de Gemini
La división:
Usa Puter cuando:
- Estás lanzando una aplicación pública gratuita y no quieres exposición a la facturación.
- Estás prototipando y no quieres configurar un proyecto de Google Cloud.
- Quieres Gemini en un sitio estático, proyecto de hackathon o extensión de navegador sin un backend.
- Tus usuarios están contentos de iniciar sesión en Puter.
Usa la API oficial de Gemini cuando:
- Necesitas llamadas del lado del servidor (cron, batch, webhooks).
- Necesitas ejecución de código, fundamentación en Search, o Gemini Pro de contexto largo con el límite completo de 2M.
- Necesitas una relación contractual con Google para el cumplimiento.
- Necesitas ajuste fino en tu propio conjunto de datos.
- Tus usuarios no tolerarán un paso de inicio de sesión de Puter.
Para la guía independiente de Gemini 3 Flash, consulta Cómo usar la API de vista previa de Gemini 3 Flash.
Probando la integración en Apidog
Las llamadas de Puter ocurren en el navegador, por lo que no puedes programarlas desde un ejecutor de pruebas de backend. El patrón que funciona:
- Cree una pequeña página estática con el script de Puter y un parámetro de consulta para el prompt.
- Use Apidog para validar la superficie de la API de Google Gemini (cuando finalmente migre).
- Mantenga ambos como entornos separados en la misma colección de Apidog para que pueda intercambiar con un clic.
Descargue Apidog y configure dos entornos: puter-prototype (una URL de localhost que aloja su página de Puter) y gemini-prod (https://generativelanguage.googleapis.com/v1). La colección se traslada limpiamente cuando se gradúa. Para patrones más amplios de pruebas de API, consulte Herramienta de prueba de API para ingenieros de control de calidad.
Otras rutas gratuitas de LLM a través de Puter
El mismo modelo de "el usuario paga" funciona para todos los LLM principales:
- Obtén API de Claude ilimitada y gratuita (Anthropic Opus, Sonnet, Haiku)
- Obtén API de GPT-5.5 ilimitada y gratuita (catálogo completo de OpenAI)
- Cómo usar Grok 4.3 gratis (xAI)
- Obtén API de DeepSeek ilimitada y gratuita
El script único de Puter los maneja a todos. Cambie la cadena model y cambiará de proveedor.
Preguntas Frecuentes
¿Es esto verdaderamente ilimitado, o hay un límite oculto?Ilimitado desde el lado del desarrollador, sí. El usuario final tiene el saldo que haya en su cuenta Puter; las cuentas nuevas obtienen crédito inicial y los usuarios recargan si quieren más.
¿Necesito una cuenta de Google o un proyecto de Google Cloud?No. Puter gestiona la relación con Google. Nunca verá una clave API de Google.
¿Puedo usar esto en producción?Sí, para aplicaciones basadas en navegador. Puter ejecuta infraestructura de producción. La pregunta correcta es si sus usuarios toleran un paso de inicio de sesión de Puter.
¿El rendimiento de Gemini a través de Puter es idéntico al de la API oficial?La salida del modelo es la misma; Puter llama a la API de Google en nombre del usuario. La latencia puede ser marginalmente mayor debido al salto adicional, pero el comportamiento del modelo no cambia.
¿Qué pasa con la enorme ventana de contexto de 2M tokens de Gemini?Puter no expone el límite completo de 2M en todas las variantes del modelo hoy. Para contextos extremadamente largos, la API oficial de Google AI Studio es la ruta correcta. La mayoría de los casos de uso se mantienen muy por debajo de los 200K tokens, donde Puter funciona bien.
¿Puedo usar Gemini a través de Puter en un bot de Discord o un servicio de backend?No de forma limpia. Puter es prioritario para el navegador y asume una sesión de usuario. Los servicios de backend deben usar la API oficial de Gemini directamente.
¿Qué modelo debo usar por defecto?google/gemini-2.5-flash. Es el equilibrio adecuado entre costo, velocidad y calidad para la mayoría de los prompts. Pase a google/gemini-2.5-pro para tareas de razonamiento difíciles, y a google/gemini-2.5-flash-lite para clasificación de alto volumen.
¿Se admite la generación de imágenes (Imagen)?Puter expone la generación de imágenes a través de gpt-image-2 y variantes de DALL-E de OpenAI hoy, no Imagen. Consulte Obtenga API de GPT-5.5 ilimitada y gratuita para la ruta de generación de imágenes.
Conclusión
Gemini gratuito e ilimitado a través de Puter.js es la ruta más limpia para cualquier aplicación basada en navegador que quiera una salida multimodal con calidad de Google sin la configuración de Google Cloud. Simplemente inserte el script, elija gemini-2.5-flash, escriba el prompt. El usuario final cubre el uso; usted implementa sin una clave.
Para Gemini del lado del servidor, ajuste fino, herramientas de ejecución de código o contexto completo de 2M de tokens, la API oficial de Google AI Studio sigue siendo la respuesta correcta. Para prototipos, construcciones de hackathon, aplicaciones públicas gratuitas y sitios estáticos, Puter es la respuesta.
Cree la solicitud una vez en Apidog, compare Puter con la API oficial y elija la ruta que se ajuste a sus necesidades.
botón
