Gemma 4 12B es de pesos abiertos y tiene licencia Apache 2.0, por lo que "gratis" aquí significa realmente gratis. No hay factura de API ni suscripción. Descargas el modelo y lo ejecutas en tu propia máquina, o lo pruebas en una pestaña del navegador. El único costo es el hardware que ya posees.
Una cosa que hay que saber de antemano: el 12B está diseñado para uso local y en dispositivos. Sus hermanos mayores, el 31B y el 26B, son los que Google aloja para chatear gratis en AI Studio. El principal argumento del 12B es que se ejecuta en un portátil de 16 GB, por lo que las rutas gratuitas que se indican a continuación tratan de llevarlo rápidamente a tu hardware. ¿Eres nuevo en el modelo? Empieza con qué es Gemma 4 12B para conocer las especificaciones.

Aquí hay seis métodos que funcionan, desde una demostración de navegador de 60 segundos hasta una API local completa sobre la que puedes construir.
Resumen rápido
| Método | Qué obtienes | Mejor para |
|---|---|---|
| Hugging Face Space | Chat en navegador, cero instalación | Probarlo en un minuto |
| Ollama | Modelo local + API compatible con OpenAI | Desarrolladores, un comando |
| LM Studio | Aplicación de escritorio local con GUI | No se necesita terminal |
| llama.cpp | Servidor API local ligero | Configuraciones avanzadas y de baja sobrecarga |
| HF Transformers | Python, control total, GPU Colab gratuita | Notebooks y ajuste fino |
| Google AI Edge | En dispositivo, móvil | Teléfonos y hardware perimetral |
Método 1: Pruébalo en tu navegador (sin instalación)
La forma más rápida de ver Gemma 4 12B es el Space de demostración oficial en Hugging Face. Sin descargas, sin cuenta, sin GPU.

- Abre el Space de demostración de Gemma 4 12B
- Escribe un prompt, o sube una imagen o un clip de audio
- Lee la respuesta
Este es el camino correcto para una verificación rápida. También puedes probar el lado multimodal, ya que el Space acepta entrada de imagen y audio. Cuando estés listo para construir algo real, pasa a uno de los métodos locales a continuación.
Método 2: Ollama (el predeterminado para desarrolladores)
Ollama es la forma más sencilla de ejecutar Gemma 4 12B localmente y obtener una API funcional. Una instalación, una descarga, listo.

Instalar Ollama
En macOS o Linux:
curl -fsSL https://ollama.com/install.sh | sh
En Windows, descarga el instalador de ollama.com y ejecútalo.
Descargar y ejecutar el modelo
ollama pull gemma4:12b
ollama run gemma4:12b
El primer comando descarga el modelo (una compilación Q4_K_M de 4 bits por defecto, de alrededor de 8 GB). El segundo te lleva a un chat interactivo. Escribe /bye para salir.
Usar la API local
Esta es la parte que interesa a los desarrolladores. Ollama ofrece una API REST compatible con OpenAI en http://localhost:11434. Sin clave, sin nube, sin límite de tasa.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Explain how transformers work in two sentences."}
]
}'
Dado que el endpoint coincide con el formato de OpenAI, cualquier SDK o herramienta que hable OpenAI funciona apuntando la URL base a localhost:11434/v1. Esto incluye editores, frameworks de agentes y clientes de API. Para un patrón de configuración de IDE, el enfoque se asemeja a nuestra guía de DeepSeek V4 en Cursor; simplemente cambia la cadena del modelo por gemma4:12b.
Comandos útiles:
ollama listmuestra los modelos descargadosollama psmuestra lo que está en ejecuciónollama show gemma4:12bimprime los detalles del modelo
Método 3: LM Studio (sin terminal)
Si prefieres no tocar la línea de comandos, LM Studio es una aplicación de escritorio para Windows, macOS y Linux.
- Descarga e instala LM Studio
- Busca Gemma 4 12B en el catálogo de modelos
- Elige una cuantificación que se ajuste a tu RAM y descárgala
- Abre la pestaña de chat y empieza a generar prompts
LM Studio también ejecuta un servidor local con un endpoint compatible con OpenAI, generalmente en el puerto 1234, por lo que obtienes una API sin escribir ningún código. Es el camino más amigable para diseñadores, escritores y cualquiera que prefiera una ventana de chat a un archivo de configuración.
Método 4: llama.cpp (ligero y rápido)
llama.cpp ejecuta modelos GGUF con poca sobrecarga y trae su propio servidor compatible con OpenAI.
Instálalo:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Luego inicia un servidor apuntando a la compilación GGUF oficial. Busca la colección ggml-org/gemma-4 en Hugging Face para el nombre exacto del repositorio 12B, luego pásalo a llama-server:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Eso expone una API compatible con OpenAI en http://localhost:8080/v1. Esta ruta es la mejor cuando quieres dependencias mínimas o estás ejecutando en hardware modesto. También es el motor de varias otras herramientas, por lo que aprenderlo vale la pena.
Método 5: Hugging Face Transformers (control total)
Para notebooks, scripts o ajuste fino (fine-tuning), ejecuta el modelo con Transformers en Python. Si no tienes una GPU local, un notebook gratuito de Google Colab te proporciona una.
Instala las bibliotecas:
pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa
Luego carga el modelo ajustado por instrucciones y genera:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Establece enable_thinking=True para activar el modo de razonamiento paso a paso. Para introducir una imagen o un archivo de audio, añade una lista de contenido con {"type": "image", ...} antes del texto y {"type": "audio", ...} después. Los pesos también están en Kaggle si prefieres esa fuente. Los patrones de código completos se encuentran en la guía del desarrollador.
Método 6: Google AI Edge (en dispositivo y móvil)
Para ejecutar Gemma 4 12B en un teléfono o dispositivo perimetral, Google distribuye la pila AI Edge. Tanto la aplicación Google AI Edge Gallery como la CLI LiteRT-LM ejecutan el 12B en el dispositivo.
Para un servidor local con LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Este es el camino para asistentes móviles sin conexión y aplicaciones integradas donde los datos nunca salen del dispositivo.
Prueba tu API local de Gemma 4 12B con Apidog
Una vez que Gemma 4 12B está funcionando a través de Ollama o llama.cpp, tienes una API HTTP real en tu máquina. Antes de conectarla a una aplicación, es útil probarla en un cliente API adecuado para que conozcas la forma exacta de la solicitud y la respuesta. Apidog está diseñado para eso.

Aquí tienes una configuración limpia:
- Descarga Apidog y crea un nuevo proyecto HTTP
- Añade una solicitud
POSTahttp://localhost:11434/v1/chat/completions - Establece el cuerpo como JSON y pega una carga útil de ejemplo:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Return a JSON object with two fields: city and country."}
],
"stream": false
}
- Guarda la URL base como una variable de entorno para que puedas alternar entre Ollama (
:11434) y llama.cpp (:8080) con un solo clic. - Añade una aserción de respuesta para confirmar que el modelo devuelve JSON válido en el campo
content. - Cambia
"stream": truey observa cómo Apidog renderiza los tokens transmitidos, lo cual es la forma de confirmar que el streaming funciona antes de construir una interfaz de usuario alrededor de él.
La recompensa: detectas un prompt malformado o un nombre de campo incorrecto en Apidog, no tres capas más abajo en el código de tu aplicación. Si estás comparando clientes, consulta nuestra recopilación de herramientas gratuitas de prueba de API en línea y las mejores alternativas a Postman. El mismo flujo de prueba funciona para cualquier endpoint compatible con OpenAI, por lo que los hábitos se trasladan directamente a flujos de trabajo al estilo cómo probar APIs con Postman.
¿Qué cuantificación deberías elegir?
Gemma 4 12B se adapta a diferentes máquinas dependiendo de cuán agresivamente esté comprimido:
| Compilación | Memoria necesaria | Compensación |
|---|---|---|
| Precisión completa | ~16GB | Mejor calidad |
| 8 bits | ~14GB | Calidad casi completa |
| 4 bits (Q4_K_M) | ~8GB | Ligera caída de calidad, funciona ampliamente |
Ollama por defecto usa la compilación de 4 bits, por eso funciona en una GPU de 8 GB o un MacBook de 16 GB. Si tienes espacio, la compilación de 8 bits te da un aumento de calidad por unos pocos gigabytes extra.
¿Qué método gratuito deberías elegir?
Un árbol de decisión rápido:
- ¿Solo tienes curiosidad? La demo de Hugging Face Space
- ¿Desarrollando software? Ollama, para la API local de un solo comando
- ¿Sin terminal? LM Studio
- ¿Hardware o dependencias mínimas? llama.cpp
- ¿Notebooks o ajuste fino? Transformers, con Colab gratuito para la GPU
- ¿Teléfono o dispositivo perimetral? Google AI Edge
La mayoría de los desarrolladores optan por Ollama para el uso diario y mantienen Transformers para el trabajo más pesado.
Consejos para sacar el máximo partido a Gemma local gratuita
- Adapta la cuantificación a tu RAM. Un modelo que intercambia a disco funciona lentamente. La compilación de 4 bits es la opción predeterminada segura.
- Usa el modo de pensamiento para problemas difíciles. Establece
enable_thinking=Truepara matemáticas y razonamiento de varios pasos, déjalo desactivado para un chat rápido y ahorrar tiempo. - Mantén los prompts dentro de la ventana de 256K. Es grande, pero las transcripciones largas y las bases de código se acumulan.
- Valida las solicitudes en Apidog primero. Confirma la estructura JSON antes de que tu aplicación dependa de ella.
- Compara con otros modelos gratuitos. El mismo patrón local funciona para las rutas de acceso a Qwen 3.7, MiniMax M3 y Claude Opus 4.8.
Preguntas Frecuentes
¿Es Gemma 4 12B realmente gratis? Sí. Es de pesos abiertos con licencia Apache 2.0, de descarga y ejecución gratuitas, incluso comercialmente. Solo pagas por el hardware o la nube donde lo ejecutas.
¿Necesito una GPU? No, pero ayuda. La compilación de 4 bits se ejecuta en una GPU de 8 GB o un Mac con memoria unificada de 16 GB. Solo con CPU, funciona pero lentamente.
¿Puedo usar Gemma 4 12B en Google AI Studio? Actualmente no. AI Studio aloja los modelos 31B y 26B para chat gratuito en el navegador. El 12B está diseñado para uso local y en dispositivos, por lo que lo ejecutas tú mismo con los métodos anteriores.
¿La API local necesita una clave API? No. Ollama y llama.cpp sirven el modelo en localhost sin clave. Si una herramienta requiere un campo de clave, pon cualquier cadena de marcador de posición; el servidor local lo ignorará.
¿Puedo llamarlo desde mi código existente de OpenAI? Sí. Tanto Ollama como llama.cpp exponen endpoints compatibles con OpenAI. Apunta tu URL base a http://localhost:11434/v1 (Ollama) o http://localhost:8080/v1 (llama.cpp) y mantén tu código.
¿Cómo ejecuto las funciones de imagen y audio? Usa Transformers, LM Studio o las aplicaciones de AI Edge, que admiten entrada multimodal. Añade contenido de imagen antes de tu prompt de texto y contenido de audio después.
¿Cuál es más rápido, Ollama o llama.cpp? Utilizan el mismo motor subyacente. llama.cpp tiene menos sobrecarga y más banderas de ajuste; Ollama es más fácil de configurar. Para la mayoría de la gente, la diferencia es pequeña.
