Cómo usar Gemma 4 12B gratis: 6 métodos efectivos en 2026

Usa Gemma 4 12B gratis en 2026: Hugging Face demo, Ollama, LM Studio, llama.cpp, Transformers y Google AI Edge. Comandos funcionales más cómo probar la API local.

Ashley Innocent

Ashley Innocent

4 June 2026

Cómo usar Gemma 4 12B gratis: 6 métodos efectivos en 2026

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

Gemma 4 12B es de pesos abiertos y tiene licencia Apache 2.0, por lo que "gratis" aquí significa realmente gratis. No hay factura de API ni suscripción. Descargas el modelo y lo ejecutas en tu propia máquina, o lo pruebas en una pestaña del navegador. El único costo es el hardware que ya posees.

Una cosa que hay que saber de antemano: el 12B está diseñado para uso local y en dispositivos. Sus hermanos mayores, el 31B y el 26B, son los que Google aloja para chatear gratis en AI Studio. El principal argumento del 12B es que se ejecuta en un portátil de 16 GB, por lo que las rutas gratuitas que se indican a continuación tratan de llevarlo rápidamente a tu hardware. ¿Eres nuevo en el modelo? Empieza con qué es Gemma 4 12B para conocer las especificaciones.

Aquí hay seis métodos que funcionan, desde una demostración de navegador de 60 segundos hasta una API local completa sobre la que puedes construir.

Resumen rápido

Método Qué obtienes Mejor para
Hugging Face Space Chat en navegador, cero instalación Probarlo en un minuto
Ollama Modelo local + API compatible con OpenAI Desarrolladores, un comando
LM Studio Aplicación de escritorio local con GUI No se necesita terminal
llama.cpp Servidor API local ligero Configuraciones avanzadas y de baja sobrecarga
HF Transformers Python, control total, GPU Colab gratuita Notebooks y ajuste fino
Google AI Edge En dispositivo, móvil Teléfonos y hardware perimetral

Método 1: Pruébalo en tu navegador (sin instalación)

La forma más rápida de ver Gemma 4 12B es el Space de demostración oficial en Hugging Face. Sin descargas, sin cuenta, sin GPU.

  1. Abre el Space de demostración de Gemma 4 12B
  2. Escribe un prompt, o sube una imagen o un clip de audio
  3. Lee la respuesta

Este es el camino correcto para una verificación rápida. También puedes probar el lado multimodal, ya que el Space acepta entrada de imagen y audio. Cuando estés listo para construir algo real, pasa a uno de los métodos locales a continuación.

Método 2: Ollama (el predeterminado para desarrolladores)

Ollama es la forma más sencilla de ejecutar Gemma 4 12B localmente y obtener una API funcional. Una instalación, una descarga, listo.

Instalar Ollama

En macOS o Linux:

curl -fsSL https://ollama.com/install.sh | sh

En Windows, descarga el instalador de ollama.com y ejecútalo.

Descargar y ejecutar el modelo

ollama pull gemma4:12b
ollama run gemma4:12b

El primer comando descarga el modelo (una compilación Q4_K_M de 4 bits por defecto, de alrededor de 8 GB). El segundo te lleva a un chat interactivo. Escribe /bye para salir.

Usar la API local

Esta es la parte que interesa a los desarrolladores. Ollama ofrece una API REST compatible con OpenAI en http://localhost:11434. Sin clave, sin nube, sin límite de tasa.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explain how transformers work in two sentences."}
    ]
  }'

Dado que el endpoint coincide con el formato de OpenAI, cualquier SDK o herramienta que hable OpenAI funciona apuntando la URL base a localhost:11434/v1. Esto incluye editores, frameworks de agentes y clientes de API. Para un patrón de configuración de IDE, el enfoque se asemeja a nuestra guía de DeepSeek V4 en Cursor; simplemente cambia la cadena del modelo por gemma4:12b.

Comandos útiles:

Método 3: LM Studio (sin terminal)

Si prefieres no tocar la línea de comandos, LM Studio es una aplicación de escritorio para Windows, macOS y Linux.

  1. Descarga e instala LM Studio
  2. Busca Gemma 4 12B en el catálogo de modelos
  3. Elige una cuantificación que se ajuste a tu RAM y descárgala
  4. Abre la pestaña de chat y empieza a generar prompts

LM Studio también ejecuta un servidor local con un endpoint compatible con OpenAI, generalmente en el puerto 1234, por lo que obtienes una API sin escribir ningún código. Es el camino más amigable para diseñadores, escritores y cualquiera que prefiera una ventana de chat a un archivo de configuración.

Método 4: llama.cpp (ligero y rápido)

llama.cpp ejecuta modelos GGUF con poca sobrecarga y trae su propio servidor compatible con OpenAI.

Instálalo:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Luego inicia un servidor apuntando a la compilación GGUF oficial. Busca la colección ggml-org/gemma-4 en Hugging Face para el nombre exacto del repositorio 12B, luego pásalo a llama-server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Eso expone una API compatible con OpenAI en http://localhost:8080/v1. Esta ruta es la mejor cuando quieres dependencias mínimas o estás ejecutando en hardware modesto. También es el motor de varias otras herramientas, por lo que aprenderlo vale la pena.

Método 5: Hugging Face Transformers (control total)

Para notebooks, scripts o ajuste fino (fine-tuning), ejecuta el modelo con Transformers en Python. Si no tienes una GPU local, un notebook gratuito de Google Colab te proporciona una.

Instala las bibliotecas:

pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa

Luego carga el modelo ajustado por instrucciones y genera:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

Establece enable_thinking=True para activar el modo de razonamiento paso a paso. Para introducir una imagen o un archivo de audio, añade una lista de contenido con {"type": "image", ...} antes del texto y {"type": "audio", ...} después. Los pesos también están en Kaggle si prefieres esa fuente. Los patrones de código completos se encuentran en la guía del desarrollador.

Método 6: Google AI Edge (en dispositivo y móvil)

Para ejecutar Gemma 4 12B en un teléfono o dispositivo perimetral, Google distribuye la pila AI Edge. Tanto la aplicación Google AI Edge Gallery como la CLI LiteRT-LM ejecutan el 12B en el dispositivo.

Para un servidor local con LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Este es el camino para asistentes móviles sin conexión y aplicaciones integradas donde los datos nunca salen del dispositivo.

Prueba tu API local de Gemma 4 12B con Apidog

Una vez que Gemma 4 12B está funcionando a través de Ollama o llama.cpp, tienes una API HTTP real en tu máquina. Antes de conectarla a una aplicación, es útil probarla en un cliente API adecuado para que conozcas la forma exacta de la solicitud y la respuesta. Apidog está diseñado para eso.

Aquí tienes una configuración limpia:

  1. Descarga Apidog y crea un nuevo proyecto HTTP
  2. Añade una solicitud POST a http://localhost:11434/v1/chat/completions
  3. Establece el cuerpo como JSON y pega una carga útil de ejemplo:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Return a JSON object with two fields: city and country."}
  ],
  "stream": false
}
  1. Guarda la URL base como una variable de entorno para que puedas alternar entre Ollama (:11434) y llama.cpp (:8080) con un solo clic.
  2. Añade una aserción de respuesta para confirmar que el modelo devuelve JSON válido en el campo content.
  3. Cambia "stream": true y observa cómo Apidog renderiza los tokens transmitidos, lo cual es la forma de confirmar que el streaming funciona antes de construir una interfaz de usuario alrededor de él.

La recompensa: detectas un prompt malformado o un nombre de campo incorrecto en Apidog, no tres capas más abajo en el código de tu aplicación. Si estás comparando clientes, consulta nuestra recopilación de herramientas gratuitas de prueba de API en línea y las mejores alternativas a Postman. El mismo flujo de prueba funciona para cualquier endpoint compatible con OpenAI, por lo que los hábitos se trasladan directamente a flujos de trabajo al estilo cómo probar APIs con Postman.

¿Qué cuantificación deberías elegir?

Gemma 4 12B se adapta a diferentes máquinas dependiendo de cuán agresivamente esté comprimido:

Compilación Memoria necesaria Compensación
Precisión completa ~16GB Mejor calidad
8 bits ~14GB Calidad casi completa
4 bits (Q4_K_M) ~8GB Ligera caída de calidad, funciona ampliamente

Ollama por defecto usa la compilación de 4 bits, por eso funciona en una GPU de 8 GB o un MacBook de 16 GB. Si tienes espacio, la compilación de 8 bits te da un aumento de calidad por unos pocos gigabytes extra.

¿Qué método gratuito deberías elegir?

Un árbol de decisión rápido:

La mayoría de los desarrolladores optan por Ollama para el uso diario y mantienen Transformers para el trabajo más pesado.

Consejos para sacar el máximo partido a Gemma local gratuita

Preguntas Frecuentes

¿Es Gemma 4 12B realmente gratis? Sí. Es de pesos abiertos con licencia Apache 2.0, de descarga y ejecución gratuitas, incluso comercialmente. Solo pagas por el hardware o la nube donde lo ejecutas.

¿Necesito una GPU? No, pero ayuda. La compilación de 4 bits se ejecuta en una GPU de 8 GB o un Mac con memoria unificada de 16 GB. Solo con CPU, funciona pero lentamente.

¿Puedo usar Gemma 4 12B en Google AI Studio? Actualmente no. AI Studio aloja los modelos 31B y 26B para chat gratuito en el navegador. El 12B está diseñado para uso local y en dispositivos, por lo que lo ejecutas tú mismo con los métodos anteriores.

¿La API local necesita una clave API? No. Ollama y llama.cpp sirven el modelo en localhost sin clave. Si una herramienta requiere un campo de clave, pon cualquier cadena de marcador de posición; el servidor local lo ignorará.

¿Puedo llamarlo desde mi código existente de OpenAI? Sí. Tanto Ollama como llama.cpp exponen endpoints compatibles con OpenAI. Apunta tu URL base a http://localhost:11434/v1 (Ollama) o http://localhost:8080/v1 (llama.cpp) y mantén tu código.

¿Cómo ejecuto las funciones de imagen y audio? Usa Transformers, LM Studio o las aplicaciones de AI Edge, que admiten entrada multimodal. Añade contenido de imagen antes de tu prompt de texto y contenido de audio después.

¿Cuál es más rápido, Ollama o llama.cpp? Utilizan el mismo motor subyacente. llama.cpp tiene menos sobrecarga y más banderas de ajuste; Ollama es más fácil de configurar. Para la mayoría de la gente, la diferencia es pequeña.

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs