¿Qué es Gemma 4 12B?

Gemma 4 12B explicado: el modelo abierto de Google de junio de 2026 con audio nativo, arquitectura multimodal sin codificador, contexto de 256K, Apache 2.0, se ejecuta en un portátil de 16 GB.

Ashley Innocent

Ashley Innocent

4 June 2026

¿Qué es Gemma 4 12B?

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

Google lanzó Gemma 4 12B el 3 de junio de 2026. Es un modelo de código abierto con 11.95 mil millones de parámetros que lee texto, imágenes, audio y video, y cabe en una laptop con 16 GB de memoria. El detalle principal: es el primer modelo de tamaño mediano con entrada de audio nativa, y lo hace sin un codificador de visión o audio separado.

Esa última parte es lo que lo hace diferente. La mayoría de los modelos multimodales atornillan un codificador de visión y un codificador de audio a un modelo de lenguaje. Gemma 4 12B elimina ambos y alimenta parches de imágenes y formas de onda de audio directamente al modelo. Se obtiene un único archivo de 12B que maneja cuatro tipos de entrada, se ejecuta sin conexión y se distribuye bajo una licencia Apache 2.0 que se puede usar comercialmente.

button

Aquí te mostramos qué es el modelo, dónde se sitúa en la familia Gemma 4 y qué puedes construir con él. Si quieres ejecutarlo hoy, salta a la guía complementaria sobre cómo usar Gemma 4 12B gratis.

Gemma 4 12B de un vistazo

Especificación Valor
Lanzado 3 de junio de 2026
Parámetros 11.95B (denso)
Entradas Texto, imagen, audio, video
Salida Texto
Ventana de contexto 256K tokens
Arquitectura Multimodal unificada sin codificador
Licencia Apache 2.0
Se ejecuta en 16 GB de VRAM o memoria unificada (aprox. 8 GB a 4 bits)
Variantes google/gemma-4-12B (base), google/gemma-4-12B-it (ajustado para instrucciones)

La respuesta corta

Gemma 4 12B es un modelo abierto denso de Google DeepMind con 12 mil millones de parámetros que toma texto, imágenes, audio y video como entrada y devuelve texto. Está ajustado para ejecutarse localmente en hardware de consumo, con una ventana de contexto de 256K tokens, llamada de herramientas nativa y un modo de razonamiento paso a paso opcional.

Se encuentra en el medio de la línea Gemma 4. Google lo describe como el puente entre el modelo E4B, amigable con dispositivos de borde, y el modelo más grande Mixture-of-Experts de 26B, con una calidad que se acerca al 26B en varios puntos de referencia con menos de la mitad del consumo de memoria.

Dónde encaja el 12B en la familia Gemma 4

Gemma 4 no se lanzó de una sola vez. Los modelos E2B, E4B, 26B y 31B llegaron el 31 de marzo de 2026. El 12B es el miembro más nuevo, agregado el 3 de junio. Aquí está la línea completa:

Modelo Tamaño Contexto Notas
Gemma 4 E2B 2.3B efectivos (5.1B brutos) 128K En dispositivo, entrada de audio
Gemma 4 E4B 4.5B efectivos (8B brutos) 128K Compacto, entrada de audio
Gemma 4 12B 11.95B denso 256K Sin codificador, entrada de audio
Gemma 4 26B A4B 4B activo / 26B total (MoE) 256K Mezcla de expertos
Gemma 4 31B 31B denso 256K Rendimiento de vanguardia

El 12B es el único modelo de la familia construido con el diseño sin codificador. Los demás mantienen un codificador de visión tradicional (y un codificador de audio conformer en los dos más pequeños). Esto convierte al 12B en la demostración más clara de hacia dónde Google está llevando la IA multimodal en dispositivos.

Para tener contexto sobre cómo se comparan con otros modelos abiertos, consulta nuestra comparación de MiniMax M3, DeepSeek V4 y Qwen 3.7 y la más amplia guerra de precios de código abierto.

Qué significa realmente "sin codificador"

Los modelos multimodales estándar funcionan en dos etapas. Un codificador de visión convierte una imagen en incrustaciones, un codificador de audio convierte el sonido en incrustaciones, y luego un proyector mapea esas incrustaciones al espacio del modelo de lenguaje. Eso son tres componentes para cargar, ajustar y mantener en memoria.

Gemma 4 12B elimina los codificadores. Según la descripción de Google:

Las entradas de visión y audio fluyen directamente hacia la estructura del modelo de lenguaje. Un modelo, un conjunto de pesos, cada modalidad tratada como tokens.

Dos opciones de arquitectura más lo mantienen eficiente en hardware pequeño:

Google también incluye un borrador de Predicción Multi-Token (MTP) para decodificación especulativa, que puede acelerar la inferencia de extremo a extremo hasta aproximadamente 3 veces sin cambios en la calidad de la salida.

Audio nativo y multimodalidad completa

Muchos modelos abiertos leen imágenes. Gemma 4 12B es el primer modelo de tamaño mediano que toma audio de forma nativa, en el mismo modelo que maneja texto y visión. Esto abre una clase diferente de trabajo:

El orden de las entradas importa cuando se mezclan modalidades. La plantilla de chat espera el contenido de la imagen antes del prompt de texto y el audio después. El modelo devuelve texto en todos los casos.

Cómo se desempeña Gemma 4 12B

Estas son las puntuaciones publicadas para el gemma-4-12B-it ajustado para instrucciones, de la tarjeta del modelo de Hugging Face:

Benchmark Gemma 4 12B-it
MMLU Pro (razonamiento) 77.2%
AIME 2026 (matemáticas, sin herramientas) 77.5%
GPQA Diamond (ciencia) 78.8%
LiveCodeBench v6 (codificación) 72.0%
Codeforces (ELO) 1659
MMMU Pro (visión) 69.1%
MATH-Visión 79.7%
MRCR v2, 128K, 8-aguja (contexto largo) 43.4%

Para contextualizarlo dentro de la familia, aquí se muestra cómo el 12B se posiciona entre sus vecinos en algunas pruebas destacadas:

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

El patrón es claro. El 12B se sitúa muy por encima del E4B de clase 4B y al alcance del 26B MoE, que es la oferta que Google está presentando: la mayor parte de la calidad del modelo más grande, en una máquina que ya posees.

Novedades frente a Gemma 3

Si usaste Gemma 3, destacan cuatro cosas:

  1. Audio nativo. Gemma 3 era texto y visión. El 12B añade sonido y video-con-audio en el modelo base.
  2. El diseño sin codificador. Sin codificador de visión o audio "atornillado" para cargar.
  3. Contexto de 256K. Cuatro veces más margen para documentos largos, transcripciones y código de varios archivos.
  4. Apache 2.0. Las versiones anteriores de Gemma utilizaban una licencia Gemma personalizada con restricciones de uso. Gemma 4 pasa a la licencia estándar Apache 2.0, que es más sencilla para uso comercial y redistribución.

Qué puedes construir con él

El 12B está diseñado para trabajos que se ejecutan en el dispositivo, no en la nube:

Debido a que expone una interfaz de chat estándar a través de ejecutores como Ollama y llama.cpp, puedes apuntar herramientas existentes a él. Cuando conectas un modelo local a una aplicación, aún quieres confirmar la forma de la solicitud y la respuesta. Una herramienta como Apidog te permite guardar el endpoint local, enviar prompts de ejemplo y verificar el JSON antes de construir sobre él. Puedes descargar Apidog gratis y apuntarlo al servidor local en un minuto. Más sobre esto en la guía de uso gratuito.

Licencia y qué te ofrece Apache 2.0

Gemma 4 12B se lanza bajo Apache 2.0. En términos sencillos:

Esto representa un cambio real respecto a la licencia Gemma anterior, que incluía los propios términos de uso de Google. Apache 2.0 es la misma licencia permisiva detrás de una larga lista de infraestructura abierta, por lo que la revisión legal tiende a ser rápida.

Hardware que necesitas

El objetivo de Google es una máquina de 16 GB, VRAM o memoria unificada estilo Apple. La cuantificación lo reduce:

Eso pone el 12B al alcance de una GPU de gaming convencional, un MacBook de 16 GB o una estación de trabajo de gama media. Los modelos E2B y E4B más pequeños bajan aún más si tu hardware es limitado.

Limitaciones que vale la pena conocer

Google es directo sobre las compensaciones en la tarjeta del modelo:

Estas son las advertencias normales para un modelo abierto de 12B. No reemplazará un modelo de vanguardia en la nube para el razonamiento más difícil, pero ese no es el objetivo. El objetivo es una IA multimodal capaz que se ejecute donde tus datos ya residen.

Preguntas frecuentes

¿Es Gemma 4 12B gratis? Sí. Los pesos son de código abierto bajo Apache 2.0 y se pueden descargar gratis desde Hugging Face y Kaggle. Solo pagas por el hardware o la nube donde lo ejecutes. Consulta cómo usar Gemma 4 12B gratis.

¿Puede Gemma 4 12B realmente entender el audio? Sí. Toma audio crudo como entrada y puede transcribir voz, identificar oradores y responder preguntas sobre sonido. Es el primer modelo de tamaño mediano en hacer esto de forma nativa en lugar de a través de un modelo de voz separado.

¿Cuál es la diferencia entre gemma-4-12B y gemma-4-12B-it? El modelo base solo está preentrenado. La versión -it está ajustada para instrucciones, chat, uso de herramientas y seguir indicaciones. La mayoría de la gente querrá la versión -it.

¿En qué se diferencia el 12B de los 26B y 31B? El 12B es denso y sin codificador, ajustado para máquinas de 16 GB. El 26B es un modelo de mezcla de expertos (4B activo, 26B total), y el 31B es un modelo denso más grande para una calidad de vanguardia. Ambos modelos más grandes obtienen puntuaciones más altas en los benchmarks, pero necesitan más memoria.

¿Gemma 4 12B es compatible con la llamada a herramientas? Sí. Admite llamadas a funciones de texto y multimodales, además de un modo de pensamiento opcional para el razonamiento paso a paso, lo que lo hace útil para flujos de trabajo agentivos.

¿Cómo se compara con Gemini 3.5? Son para trabajos diferentes. Gemini 3.5 es el modelo de vanguardia alojado de Google; consulta qué es Gemini 3.5. Gemma 4 12B es un modelo abierto que ejecutas tú mismo. Intercambias algo de calidad máxima por privacidad, uso sin conexión y coste cero por token.

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs

¿Qué es Gemma 4 12B?