Google lanzó Gemma 4 12B el 3 de junio de 2026. Es un modelo de código abierto con 11.95 mil millones de parámetros que lee texto, imágenes, audio y video, y cabe en una laptop con 16 GB de memoria. El detalle principal: es el primer modelo de tamaño mediano con entrada de audio nativa, y lo hace sin un codificador de visión o audio separado.
Esa última parte es lo que lo hace diferente. La mayoría de los modelos multimodales atornillan un codificador de visión y un codificador de audio a un modelo de lenguaje. Gemma 4 12B elimina ambos y alimenta parches de imágenes y formas de onda de audio directamente al modelo. Se obtiene un único archivo de 12B que maneja cuatro tipos de entrada, se ejecuta sin conexión y se distribuye bajo una licencia Apache 2.0 que se puede usar comercialmente.
Aquí te mostramos qué es el modelo, dónde se sitúa en la familia Gemma 4 y qué puedes construir con él. Si quieres ejecutarlo hoy, salta a la guía complementaria sobre cómo usar Gemma 4 12B gratis.
Gemma 4 12B de un vistazo
| Especificación | Valor |
|---|---|
| Lanzado | 3 de junio de 2026 |
| Parámetros | 11.95B (denso) |
| Entradas | Texto, imagen, audio, video |
| Salida | Texto |
| Ventana de contexto | 256K tokens |
| Arquitectura | Multimodal unificada sin codificador |
| Licencia | Apache 2.0 |
| Se ejecuta en | 16 GB de VRAM o memoria unificada (aprox. 8 GB a 4 bits) |
| Variantes | google/gemma-4-12B (base), google/gemma-4-12B-it (ajustado para instrucciones) |
La respuesta corta
Gemma 4 12B es un modelo abierto denso de Google DeepMind con 12 mil millones de parámetros que toma texto, imágenes, audio y video como entrada y devuelve texto. Está ajustado para ejecutarse localmente en hardware de consumo, con una ventana de contexto de 256K tokens, llamada de herramientas nativa y un modo de razonamiento paso a paso opcional.

Se encuentra en el medio de la línea Gemma 4. Google lo describe como el puente entre el modelo E4B, amigable con dispositivos de borde, y el modelo más grande Mixture-of-Experts de 26B, con una calidad que se acerca al 26B en varios puntos de referencia con menos de la mitad del consumo de memoria.
Dónde encaja el 12B en la familia Gemma 4
Gemma 4 no se lanzó de una sola vez. Los modelos E2B, E4B, 26B y 31B llegaron el 31 de marzo de 2026. El 12B es el miembro más nuevo, agregado el 3 de junio. Aquí está la línea completa:
| Modelo | Tamaño | Contexto | Notas |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efectivos (5.1B brutos) | 128K | En dispositivo, entrada de audio |
| Gemma 4 E4B | 4.5B efectivos (8B brutos) | 128K | Compacto, entrada de audio |
| Gemma 4 12B | 11.95B denso | 256K | Sin codificador, entrada de audio |
| Gemma 4 26B A4B | 4B activo / 26B total (MoE) | 256K | Mezcla de expertos |
| Gemma 4 31B | 31B denso | 256K | Rendimiento de vanguardia |
El 12B es el único modelo de la familia construido con el diseño sin codificador. Los demás mantienen un codificador de visión tradicional (y un codificador de audio conformer en los dos más pequeños). Esto convierte al 12B en la demostración más clara de hacia dónde Google está llevando la IA multimodal en dispositivos.
Para tener contexto sobre cómo se comparan con otros modelos abiertos, consulta nuestra comparación de MiniMax M3, DeepSeek V4 y Qwen 3.7 y la más amplia guerra de precios de código abierto.
Qué significa realmente "sin codificador"
Los modelos multimodales estándar funcionan en dos etapas. Un codificador de visión convierte una imagen en incrustaciones, un codificador de audio convierte el sonido en incrustaciones, y luego un proyector mapea esas incrustaciones al espacio del modelo de lenguaje. Eso son tres componentes para cargar, ajustar y mantener en memoria.
Gemma 4 12B elimina los codificadores. Según la descripción de Google:
- Visión: un módulo de incrustación ligero (una única multiplicación de matrices más incrustaciones posicionales y normalización) proyecta los parches de imagen crudos directamente en el espacio de incrustación del modelo.
- Audio: el codificador de audio desaparece. El audio crudo se proyecta en el mismo espacio dimensional que los tokens de texto, de modo que el sonido y las palabras comparten una única vía.
Las entradas de visión y audio fluyen directamente hacia la estructura del modelo de lenguaje. Un modelo, un conjunto de pesos, cada modalidad tratada como tokens.
Dos opciones de arquitectura más lo mantienen eficiente en hardware pequeño:
- Incrustaciones por capa (PLE): cada capa del decodificador obtiene una pequeña incrustación dedicada que mezcla una búsqueda de identidad de token con una proyección consciente del contexto. Esto reduce el costo de los parámetros mientras permite que las capas se especialicen.
- Caché KV compartida: las últimas capas reutilizan los tensores clave-valor de las capas anteriores en lugar de calcular los suyos propios. Esto reduce la memoria durante ejecuciones de contexto largo y en dispositivos con poco costo de calidad.
Google también incluye un borrador de Predicción Multi-Token (MTP) para decodificación especulativa, que puede acelerar la inferencia de extremo a extremo hasta aproximadamente 3 veces sin cambios en la calidad de la salida.
Audio nativo y multimodalidad completa
Muchos modelos abiertos leen imágenes. Gemma 4 12B es el primer modelo de tamaño mediano que toma audio de forma nativa, en el mismo modelo que maneja texto y visión. Esto abre una clase diferente de trabajo:
- Reconocimiento de voz automático y transcripción
- Diarización de hablantes (quién habló cuándo)
- Preguntas y respuestas de audio sobre sonidos que no son del habla
- Comprensión de video, con audio, no solo fotogramas
- Tareas de imagen: subtitulado, detección de objetos e interfaz de usuario, razonamiento visual
El orden de las entradas importa cuando se mezclan modalidades. La plantilla de chat espera el contenido de la imagen antes del prompt de texto y el audio después. El modelo devuelve texto en todos los casos.
Cómo se desempeña Gemma 4 12B
Estas son las puntuaciones publicadas para el gemma-4-12B-it ajustado para instrucciones, de la tarjeta del modelo de Hugging Face:
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro (razonamiento) | 77.2% |
| AIME 2026 (matemáticas, sin herramientas) | 77.5% |
| GPQA Diamond (ciencia) | 78.8% |
| LiveCodeBench v6 (codificación) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (visión) | 69.1% |
| MATH-Visión | 79.7% |
| MRCR v2, 128K, 8-aguja (contexto largo) | 43.4% |
Para contextualizarlo dentro de la familia, aquí se muestra cómo el 12B se posiciona entre sus vecinos en algunas pruebas destacadas:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
El patrón es claro. El 12B se sitúa muy por encima del E4B de clase 4B y al alcance del 26B MoE, que es la oferta que Google está presentando: la mayor parte de la calidad del modelo más grande, en una máquina que ya posees.
Novedades frente a Gemma 3
Si usaste Gemma 3, destacan cuatro cosas:
- Audio nativo. Gemma 3 era texto y visión. El 12B añade sonido y video-con-audio en el modelo base.
- El diseño sin codificador. Sin codificador de visión o audio "atornillado" para cargar.
- Contexto de 256K. Cuatro veces más margen para documentos largos, transcripciones y código de varios archivos.
- Apache 2.0. Las versiones anteriores de Gemma utilizaban una licencia Gemma personalizada con restricciones de uso. Gemma 4 pasa a la licencia estándar Apache 2.0, que es más sencilla para uso comercial y redistribución.
Qué puedes construir con él
El 12B está diseñado para trabajos que se ejecutan en el dispositivo, no en la nube:
- Asistentes offline que ven tu pantalla y escuchan tu micrófono sin enviar datos externos
- Herramientas de reuniones y llamadas que transcriben, diarizan y resumen localmente
- Pipelines de documentos y medios que mezclan PDFs, capturas de pantalla y audio en un solo prompt
- Flujos de trabajo agentivos: admite llamadas a funciones y uso de herramientas, por lo que puede planificar y actuar
- Ayuda para codificar a un nivel de 72.0% en LiveCodeBench, útil para autocompletar y refactorizar localmente
Debido a que expone una interfaz de chat estándar a través de ejecutores como Ollama y llama.cpp, puedes apuntar herramientas existentes a él. Cuando conectas un modelo local a una aplicación, aún quieres confirmar la forma de la solicitud y la respuesta. Una herramienta como Apidog te permite guardar el endpoint local, enviar prompts de ejemplo y verificar el JSON antes de construir sobre él. Puedes descargar Apidog gratis y apuntarlo al servidor local en un minuto. Más sobre esto en la guía de uso gratuito.
Licencia y qué te ofrece Apache 2.0
Gemma 4 12B se lanza bajo Apache 2.0. En términos sencillos:
- Puedes usarlo comercialmente.
- Puedes modificarlo, ajustarlo y redistribuirlo.
- Puedes ejecutarlo en productos de código cerrado.
- Conservas tus resultados.
Esto representa un cambio real respecto a la licencia Gemma anterior, que incluía los propios términos de uso de Google. Apache 2.0 es la misma licencia permisiva detrás de una larga lista de infraestructura abierta, por lo que la revisión legal tiende a ser rápida.
Hardware que necesitas
El objetivo de Google es una máquina de 16 GB, VRAM o memoria unificada estilo Apple. La cuantificación lo reduce:
- Calidad total: alrededor de 16 GB
- 8 bits: aproximadamente 14 GB
- 4 bits (Q4_K_M): alrededor de 8 GB, el valor predeterminado en Ollama
Eso pone el 12B al alcance de una GPU de gaming convencional, un MacBook de 16 GB o una estación de trabajo de gama media. Los modelos E2B y E4B más pequeños bajan aún más si tu hardware es limitado.
Limitaciones que vale la pena conocer
Google es directo sobre las compensaciones en la tarjeta del modelo:
- Puede producir hechos incorrectos o desactualizados; verifica cualquier información importante.
- Puede reflejar sesgos de sus datos de entrenamiento.
- Maneja el sarcasmo, el matiz y el lenguaje figurado de forma desigual.
- El razonamiento de sentido común tiene límites, como cualquier modelo de este tamaño.
- La calidad de la salida depende de la claridad del prompt y del contexto que le des.
Estas son las advertencias normales para un modelo abierto de 12B. No reemplazará un modelo de vanguardia en la nube para el razonamiento más difícil, pero ese no es el objetivo. El objetivo es una IA multimodal capaz que se ejecute donde tus datos ya residen.
Preguntas frecuentes
¿Es Gemma 4 12B gratis? Sí. Los pesos son de código abierto bajo Apache 2.0 y se pueden descargar gratis desde Hugging Face y Kaggle. Solo pagas por el hardware o la nube donde lo ejecutes. Consulta cómo usar Gemma 4 12B gratis.
¿Puede Gemma 4 12B realmente entender el audio? Sí. Toma audio crudo como entrada y puede transcribir voz, identificar oradores y responder preguntas sobre sonido. Es el primer modelo de tamaño mediano en hacer esto de forma nativa en lugar de a través de un modelo de voz separado.
¿Cuál es la diferencia entre gemma-4-12B y gemma-4-12B-it? El modelo base solo está preentrenado. La versión -it está ajustada para instrucciones, chat, uso de herramientas y seguir indicaciones. La mayoría de la gente querrá la versión -it.
¿En qué se diferencia el 12B de los 26B y 31B? El 12B es denso y sin codificador, ajustado para máquinas de 16 GB. El 26B es un modelo de mezcla de expertos (4B activo, 26B total), y el 31B es un modelo denso más grande para una calidad de vanguardia. Ambos modelos más grandes obtienen puntuaciones más altas en los benchmarks, pero necesitan más memoria.
¿Gemma 4 12B es compatible con la llamada a herramientas? Sí. Admite llamadas a funciones de texto y multimodales, además de un modo de pensamiento opcional para el razonamiento paso a paso, lo que lo hace útil para flujos de trabajo agentivos.
¿Cómo se compara con Gemini 3.5? Son para trabajos diferentes. Gemini 3.5 es el modelo de vanguardia alojado de Google; consulta qué es Gemini 3.5. Gemma 4 12B es un modelo abierto que ejecutas tú mismo. Intercambias algo de calidad máxima por privacidad, uso sin conexión y coste cero por token.
