Cómo Ejecutar Gemma 4 como Backend de API

Ashley Innocent

Ashley Innocent

3 April 2026

Cómo Ejecutar Gemma 4 como Backend de API

En resumen: Google lanzó Gemma 4 en abril de 2026, una familia de cuatro modelos abiertos licenciados bajo Apache 2.0 que supera a modelos 20 veces su tamaño en benchmarks estándar. Puedes llamar a la API de Gemma 4 a través de Google AI Studio, Vertex AI, o ejecutarla localmente con Ollama y vLLM. Combínala con Smart Mock de Apidog para generar automáticamente respuestas de API realistas a partir de tus esquemas OpenAPI sin escribir una sola regla de mock.

Introducción

La mayoría de los modelos de IA de código abierto te obligan a elegir: capacidad pura o desplegabilidad. O bien obtienes un modelo demasiado grande para ejecutar en tu portátil, o un modelo pequeño que no puede manejar un razonamiento de múltiples pasos. Gemma 4 rompe ese compromiso.

Gemma 4 es la familia de modelos abiertos más capaz de Google DeepMind hasta la fecha. El modelo Dense de 31B ocupa el puesto #3 entre todos los modelos abiertos en la clasificación de Arena AI, superando a competidores 20 veces su tamaño. La Mezcla de Expertos (MoE) de 26B ocupa el sexto puesto. Ambos se ejecutan en una única GPU de 80 GB. Los modelos ligeros E2B y E4B se ejecutan completamente offline en teléfonos y dispositivos de borde.

Para los desarrolladores de API, esto importa más de lo que parece. Gemma 4 admite de forma nativa la llamada a funciones, la salida JSON estructurada y ventanas de contexto de 256K. Eso la convierte en una opción práctica para construir herramientas de API impulsadas por IA, desde la generación de datos de prueba hasta la creación de mocks y el análisis de respuestas de API.

💡
Si estás construyendo con Gemma 4 y necesitas validar esas respuestas generadas por IA contra tu especificación OpenAPI, el motor Smart Mock de Apidog puede generar automáticamente respuestas mock conformes al esquema a partir de tu definición de API. No necesitas escribir reglas de mock individuales; Smart Mock lee tu esquema y produce datos contextualmente apropiados al instante. Descarga Apidog gratis y conéctalo a tu flujo de trabajo de API de Gemma 4.
button

¿Qué es Gemma 4 y qué hay de nuevo?

Gemma 4 es la cuarta generación de modelos de lenguaje abiertos de Google DeepMind. El nombre "Gemma" proviene de la palabra latina que significa "piedra preciosa". La serie comenzó a principios de 2024, y desde su lanzamiento, los desarrolladores han descargado modelos Gemma más de 400 millones de veces. La comunidad ha construido más de 100.000 variantes, formando lo que Google llama el "Gemmaverse".

Gráfico mostrando la clasificación de modelos de lenguaje en el Gemmaverse, destacando a Gemma 4

Gemma 4 se lanza bajo una licencia Apache 2.0, un cambio significativo con respecto a las generaciones anteriores que utilizaban una política de uso personalizada. Esto significa que puedes usar, modificar y distribuir Gemma 4 comercialmente sin restricciones. Es un cambio significativo para empresas y startups que necesitan control total sobre su infraestructura de IA.

La mejora principal en Gemma 4 es lo que Google llama "inteligencia por parámetro". El modelo Dense de 31B ofrece capacidades de nivel de vanguardia a una fracción del coste computacional de modelos como GPT-4 o Claude 3 Sonnet. En la clasificación de texto de Arena AI (a abril de 2026), Gemma 4 31B supera a modelos con más de 600 mil millones de parámetros.

Gráfico de clasificación de Arena AI mostrando el rendimiento de Gemma 4 en comparación con otros modelos

Aquí está lo que es realmente nuevo en comparación con Gemma 3:

Entrada multimodal nativa. Los cuatro modelos Gemma 4 procesan imágenes y video de forma nativa. Los modelos de borde E2B y E4B añaden entrada de audio nativa para el reconocimiento de voz. Esto no formaba parte de la capacidad base de Gemma 3.

Ventanas de contexto más largas. Los modelos E2B y E4B admiten 128K tokens. Los modelos de 26B y 31B se extienden a 256K tokens. Eso es suficiente para pasar un repositorio de código completo en un solo prompt.

Soporte de flujos de trabajo de agentes. Gemma 4 incluye llamada a funciones nativa, modo de salida JSON estructurado e instrucciones del sistema. Estas tres características juntas hacen que sea práctico construir agentes que llaman a APIs externas, analizan respuestas y encadenan acciones.

Razonamiento avanzado. El modelo de 31B muestra mejoras significativas en los benchmarks de matemáticas y seguimiento de instrucciones de múltiples pasos en comparación con Gemma 3. Esto es importante para la generación de pruebas de API, donde necesitas que el modelo entienda las relaciones entre endpoints y esquemas de datos.

Soporte para más de 140 idiomas. Gemma 4 fue entrenado de forma nativa en más de 140 idiomas, no adaptado del inglés. Esto lo hace utilizable para productos de API globales de forma inmediata.

Licencia Apache 2.0. Como se mencionó, esto elimina la ambigüedad legal para el uso comercial. Eres dueño de tus modelos, tus datos y tus despliegues.

Variantes y capacidades del modelo Gemma 4

Google lanzó Gemma 4 en cuatro tamaños, cada uno dirigido a un nivel de hardware específico:

Modelo Parámetros Parámetros activos (inferencia) Contexto Ideal para
E2B 2B efectivo ~2B 128K Móvil, IoT, borde sin conexión
E4B 4B efectivo ~4B 128K Teléfonos, Raspberry Pi, Jetson Orin
26B MoE 26B total ~3.8B activos 256K Tareas de servidor sensibles a la latencia
31B Dense 31B 31B 256K Máxima calidad, investigación, ajuste fino

Los modelos E2B y E4B utilizan una arquitectura de Mezcla de Expertos que activa solo una fracción del total de parámetros por token. Esto conserva la duración de la batería y la RAM en dispositivos con recursos limitados. Google los construyó en colaboración con Qualcomm y MediaTek, y se ejecutan completamente offline en Android a través de la vista previa para desarrolladores de AICore.

El modelo MoE de 26B activa solo 3.8B parámetros durante la inferencia a pesar de tener 26B parámetros totales. Es la opción más rápida para el despliegue del lado del servidor donde se busca baja latencia sin sacrificar mucha calidad.

El modelo Dense de 31B es el líder en calidad. Es el que elegirías para el ajuste fino en tareas específicas del dominio, o para cualquier caso de uso donde la calidad de la salida importa más que la velocidad. Las cuatro variantes se envían en formas ajustadas por instrucciones (IT) y base.

Para los casos de uso de API, el MoE de 26B logra el mejor equilibrio entre velocidad y calidad. El Dense de 31B es la elección correcta cuando necesitas una salida JSON estructurada para respuestas de API complejas o cuando estás generando escenarios de prueba con lógica de múltiples pasos.

Todos los modelos admiten la llamada a funciones y el modo de salida JSON, que son las dos capacidades que más usarás al construir herramientas de API con Gemma 4.

Configuración de la API de Gemma 4: paso a paso

Tienes tres vías principales para llamar a Gemma 4: Google AI Studio (el más rápido), Vertex AI (empresarial) o despliegue local con Ollama o vLLM. A continuación, te mostramos cómo configurar cada uno.

Opción 1: Google AI Studio (recomendado para prototipos)

Ve a Google AI Studio y crea una cuenta gratuita. Desde allí, genera una clave API.

Instala el SDK de IA Generativa de Google:

pip install google-genai

Haz tu primera llamada:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel("gemma-4-31b-it")

response = model.generate_content(
    "Generate a JSON object for a user account with id, email, and created_at fields."
)

print(response.text)

Para la salida JSON estructurada, usa el parámetro response_mime_type:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

prompt = """
Generate 3 sample user objects for an e-commerce API. 
Each user should have: id (integer), email (string), username (string), 
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""

response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))

Opción 2: Despliegue local con Ollama

Ollama te permite ejecutar Gemma 4 completamente en tu máquina. Instala Ollama desde ollama.com, luego descarga el modelo:

ollama pull gemma4

Ejecuta el servidor del modelo:

ollama serve

Llama con el formato de API compatible con OpenAI:

import requests
import json

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "gemma4",
        "messages": [
            {
                "role": "user",
                "content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
            }
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

Opción 3: Llamada a funciones para orquestación de API

Gemma 4 admite la llamada a funciones nativa. Esto te permite definir herramientas que el modelo puede llamar durante una conversación:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# Define a tool that Gemma can call
tools = [
    {
        "function_declarations": [
            {
                "name": "get_api_schema",
                "description": "Retrieve the OpenAPI schema for a given endpoint path",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "endpoint_path": {
                            "type": "string",
                            "description": "The API endpoint path, e.g. /users/{id}"
                        },
                        "method": {
                            "type": "string",
                            "enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
                        }
                    },
                    "required": ["endpoint_path", "method"]
                }
            }
        ]
    }
]

model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)

response = model.generate_content(
    "I need to test the GET /users/{id} endpoint. What schema should the response follow?"
)

# Check if the model wants to call a function
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"Model called function: {fc.name}")
    print(f"With args: {dict(fc.args)}")

Este patrón de llamada a funciones es lo que hace que Gemma 4 sea útil para construir pipelines de prueba de API con agentes.

Construyendo mocks de API impulsados por IA con Gemma 4

Una de las aplicaciones más prácticas de Gemma 4 para los desarrolladores de API es la generación de datos mock. Cuando estás construyendo un frontend antes de que exista el backend, o probando casos extremos difíciles de activar en producción, necesitas respuestas mock realistas.

Así es como se usa Gemma 4 para generar datos mock a partir de un esquema OpenAPI:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

# Your OpenAPI schema for the response
schema = {
    "type": "object",
    "properties": {
        "id": {"type": "integer"},
        "order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
        "status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
        "total": {"type": "number", "minimum": 0},
        "items": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "product_id": {"type": "integer"},
                    "quantity": {"type": "integer", "minimum": 1},
                    "unit_price": {"type": "number"}
                }
            }
        },
        "created_at": {"type": "string", "format": "date-time"}
    }
}

prompt = f"""
Generate 5 realistic mock responses for an order management API.
Each response must conform exactly to this JSON Schema:
{json.dumps(schema, indent=2)}

Make the data realistic: use realistic prices, product IDs, and varied statuses.
Return as a JSON array of 5 order objects.
"""

response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))

La clave aquí es que Gemma 4 entiende las restricciones del Esquema JSON. Respeta los valores de enumeración, los patrones de cadena y los rangos numéricos. Obtienes datos mock que realmente coinciden con tu contrato de API, no cadenas aleatorias.

Puedes extender este patrón para generar datos mock para cualquier endpoint de API. Introduce el esquema de respuesta de tu especificación OpenAPI, y Gemma 4 producirá datos de prueba conformes al esquema.

Para un mocking más avanzado, combina Gemma 4 con lógica de respuesta condicional. Si una solicitud contiene un ID de usuario específico, devuelve una respuesta de error. De lo contrario, devuelve datos de éxito. Aquí es donde la ventana de contexto de 256K de Gemma 4 ayuda: puedes incluir tu especificación OpenAPI completa en el prompt y pedirle que genere respuestas mock para múltiples endpoints a la vez.

Un flujo de trabajo práctico: exporta tu colección de Apidog como una especificación OpenAPI, pégala en un prompt y pide a Gemma 4 que genere 10 casos de prueba realistas por endpoint. Obtendrás un conjunto de datos mock completo en segundos en lugar de horas.

Probando las respuestas de la API de Gemma 4 con Apidog

Una vez que Gemma 4 está generando datos o actuando como parte de tu pipeline de API, necesitas verificar que las respuestas coinciden con tu esquema. Aquí es donde entra la función de Escenarios de Prueba de Apidog.

Captura de pantalla de la interfaz de Apidog mostrando la validación de respuestas de API

Aquí está el flujo de trabajo específico:

Paso 1: Importa tu endpoint de API de Gemma 4 en Apidog.

En Apidog, ve a tu proyecto y crea un nuevo endpoint. Establece la URL a cualquier API wrapper que hayas construido alrededor de Gemma 4 (o apunta directamente al endpoint de Google AI Studio). Define el esquema de respuesta esperado en la interfaz de Apidog.

Paso 2: Usa Smart Mock para prototipar respuestas esperadas.

Antes de ejecutar pruebas en vivo contra Gemma 4, usa Smart Mock de Apidog para generar respuestas base a partir de tu esquema. Smart Mock lee tu especificación de respuesta y produce datos realistas basados en nombres y tipos de propiedades. Un campo llamado email obtiene automáticamente una dirección de correo electrónico válida. Un campo llamado created_at obtiene una marca de tiempo formateada correctamente.

Captura de pantalla de la configuración de Smart Mock de Apidog

Smart Mock utiliza tres capas de prioridad: primero los valores de campo mock personalizados, luego la coincidencia de nombres de propiedades (donde infiere el tipo de datos a partir de los nombres de campo), luego los valores predeterminados del Esquema JSON. Esta jerarquía significa que puedes anular campos específicos mientras dejas que el motor maneje el resto.

Paso 3: Crea un Escenario de Prueba para tu pipeline de Gemma 4.

Ve al módulo de Pruebas en Apidog y crea un nuevo Escenario de Prueba. Añade tu llamada a la API de Gemma 4 como primer paso. Luego, añade pasos de aserción para validar la respuesta.

El modo de orquestación de Escenarios de Prueba de Apidog te permite encadenar múltiples solicitudes. Para una prueba de integración de la API de Gemma 4, tu escenario podría verse así:

  1. Llama a tu endpoint de autenticación para obtener un token
  2. Envía un prompt a Gemma 4 con el token de autenticación
  3. Extrae el JSON generado del cuerpo de la respuesta
  4. Valida el JSON extraído contra tus aserciones de esquema
  5. Pasa los datos validados a un endpoint POST posterior

Paso 4: Configura las aserciones.

En el paso de aserción, puedes verificar códigos de estado, encabezados de respuesta y campos JSON. Para las respuestas de Gemma 4, normalmente afirmarías que el campo candidates[0].content.parts[0].text existe y que su contenido parseado coincide con tu esquema esperado.

Usa el procesador de Extracción de Variables de Apidog para extraer la salida de Gemma 4 a una variable. Luego usa esa variable en pasos de solicitud posteriores. Esto te permite encadenar datos generados por Gemma 4 a través de un flujo de trabajo de prueba de múltiples pasos.

Paso 5: Ejecuta con pruebas basadas en datos.

Apidog admite archivos de datos de prueba CSV y JSON. Puedes definir 50 variaciones de prompt diferentes en un CSV, importarlas a tu Escenario de Prueba y ejecutar las 50 variaciones con un solo clic. Así es como pruebas que tu integración de Gemma 4 maneja correctamente diversas entradas.

El flujo de trabajo completo, desde la definición del esquema hasta la ejecución de la prueba, tarda unos 15 minutos en configurarse. Después de eso, puedes ejecutarlo en cada commit a través de Apidog CLI en tu pipeline CI/CD.

Casos de uso reales

Generación de datos de prueba de API. Los equipos de QA dedican mucho tiempo a escribir accesorios de prueba. Con el modo de salida JSON de Gemma 4 y tu esquema OpenAPI, puedes generar cientos de registros de prueba realistas en minutos. Introduce el esquema, especifica los casos extremos que quieres cubrir y deja que el modelo produzca los datos.

Mocking de API inteligente. Los mocks tradicionales devuelven datos estáticos. Con Gemma 4 detrás de tu servidor de mocks, puedes devolver respuestas contextualmente apropiadas. Una simulación para una API de búsqueda de productos podría devolver diferentes conjuntos de productos basados en la consulta de búsqueda, incluso sin codificar cada caso.

Generación de documentación de API. La ventana de contexto de 256K de Gemma 4 te permite alimentar tu codebase completo a un prompt. Pídele que genere documentación OpenAPI para endpoints no documentados. El soporte de llamada a funciones significa que puedes construir un agente que lea tus archivos de rutas y escriba automáticamente las especificaciones de la API.

Validación del esquema de respuesta. Al consumir APIs de terceros, quieres validar que las respuestas coinciden con tus expectativas. Usa Gemma 4 para analizar respuestas de API e identificar violaciones de esquema. Puede detectar campos faltantes, tipos incorrectos y enumeraciones inconsistentes mejor que un simple validador de Esquema JSON.

Escritura automatizada de pruebas de regresión. Dale a Gemma 4 tu especificación de API y una lista de informes de errores. Pídele que escriba casos de prueba que habrían detectado cada error. Debido a que entiende las relaciones del esquema, puede escribir pruebas no triviales que verifiquen transiciones de estado y dependencias de campo.

Gemma 4 vs. otros modelos abiertos para uso de API

¿Cómo se compara Gemma 4 con otros modelos abiertos cuando tu objetivo es construir herramientas de API?

Modelo Parámetros Contexto Salida JSON Llamada a funciones Licencia
Gemma 4 31B 31B 256K Nativo Nativo Apache 2.0
Gemma 4 26B MoE 26B (3.8B activos) 256K Nativo Nativo Apache 2.0
Llama 3.3 70B 70B 128K Vía prompt Vía prompt Comunidad Llama
Mistral 7B 7B 32K Vía prompt Limitado Apache 2.0
Qwen 2.5 72B 72B 128K Nativo Nativo Apache 2.0

Para los casos de uso de API, las características críticas son el modo de salida JSON nativo, el soporte de llamada a funciones y la longitud del contexto. Gemma 4 31B y 26B tienen las tres.

Llama 3.3 70B es el principal competidor. Es un modelo fuerte, pero requiere el doble de cómputo que Gemma 4 31B para ejecutarse. En la clasificación de Arena AI, Gemma 4 31B se sitúa por encima de Llama 3.3 70B a pesar de tener la mitad del tamaño. Si estás ejecutando inferencia a escala, esa diferencia en los requisitos de GPU se traduce directamente en el coste de infraestructura.

Mistral 7B es mucho más pequeño y rápido, pero su ventana de contexto de 32K limita su utilidad para especificaciones de API grandes. También carece de modo JSON nativo y de llamada a funciones fiable.

Qwen 2.5 72B es una alternativa capaz, particularmente para aplicaciones multilingües. Las características de sus herramientas de API son comparables a las de Gemma 4, pero requiere significativamente más hardware.

La licencia Apache 2.0 en Gemma 4 es una ventaja subestimada. Llama utiliza la Licencia de la Comunidad Llama, que tiene restricciones sobre ciertos usos comerciales. Si estás construyendo un producto sobre un modelo abierto, la claridad legal de Apache 2.0 importa.

Para la mayoría de los casos de uso de herramientas de API: comienza con Gemma 4 26B MoE para tareas sensibles a la latencia, o Gemma 4 31B para la salida de la más alta calidad.

Conclusión

Gemma 4 ofrece a los desarrolladores una alternativa abierta creíble a las APIs de IA propietarias para construir herramientas de API. La licencia Apache 2.0 elimina la fricción legal que hacía que los modelos abiertos anteriores fueran complicados de comercializar. La llamada a funciones nativa y el modo de salida JSON hacen que sea práctico integrarse en flujos de trabajo de API sin una ingeniería de prompt exhaustiva.

Los cuatro tamaños de modelo cubren todos los niveles de hardware, desde teléfonos hasta estaciones de trabajo. El modelo MoE de 26B es la opción destacada para la mayoría de los casos de uso de desarrollo de API: ofrece una calidad casi de vanguardia a una fracción del coste de inferencia.

Combina Gemma 4 con Apidog para cerrar el ciclo entre los datos generados por IA y la validación de API. Usa Gemma 4 para generar datos de prueba y respuestas mock. Usa Smart Mock de Apidog para prototipar esquemas y sus Escenarios de Prueba para validar que la salida de la IA cumple con tu contrato de API. Juntos forman un flujo de trabajo práctico para construir y probar APIs impulsadas por IA.

button

FAQ

¿Qué es Gemma 4?Gemma 4 es la última familia de modelos de lenguaje abiertos de Google DeepMind, lanzada en abril de 2026. Viene en cuatro tamaños (E2B, E4B, 26B MoE, 31B Dense) y tiene licencia Apache 2.0. El modelo de 31B actualmente ocupa el tercer lugar entre todos los modelos abiertos en la clasificación de texto de Arena AI.

¿Es gratis usar Gemma 4?Los pesos del modelo son gratuitos para descargar y usar bajo la licencia Apache 2.0. Pagas por el cómputo cuando lo ejecutas tú mismo. Si usas Google AI Studio, hay una capa gratuita con límites de tasa. Vertex AI cobra tarifas estándar de cómputo de Google Cloud.

¿Puede Gemma 4 generar JSON estructurado?Sí. Gemma 4 admite un parámetro nativo response_mime_type: "application/json" a través del SDK de IA Generativa de Google. Esto obliga al modelo a devolver JSON válido en todo momento, lo cual es esencial para integraciones de API donde se está analizando la salida programáticamente.

¿Cómo se compara Gemma 4 con GPT-4o para el desarrollo de API?GPT-4o es un modelo propietario sin opción de despliegue local y con mayores costos de API. Gemma 4 31B es gratuito para desplegar localmente, y sus puntuaciones de benchmark son competitivas con GPT-4o en tareas de razonamiento. Para equipos que necesitan privacidad de datos o control de costos, Gemma 4 vale la pena evaluar seriamente.

¿Puedo ajustar Gemma 4 con mis propios datos de API?Sí. Google admite el ajuste fino de Gemma 4 a través de Google AI Studio, Vertex AI y herramientas de terceros como Hugging Face TRL. El ajuste fino en esquemas de API específicos del dominio y patrones de respuesta puede mejorar significativamente la calidad de la salida para casos de uso especializados.

¿Qué hardware necesito para ejecutar Gemma 4 localmente?Los modelos de 31B y 26B caben en una única NVIDIA H100 de 80 GB en bfloat16. Las versiones cuantificadas se ejecutan en GPUs de consumo con 16-24GB de VRAM. Los modelos E4B y E2B se ejecutan en teléfonos y dispositivos de borde, incluyendo Raspberry Pi y NVIDIA Jetson.

¿Gemma 4 soporta la llamada a funciones?Sí, todos los modelos Gemma 4 soportan la llamada a funciones nativa. Defines herramientas como objetos JSON con un nombre, descripción y esquema de parámetros. El modelo decide cuándo llamar a una herramienta y pasa argumentos estructurados sobre los que puedes actuar en el código.

¿Cómo pruebo las respuestas de la API de Gemma 4 automáticamente?Usa los Escenarios de Prueba de Apidog para construir un flujo de trabajo de prueba encadenado. Importa tu endpoint de API de Gemma 4, configura los pasos de la solicitud y añade aserciones para validar la estructura de la respuesta. Puedes ejecutar el escenario localmente, a través de la CLI, o automáticamente en tu pipeline CI/CD en cada push de código.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs