Cómo Usar la API Grok 4.3: Guía y Tutorial

xAI lanzó Grok 4.3 en etapas: beta el 17 de abril de 2026, acceso a la API el 30 de abril y disponibilidad general completa el 6 de mayo. La propuesta es directa: una ventana de contexto de 1,000,000 de tokens, entrada de video nativa por primera vez en la línea Grok, razonamiento siempre activo y una reducción de precio de aproximadamente el 40% frente a Grok 4.20. Ocho modelos Grok heredados se retiran el 15 de mayo, por lo que cualquiera que use las series grok-3 o grok-4 debería planificar una migración esta semana.

Esta guía cubre cómo llamar a Grok 4.3 desde su código: la forma del endpoint, la autenticación, la URL base compatible con OpenAI, el parámetro de esfuerzo de razonamiento, la entrada de video, la llamada a funciones y una configuración de prueba funcional en Apidog.

Para el aspecto de voz de la misma versión, consulte Cómo usar Grok Voice gratis. Para la comparación directa con el modelo de voz insignia de OpenAI, consulte Grok Voice vs GPT-Realtime.

botón

TL;DR

Grok 4.3 tuvo su disponibilidad general el 6 de mayo de 2026. Ocho modelos heredados se retiran el 15 de mayo de 2026.
Precios: $1.25 por 1M de tokens de entrada, $2.50 por 1M de tokens de salida, entrada en caché $0.20 por 1M. Aproximadamente un recorte del 40% frente a Grok 4.20.
Ventana de contexto de 1M de tokens. Entrada de video nativa. Razonamiento siempre activo.
Esfuerzo de razonamiento: low / medium / high. Por defecto es medium.
Endpoint: https://api.x.ai/v1/chat/completions (URL base compatible con OpenAI).
Rendimiento: ~159 tokens/segundo en niveles estándar.
Índice de Inteligencia 53 (Análisis Artificial), clasificado en el puesto 10 de 146 modelos a nivel mundial.
Use Apidog para programar la solicitud, mantener las configuraciones de razonamiento como variables y reproducirlas en los modos de compatibilidad de Grok y OpenAI.

Qué cambió en Grok 4.3

Las actualizaciones principales, en orden de impacto para la mayoría de los equipos:

Caída del precio del 40%. La entrada ha bajado un 37.5% frente a Grok 4.20; la salida ha bajado un 58.3%. La tarifa de entrada en caché es ahora de $0.20/1M, un recorte agresivo que hace que los prompts de sistema largos y estables sean mucho más baratos.
Contexto de 1M de tokens. Subió de 256k en Grok 4.20. Suficiente para incluir una base de código de tamaño mediano, una llamada de ganancias completa o un contrato legal completo en un solo prompt.
Entrada de video nativa. Primera vez en la línea Grok. Pase una URL de video y el modelo razonará sobre los fotogramas de forma nativa.
Razonamiento siempre activo. Grok 4.3 viene con un paso de razonamiento base en cada solicitud. El parámetro reasoning_effort escala la profundidad, pero el modelo nunca razona menos que low.
Ganancia agéntica importante. +300 puntos Elo en GDPval-AA frente a Grok 4.20. El envío de herramientas y los flujos de trabajo de varios pasos se comportan notablemente mejor.

El Índice de Inteligencia de 53 (Análisis Artificial) sitúa a Grok 4.3 por encima del promedio de 35 para su nivel de precio, y en el décimo lugar de 146 modelos monitoreados.

Requisitos previos

Antes de la primera solicitud, prepare cuatro cosas:

Una cuenta de consola de xAI en console.x.ai. Mismo flujo de inicio de sesión que Grok Voice.
Un nivel de facturación con una clave API. Se recomiendan las claves con alcance de proyecto para producción.
El SDK de OpenAI (Grok 4.3 es compatible con OpenAI) o el SDK de xAI. Cualquiera funciona.
Un cliente API que pueda reproducir solicitudes sin saturar su terminal.

Exporte la clave una vez:

export XAI_API_KEY="xai-..."

Endpoint y autenticación

Grok 4.3 se entrega en la superficie de Completions de Chat compatible con OpenAI, con la URL base de xAI.

POST https://api.x.ai/v1/chat/completions

La autenticación es un token de portador. Los encabezados son estándar:

Authorization: Bearer $XAI_API_KEY
Content-Type: application/json

La compatibilidad con OpenAI significa que puede usar el SDK de OpenAI para Python o Node y cambiar la base_url. Ese es el camino de menor resistencia para la mayoría de los equipos que migran de gpt-4 o gpt-5.

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XAI_API_KEY"],
    base_url="https://api.x.ai/v1",
)

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {"role": "user", "content": "Summarize the trade-offs of GraphQL vs REST in three bullets."}
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)

Si prefiere el SDK de xAI, la forma de la llamada es la misma; el único cambio es la importación.

Parámetros de la solicitud

El mapa completo de parámetros para Grok 4.3:

Parámetro	Tipo	Valores	Notas
`model`	string	`grok-4.3`	Obligatorio.
`messages`	array	OpenAI message shape	Obligatorio. Soporta `role: system / user / assistant`.
`reasoning_effort`	string	`low`, `medium`, `high`	Opcional. Por defecto: `medium`. Niveles más altos aumentan la latencia y los tokens de salida.
`max_tokens`	int	1–32768	Limita la salida.
`temperature`	float	0.0–2.0	Por defecto 1.0.
`top_p`	float	0.0–1.0	Muestreo de núcleo.
`stream`	bool	true / false	Eventos enviados por el servidor cuando es verdadero.
`tools`	array	OpenAI tool shape	Llamada a funciones.
`tool_choice`	string / object	`auto`, `none`, o herramienta específica	Semántica estándar de OpenAI.
`response_format`	object	`{ type: "json_object" }`	Salida estructurada.
`seed`	int	any	Para la reproducibilidad en `temperature: 0`.

Una solicitud curl funcional:

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-4.3",
    "messages": [
      {"role": "system", "content": "You are a senior backend engineer."},
      {"role": "user", "content": "Review this query plan and flag the bottleneck."}
    ],
    "reasoning_effort": "high"
  }'

La respuesta tiene la forma estándar de OpenAI: choices[].message.content, más un objeto usage con prompt_tokens, completion_tokens, reasoning_tokens y total_tokens desglosados.

Esfuerzo de razonamiento

Tres niveles, con guía concreta:

low. Úselo para clasificación, resumen, extracción de reglas, preguntas y respuestas simples. La latencia es corta, la salida es directa.
medium. Por defecto. Úselo para servicio al cliente, llamada a funciones, análisis de datos, uso de herramientas de un solo paso. La profundidad de razonamiento es suficiente para la mayoría del tráfico de producción.
high. Úselo para agentes de varios pasos, revisión de código de cadena larga, matemáticas complejas y tareas en las que el modelo necesita planificar antes de responder.

El razonamiento siempre activo significa que incluso en low se realiza cierto pensamiento; eso es lo que impulsa la ganancia en precisión fáctica sobre Grok 4.20. No espere ahorrar dinero evitando el razonamiento por completo; está integrado.

Llamada a funciones

La forma estándar de OpenAI funciona directamente. Declare herramientas, el modelo emite un array tool_calls en el mensaje del asistente, usted ejecuta, responde con un mensaje de rol tool:

tools = [{
    "type": "function",
    "function": {
        "name": "lookup_user",
        "description": "Look up a user by ID.",
        "parameters": {
            "type": "object",
            "properties": {"user_id": {"type": "string"}},
            "required": ["user_id"],
        },
    },
}]

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[{"role": "user", "content": "Find user u_42 and tell me their last login."}],
    tools=tools,
    reasoning_effort="medium",
)

tool_calls = response.choices[0].message.tool_calls

La ganancia de 300 puntos Elo en GDPval-AA se manifiesta aquí en la práctica; Grok 4.3 selecciona mejores herramientas, realiza menos llamadas redundantes y se recupera de un error de herramienta sin bloquearse. Si está probando flujos de herramientas, las pruebas de servidor MCP en Apidog cubren la configuración de reproducción que usamos internamente.

Entrada de video

Grok 4.3 es el primer modelo Grok con entrada de video nativa. Pase una URL de video dentro de un bloque de contenido:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe what happens in this clip and flag any anomalies."},
            {"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}},
        ],
    }],
)

Los tokens de video cuentan contra el medidor de entrada. Los clips largos consumen contexto rápidamente; reduzca la muestra o recorte antes de enviar si el costo es importante. El modelo razona sobre los fotogramas de forma nativa, por lo que no necesita extraer fotogramas clave manualmente.

Contexto de 1M de tokens

La ventana de contexto de 1M es una herramienta de producción real, no un trofeo de benchmark. Patrones comunes:

Revisión de código de toda la base de código. Concatene la diferencia, todos los archivos modificados y la salida del linter. Pida a Grok que lo revise.
QA de documentos de formato largo. Inserte un contrato de 200 páginas y haga preguntas específicas.
Memoria de conversación. Mantenga un mes completo de conversaciones del agente en contexto para la personalización.

La entrada en caché a $0.20/1M lo hace asequible. Un prompt de sistema de 400k tokens que mantiene estable consume $0.08 por llamada en caché en lugar de $0.50 si es nuevo.

Migración desde modelos Grok heredados

Ocho modelos Grok heredados se retiran el 15 de mayo de 2026, 12:00 PM PT. Si está utilizando alguno de ellos, cambie la cadena model a grok-4.3 antes de la fecha límite. La mayoría de las llamadas funcionan sin cambios adicionales porque la forma de la solicitud no ha cambiado.

Dos cosas a tener en cuenta:

Esfuerzo de razonamiento. Algunos modelos heredados no aceptaban reasoning_effort. Grok 4.3 siempre razona; si su código anterior dependía de una ruta rápida sin razonamiento, acepte el aumento de latencia o manténgase en low.
Formato de salida. Grok 4.3 es más estructurado que Grok 4.20 por defecto. Si utilizaba un procesamiento posterior intensivo con expresiones regulares, vuelva a probar antes de cambiar.

Para la comparación de precios completa de la línea OpenAI, consulte Precios de GPT-5.5; para los modelos de razonamiento cara a cara, consulte Cómo usar la API de GPT-5.5.

Pruebas en Apidog

La forma más rápida de validar Grok 4.3 para su propio caso de uso:

Cree un entorno de Apidog con XAI_API_KEY y BASE_URL = https://api.x.ai/v1.
Guarde una colección de solicitudes con tres variantes: razonamiento low, medium, high. Mismo prompt, diferente esfuerzo.
Ejecute las tres. Compare la respuesta, la latencia y el recuento de usage.reasoning_tokens lado a lado.
Agregue una cuarta variante apuntando a la URL base de OpenAI para comparar Grok 4.3 con GPT-5.5 con la misma entrada. Mismo SDK, diferente modelo y URL base.

Descargue Apidog para ejecutar la comparación. La colección se porta limpiamente cuando cambia de proveedor, que es el objetivo. Para una estrategia más amplia de pruebas de API, consulte Herramienta de pruebas de API para ingenieros de QA.

Límites de velocidad

Los límites de nivel en la consola de xAI van desde una base de unos pocos miles de solicitudes por minuto en el Nivel 1 hasta cientos de miles en los niveles empresariales. Los números concretos varían; consulte el panel de la consola. El rendimiento de 159 tokens/segundo que anuncia xAI es la velocidad de salida por stream, no agregada; las solicitudes concurrentes escalan linealmente dentro de los límites de nivel.

Si alcanza los límites de velocidad, la API devuelve un 429 con un encabezado retry-after. La retirada exponencial estándar lo gestiona.

Preguntas frecuentes

¿Es Grok 4.3 compatible con OpenAI de principio a fin?Para las Completions de Chat, sí. Incorpore el SDK de OpenAI, cambie la base_url, cambie el model. La llamada a funciones, la salida estructurada y el streaming funcionan todos de forma idéntica.

¿Soporta la API de Respuestas?La superficie de xAI son las Completions de Chat hoy. La API de Respuestas es solo de OpenAI.

¿Cuál es el límite de contexto real en la práctica?1,000,000 de tokens. Las entradas largas cuestan dinero real incluso a $1.25/1M; use caché agresivamente si su prompt es estable.

¿Cómo afecta el razonamiento siempre activo a la latencia?La latencia del primer token es ligeramente superior a la de los modelos sin razonamiento, pero Grok 4.3 transmite la salida a ~159 tokens/segundo, por lo que el tiempo de respuesta de principio a fin es competitivo. La compensación vale la pena en cargas de trabajo sensibles a la precisión.

¿Puedo usar Grok 4.3 con Grok Voice?Sí. El agente de voz (grok-voice-think-fast-1.0) llama a Grok 4.3 internamente cuando razona. También puede llamar a Grok 4.3 directamente desde un bucle de voz que construya sobre primitivas TTS y STT.

¿Qué sucede con mis antiguas llamadas a Grok 3 / Grok 4 después del 15 de mayo?Fallarán con un 410 (modelo retirado). Migre antes de la fecha límite.

¿Grok 4.3 soporta entrada de imágenes?Sí, junto con la nueva entrada de video. Pase una URL de imagen en un bloque de contenido, con la misma forma que OpenAI.

Conclusión

Grok 4.3 es el movimiento de precio-rendimiento más agresivo que ha lanzado xAI. El recorte del 40%, el contexto de 1M, el razonamiento siempre activo y el video nativo juntos lo convierten en una herramienta principal seria para la mayoría de las cargas de trabajo de agentes. La compatibilidad con OpenAI significa que la migración es un cambio de URL base, no una reescritura.

La ruta de validación más rápida: programe tres variantes de razonamiento en Apidog, inserte sus prompts reales, mida la latencia y los tokens de razonamiento. Migre antes del 15 de mayo.

botón