Cómo usar la API MiniMax M3

MiniMax M3 es un modelo de razonamiento y codificación de vanguardia con una ventana de contexto de hasta 1,000,000 de tokens. Ese número es el titular. Puedes alimentarlo con un repositorio completo, una semana de registros o un documento de diseño extenso y pedirle que razone sobre todo ello en una sola llamada. Si deseas conocer los antecedentes sobre qué es el modelo y dónde encaja, lee primero qué es MiniMax M3.

Esta guía es la versión práctica. Obtendrás una clave API, enviarás tu primera solicitud de tres formas diferentes y probarás cada paso en Apidog para que puedas ver la solicitud y la respuesta en bruto antes de integrar cualquier cosa en tu propio código. Descarga Apidog si quieres seguir el tutorial.

La referencia oficial se encuentra en la documentación de la API de MiniMax. Mantenla abierta en una pestaña.

Lo que necesitarás

Una cuenta de MiniMax en platform.minimax.io.
Una clave API (generaremos una a continuación).
Una forma de pagar por el uso: créditos de pago por uso o un plan de tokens de suscripción. Ambos funcionan para los mismos puntos finales.

No necesitas nada más instalado para los ejemplos de curl. Para los ejemplos del SDK, necesitarás Python 3.8+ o Node 18+.

Paso 1: Obtén tu clave API

Inicia sesión en platform.minimax.io, abre la sección de claves API de tu cuenta y crea una nueva clave. MiniMax emite dos tipos de credenciales, y la diferencia importa:

Una clave API regular se factura contra tu saldo de pago por uso.
Una clave de suscripción utiliza los créditos de tokens de tu plan (Plus, Max o Ultra). Cuando los tokens del plan se agotan, las llamadas con esa clave se detienen hasta que el plan se renueva o cambias a una clave de pago por uso.

Elige el que coincida con cómo deseas que se te facture. Copia la clave una vez y guárdala. No la volverás a ver.

Nunca pegues la clave directamente en el código fuente. Exponla como una variable de entorno en su lugar:

export MINIMAX_API_KEY="your-key-here"

Esto mantiene el secreto fuera de tu historial de git y de cualquier archivo que puedas compartir. Si también trabajas con claves API dentro de tu editor, se aplican las mismas reglas de higiene. Cubrimos las fugas comunes en seguridad de claves API de extensiones de VS Code.

Paso 2: Envía tu primera solicitud

La URL base es https://api.minimax.io/v1 y el chat se encuentra en POST https://api.minimax.io/v1/chat/completions. La autenticación es un token de portador: Authorization: Bearer $MINIMAX_API_KEY. La cadena de identificación del modelo es MiniMax-M3.

Aquí está la llamada útil más pequeña con curl. La tarea es real, pidiéndole al modelo que refactorice una función:

curl https://api.minimax.io/v1/chat/completions \
 -H "Authorization: Bearer $MINIMAX_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{"model":"MiniMax-M3","messages":[{"role":"user","content":"Refactor this function to be async."}]}'

Tienes tres formas de llamar a M3. MiniMax recomienda el SDK de Anthropic, pero el SDK de OpenAI y HTTP sin procesar funcionan contra el mismo punto final. Usa el que tu pila ya admita.

Aquí está el SDK de OpenAI en Python. El único cambio de una configuración normal de OpenAI es la base_url:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
)

print(response.choices[0].message.content)

Y la misma idea en Node, de nuevo, solo reconfigurando la URL base:

import OpenAI from "openai";

const client = new OpenAI({
 baseURL: "https://api.minimax.io/v1",
 apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
 model: "MiniMax-M3",
 messages: [
 { role: "user", content: "Refactor this function to be async." },
 ],
});

console.log(response.choices[0].message.content);

Si has usado la API de Qwen 3.7, este patrón te resultará familiar. La mayoría de los modelos de vanguardia ahora exponen una superficie compatible con OpenAI, por lo que el costo de migración es una sola línea. La documentación del SDK de OpenAI para Python y la documentación del SDK de Anthropic cubren todas las opciones del cliente.

Paso 3: Pruébalo e inspecciónalo en Apidog

Antes de integrar esta llamada en una aplicación, envíala manualmente y lee la respuesta sin procesar. Ahí es donde Apidog se gana su lugar en el proceso.

Crea una nueva solicitud HTTP y establece el método en POST con la URL https://api.minimax.io/v1/chat/completions.
Abre el panel de Entornos y añade una variable llamada MINIMAX_API_KEY con tu clave como valor. Guárdala como una variable de entorno para que nunca quede en el cuerpo de la solicitud o en tu colección compartida.
En los encabezados de la solicitud, añade Authorization con el valor Bearer {{MINIMAX_API_KEY}}. Apidog sustituye la variable en el momento del envío.
Establece el cuerpo como JSON sin procesar y pega el mismo payload del ejemplo de curl.
Haz clic en Enviar y observa el panel de respuesta.

[Captura de pantalla: la solicitud y respuesta de MiniMax-M3 en Apidog]

Almacenar el token como una variable de entorno significa que puedes compartir la solicitud con compañeros de equipo sin filtrar el secreto, y puedes intercambiar claves (pago por uso versus suscripción) cambiando una variable. Cuando actives la transmisión más tarde, Apidog mostrará los eventos enviados por el servidor a medida que llegan, para que puedas confirmar el formato de la transmisión antes de escribir cualquier código de análisis. Inspeccionar la respuesta manualmente detecta sorpresas de esquema tempranamente, que es el objetivo principal de probar un endpoint antes de confiar en él.

Paso 4: Activar y desactivar el "pensamiento"

M3 es un modelo de razonamiento. Por defecto, devuelve una respuesta final. También puedes pedirle que exponga su razonamiento intermedio, lo cual es útil cuando quieres depurar por qué llegó a una conclusión o alimentar el razonamiento en un paso de revisión.

Con el SDK de OpenAI, pasa reasoning_split a través de extra_body:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
 extra_body={"reasoning_split": True},
)

print(response.choices[0].message.reasoning_details[0]["text"]) # the thinking
print(response.choices[0].message.content) # the final answer

Cuando reasoning_split está activado, el texto del pensamiento se devuelve en response.choices[0].message.reasoning_details[0]["text"] y la respuesta final permanece en response.choices[0].message.content. Mantenlos separados en tu UI. Muestra a los usuarios la respuesta y conserva el razonamiento para los registros o un paso de verificación.

Activa el "pensamiento" para problemas difíciles: refactorizaciones de múltiples pasos, cacerías de errores complicadas, cualquier cosa donde quieras auditar la cadena. Desactívalo para llamadas simples y sensibles a la latencia donde los tokens de razonamiento adicionales cuestan tiempo y dinero que no necesitas gastar.

Paso 5: Trabaja con el contexto de 1M de tokens

La gran ventana de contexto es la razón para optar por M3. Puedes pegar un archivo de registro completo y hacer una sola pregunta sobre todo él:

with open("production-2026-05-30.log") as f:
 log_text = f.read()

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {
 "role": "user",
 "content": f"Find the root cause of the 502 spike at 14:20 UTC.\n\n{log_text}",
 }
 ],
)

Un punto importante de facturación que debes conocer. MiniMax cobra una tarifa estándar para llamadas con 512K tokens de entrada o menos, y una tarifa más alta de contexto largo una vez que la entrada supera los 512K tokens. Así que el salto de un prompt de 400K tokens a uno de 600K tokens no es lineal. Cruza un umbral de precios.

La conclusión práctica: no viertas un millón de tokens en el contexto por costumbre. Envía la porción que el modelo necesita. Si estás encadenando muchas llamadas en un agente, recortar el contexto por cada llamada es una de las mayores palancas para reducir tu factura. Profundizamos en esto en cómo reducir los costos de tokens del agente.

Paso 6: Llamada a herramientas e entrada multimodal

M3 maneja la llamada a herramientas y la entrada multimodal, por lo que puede impulsar agentes y leer imágenes, no solo texto.

Para la llamada a herramientas, declaras las herramientas que el modelo puede invocar y luego manejas la llamada que devuelve:

tools = [
 {
 "type": "function",
 "function": {
 "name": "run_tests",
 "description": "Run the test suite for a given module path.",
 "parameters": {
 "type": "object",
 "properties": {
 "module": {"type": "string"},
 },
 "required": ["module"],
 },
 },
 }
]

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Fix the failing test in auth/session.py and confirm it passes."}
 ],
 tools=tools,
)

Cuando el modelo decide llamar a una herramienta, la respuesta contiene un array tool_calls. Tu código ejecuta la función, añade el resultado como un mensaje tool y llama a la API de nuevo para que el modelo pueda continuar. Lograr que este "apretón de manos" funcione correctamente es donde residen la mayoría de los errores de los agentes. Vale la pena leer los patrones de cableado y los modos de fallo antes de implementar: cableado de herramientas en flujos de trabajo de agente.

Apidog también ayuda aquí. Puedes reproducir el intercambio completo de varias vueltas (la solicitud inicial, la respuesta de llamada a la herramienta, el resultado de tu herramienta, el seguimiento) como solicitudes guardadas separadas, para que puedas verificar cada salto de principio a fin en lugar de adivinar dentro del tiempo de ejecución de tu agente.

Para la entrada multimodal, pasas el contenido de la imagen en el mismo array de mensajes, junto con tu prompt de texto, siguiendo el formato estándar de "partes de contenido". Consulta la referencia de la API para conocer los nombres exactos de los campos, ya que estos evolucionan más rápido que los puntos finales de texto.

Precios y niveles

Dos controles separados regulan lo que pagas y la rapidez con la que se te atiende.

Los planes de tokens establecen tu presupuesto de crédito. Los niveles de suscripción son Plus por $20, Max por $50 y Ultra por $120, cada uno agrupando un mayor conjunto de créditos de tokens utilizados por tu clave de suscripción. El pago por uso factura una clave API regular contra tu saldo en su lugar.

Los niveles de servicio establecen la prioridad de programación. Hay dos: estándar (el predeterminado) y prioritario. El estándar es adecuado para la mayoría de las cargas de trabajo. El prioritario es para el tráfico sensible a la latencia o ligado a SLA que no puede esperar en una cola detrás de todos los demás.

Añade eso a la tarifa estándar versus la tarifa de contexto largo del Paso 5, y tu costo real dependerá del tamaño de la entrada, el plan y el nivel juntos. Para conocer los números actuales por token, consulta la página de precios y modelos de MiniMax y la documentación de la API, ya que las tarifas publicadas cambian.

Preguntas frecuentes

¿Existe una forma gratuita de probar M3? Sí. Puedes probar el modelo sin comprometerte con un plan, y hay algunas rutas sin costo. Las recopilamos en cómo usar MiniMax M3 gratis.

¿Qué SDKs funcionan con la API? Tres opciones: HTTP puro, el SDK de Anthropic y el SDK de OpenAI. MiniMax recomienda el SDK de Anthropic, pero los tres acceden al mismo punto final https://api.minimax.io/v1/chat/completions. Para los clientes de OpenAI y Anthropic, solo cambias la base_url para apuntar a MiniMax.

¿Cómo transmito las respuestas? Añade "stream": true al cuerpo de tu solicitud. La API devuelve eventos enviados por el servidor, y ambos SDKs exponen un iterador sobre el cual puedes iterar para leer los fragmentos a medida que llegan. Prueba la transmisión en Apidog primero para que puedas ver el formato del evento antes de analizarlo.

¿Cuál es el límite de tasa? Los límites dependen de tu nivel de cuenta y de si utilizas el servicio estándar o prioritario. Si recibes un 429, retrocede e inténtalo de nuevo, o mueve el tráfico sensible a la latencia al nivel prioritario. Los números actuales se encuentran en el panel de tu cuenta y en la documentación de la API.

¿Cómo afecta el umbral de 512K a mi factura? Las llamadas con una entrada de 512K tokens o menos se facturan a la tarifa estándar. Superados los 512K tokens de entrada, se aplica la tarifa más alta de contexto largo. Recorta tu prompt a los tokens que el modelo realmente necesita, especialmente en los bucles de agente donde el costo se acumula en múltiples llamadas.

¿Puedo autoalojar los pesos en lugar de llamar a la API? La API alojada es el camino que cubre esta guía, y es la forma más rápida de empezar. El autoalojamiento depende de lo que MiniMax publique para M3 en un momento dado, así que consulta la página del modelo para conocer la situación actual de los pesos y las licencias.

Conclusión

Ahora tienes todo para llamar a MiniMax M3: una clave API almacenada como variable de entorno, solicitudes funcionales con curl, Python y Node, un interruptor de "pensamiento", el umbral de facturación de 512K y el "apretón de manos" para la llamada a herramientas. La forma más rápida de confirmarlo es ejecutar una llamada real manualmente. Introduce el endpoint en Apidog, almacena tu token de portador como variable de entorno, envía el prompt de refactorización y lee la respuesta. Una vez que hayas visto la forma en bruto, integrarlo en tu código te llevará minutos.

botón