La mayoría de los modelos frontera te impiden el acceso a menos que pagues. Claude Opus, GPT, Gemini Pro: alquilas el acceso a través de una clave API, y el contador nunca se detiene. MiniMax M3 rompe ese patrón. Es un modelo de peso abierto, lanzado el 1 de junio de 2026, lo que significa que el camino hacia un uso genuinamente gratuito es real una vez que los pesos se hagan públicos.
Ese "una vez" importa, así que seamos honestos desde el principio. MiniMax ha prometido abrir el código de los pesos, pero en el momento de escribir esto, aún no están en Hugging Face. La compañía dice que llegarán en cuestión de días. Hasta que lo hagan, el autoalojamiento gratuito es un plan para el que puedes prepararte, no algo que puedas hacer esta tarde. Esta guía recorre todas las vías de acceso a M3 de bajo coste y sin coste, lo que está disponible hoy y lo que está por venir. Si quieres conocer el contexto completo del modelo en sí, lee qué es MiniMax M3 primero.
Aquí está la versión corta. M3 te ofrece una ventana de contexto de hasta 1.000.000 de tokens, codificación de grado frontera y entrada multimodal nativa. La publicación oficial de lanzamiento se encuentra en el anuncio de MiniMax M3. Ahora, vamos a hacer que lo uses sin gastar dinero.
Ruta 1: ejecuta los pesos abiertos tú mismo
Esta es la ruta que hace que el "gratis" sea honesto. Una vez que MiniMax abra el código de los pesos, los descargas, los ejecutas en tu propio hardware o en una GPU alquilada, y no pagas nada en tarifas API por token. Tú eres el dueño de la inferencia. Sin límites de tasa más allá de tu propia máquina, sin datos saliendo de tu red, sin factura mensual.
El inconveniente es que "pesos gratuitos" no significa "gratis de ejecutar". Todavía necesitas computación. Si tienes una GPU local capaz, tu único coste es la electricidad. Si alquilas una GPU en la nube por hora, cambias el contador de la API por un contador de instancia, lo que aún puede superar el precio del alojamiento para cargas de trabajo constantes.
Cuando los pesos lleguen a Hugging Face, elegirás una pila de inferencia basada en el formato liberado:
- vLLM para un servicio de alto rendimiento con un endpoint compatible con OpenAI. Una opción sólida si estás ejecutando un agente o una aplicación que accede constantemente al modelo. Consulta la documentación de vLLM para empezar.
- SGLang para generación estructurada y cargas de trabajo rápidas de múltiples turnos.
- llama.cpp si se lanza una compilación GGUF cuantificada y quieres ejecutarla en hardware de consumo o incluso en CPU.
Una nota sobre el hardware: MiniMax no ha revelado el número de parámetros para M3, por lo que cualquiera que te dé cifras exactas de VRAM hoy en día está adivinando. Tu requisito real depende del tamaño del peso liberado y de la cuantificación que uses. Una cuantificación de 4 bits necesita mucha menos memoria que una de precisión completa. Cuando los pesos se publiquen, consulta la tarjeta del modelo en Hugging Face para ver la configuración recomendada. Esa página es la fuente de la verdad, no una entrada de blog escrita antes del lanzamiento.
Si el autoalojamiento de un modelo chino de peso abierto te parece atractivo pero prefieres empezar con uno que ya se pueda descargar, el mismo manual funciona para Qwen. Lo cubrimos paso a paso en cómo usar Qwen 3.7 gratis.
Ruta 2: el acceso alojado más barato
No todo el mundo quiere gestionar una GPU. Si prefieres llamar a un endpoint y olvidarte de la infraestructura, la API alojada de MiniMax es el camino rápido. No es gratis, pero el precio de entrada es bajo para lo que obtienes.
MiniMax vende acceso a través de planes de tokens por suscripción:
| Plan | Precio | Tokens por mes |
|---|---|---|
| Plus | $20/mes | ~1.7B |
| Max | $50/mes | ~5.1B |
| Ultra | $120/mes | ~9.8B |
El plan Plus de $20 es el punto de entrada realista. Aproximadamente 1.7 mil millones de tokens al mes cubren mucha experimentación, prototipado y uso de producción ligero antes de que necesites subir de nivel. Consulta la descripción general de la API de MiniMax para obtener los detalles actuales del plan, ya que las asignaciones de tokens y los precios pueden cambiar.
El acceso alojado gana cuando tu uso es intermitente o de bajo volumen. Si solo accedes al modelo unas pocas miles de veces al mes, pagar $20 supera el alquiler de una GPU que permanece inactiva la mayor parte del día. También gana cuando necesitas el contexto de 1 millón de tokens sin tener que aprovisionar suficiente memoria para alojarlo tú mismo. La configuración completa de la solicitud, incluyendo la URL base https://api.minimax.io/v1 y el id del modelo MiniMax-M3, se cubre en cómo usar la API de MiniMax M3.
Ruta 3: pruebas gratuitas y el entorno de pruebas
Aquí es donde deberías ser escéptico con cualquiera que prometa un nivel gratuito permanente. A partir de ahora, MiniMax no documenta una asignación API gratuita permanente para M3. No vamos a inventar una.
Lo que puedes hacer es verificar la plataforma directamente para ver el crédito de prueba actual. Los créditos de nuevas cuentas y las subvenciones promocionales van y vienen, y son el tipo de cosas que cambian más rápido de lo que cualquier artículo puede seguir. Inicia sesión en la plataforma MiniMax, consulta tu panel de facturación y ve si hay un saldo de prueba allí. Si hay un entorno de pruebas web disponible, a menudo es la forma más sencilla de probar las indicaciones antes de comprometerte con un plan o una compilación de autoalojamiento.
Trata cualquier crédito gratuito como una forma de evaluar M3, no como una estrategia de producción. Una vez que sepas que el modelo se adapta a tu caso de uso, elige la Ruta 1 o la Ruta 2 para un trabajo sostenido.
Ruta 4: hosts de terceros (a tener en cuenta)
Aquí está la ruta que se abre en el momento en que los pesos se hacen públicos. Cuando se lanza un modelo de peso abierto, los agregadores de inferencia compiten por alojarlo. Las plataformas estilo OpenRouter y los proveedores independientes de GPU añaden nuevos modelos abiertos en cuestión de días, y a menudo compiten en precios con tanta dureza que tienen niveles gratuitos o casi gratuitos para atraer a los usuarios.
Así que el consejo práctico es vigilar a los agregadores después de que los pesos aterricen. Podrías encontrar un endpoint de M3 a una fracción del precio del fabricante original, o una cuota diaria gratuita destinada a atraerte. La desventaja es que estás confiando en un tercero con tus solicitudes y tu tiempo de actividad, así que lee su política de datos antes de enviarles cualquier cosa sensible.
Esta dinámica es parte de una historia más grande. La razón por la que los laboratorios chinos siguen abriendo el código de los modelos de vanguardia y reduciendo los precios es una verdadera carrera por la cuota de mercado de los desarrolladores. Lo desgranamos en la guerra de precios de LLM chinos de 2026, y el lanzamiento de M3 de código abierto es el último movimiento en ese juego.
Probando tu configuración gratuita
Cualquiera que sea la ruta que elijas, necesitas saber que tu configuración realmente funciona antes de construir sobre ella. Un endpoint autoalojado y la API alojada deberían hablar el mismo formato compatible con OpenAI, pero "debería" no es "lo hace". La latencia, la calidad de la salida y el manejo de tokens pueden diferir entre una compilación local cuantificada y el servicio de terceros.

Aquí es donde un cliente API cumple su función. Dirige tus solicitudes a través de Apidog y podrás enviar el mismo prompt a tu M3 autoalojado y al endpoint alojado simultáneamente, para luego comparar las respuestas, los tiempos de respuesta y el uso de tokens en un solo lugar. Guarda ambos como solicitudes en una colección, cambia la URL base entre http://localhost:8000/v1 y https://api.minimax.io/v1, y tendrás una prueba A/B limpia del acceso gratuito frente al de pago.
Apidog también te permite guardar el ID del modelo MiniMax-M3 y tu encabezado de autenticación como variables de entorno, por lo que cambiar entre un servidor vLLM local y la nube está a un desplegable de distancia. Si quieres seguir el ejemplo, descarga Apidog y crea una nueva solicitud contra tu endpoint. El mismo flujo de trabajo se escala a otros modelos también, lo cual es útil si ya estás ejecutando algo como la configuración en cómo usar DeepSeek V4 Pro con Cursor.
Gratis vs. de pago: ¿cuál deberías elegir?
No hay una respuesta única y correcta. Depende de lo que estés construyendo y de la frecuencia con la que llames al modelo.
| Caso de uso | Mejor ruta | Por qué |
|---|---|---|
| Proyecto de afición, llamadas ocasionales | Plus alojado ($20) o crédito de prueba | Barato, cero operaciones, sin coste de GPU inactiva |
| Aprendizaje y prototipado | Autoalojar los pesos abiertos | Gratis por token, control total, sin límites de tasa |
| Codificación agentica a escala | Autoalojar en una GPU alquilada | Un volumen alto y constante hace que la inferencia propia sea más barata que por token |
| Trabajos ocasionales de 1M de tokens | API alojada | Evita aprovisionar la memoria para alojar contextos enormes tú mismo |
| Trabajo sensible a la privacidad | Autoalojar | Las solicitudes nunca salen de tu máquina |
El patrón es simple. Un volumen bajo o intermitente favorece la API alojada. Un volumen alto y constante favorece el autoalojamiento una vez que los pesos están disponibles. Las necesidades de privacidad te empujan al autoalojamiento independientemente del volumen.
Preguntas frecuentes
¿MiniMax M3 es realmente gratis? Puede serlo. M3 es un modelo de peso abierto, así que una vez que MiniMax publique los pesos, podrás ejecutarlo en tu propio hardware sin tarifas por token. Seguirás pagando por la computación, ya sea tu factura de electricidad o una GPU alquilada. El modelo en sí es de uso gratuito; la infraestructura para ejecutarlo no lo es.
¿Ya están los pesos disponibles? No en el momento de escribir esto. MiniMax se ha comprometido a liberar el código de M3 y dice que los pesos llegarán en cuestión de días desde el lanzamiento del 1 de junio. Hasta que aparezcan en Hugging Face, no podrás descargarlos y ejecutarlos. Consulta los canales oficiales y la página de Hugging Face del modelo para el lanzamiento en vivo.
¿Qué hardware necesito para autoalojar M3? Eso depende del tamaño del peso liberado y de la cuantificación que elijas, y MiniMax aún no ha publicado el número de parámetros. No confíes en cifras específicas de VRAM antes de que se envíen los pesos. Cuando la tarjeta del modelo llegue a Hugging Face, enumerará la configuración recomendada. Una cuantificación de 4 bits a través de llama.cpp se ejecutará en hardware mucho más modesto que una compilación de precisión completa a través de vLLM.
¿Existe una clave API gratuita? No se documenta ningún nivel gratuito permanente para la API alojada. La ruta confirmada más barata es el plan Plus de $20/mes, que incluye aproximadamente 1.7 mil millones de tokens. Consulta la plataforma para cualquier crédito de prueba actual en cuentas nuevas, y observa a los agregadores de terceros después de que los pesos abiertos se lancen, ya que algunos tienen cuotas gratuitas.
¿Cómo se compara el acceso gratuito a M3 con Qwen o DeepSeek? Los tres forman parte de la misma ola de modelos de peso abierto de los laboratorios chinos, y el manual de autoalojamiento es casi idéntico para todos ellos. Los pesos de Qwen ya se pueden descargar hoy, así que si quieres empezar ahora, consulta cómo usar Qwen 3.7 gratis. La imagen competitiva completa se encuentra en la guerra de precios de LLM chinos de 2026.
¿Puedo usar M3 gratis con una herramienta de codificación como Cursor? Una vez que tengas un endpoint funcional, autoalojado o alojado, puedes apuntar la mayoría de las herramientas de codificación compatibles con OpenAI a él. El enfoque es similar a lo que documentamos en cómo usar DeepSeek V4 Pro con Cursor: establece la URL base, proporciona tu clave y selecciona el ID del modelo.
Conclusión
El acceso gratuito a MiniMax M3 se reduce a un hecho: es un modelo de peso abierto. Eso pone el autoalojamiento sobre la mesa de una manera que los modelos frontera cerrados nunca permiten. Hoy, tus opciones honestas son el plan Plus alojado de $20 y cualquier crédito de prueba que muestre tu cuenta. En el momento en que los pesos lleguen a Hugging Face, se abrirán la Ruta 1 y la Ruta 4, y el uso genuinamente gratuito estará a una descarga de distancia. Prepara tu pila de inferencia ahora, estate atento al lanzamiento y prueba cada endpoint a través de Apidog para saber exactamente lo que obtienes antes de construir sobre ello.
