A maioria dos modelos de ponta impede o acesso a menos que você pague. Claude Opus, GPT, Gemini Pro: você aluga o acesso através de uma chave API, e o medidor nunca para. O MiniMax M3 quebra esse padrão. É um modelo de peso aberto (open-weight), lançado em 1º de junho de 2026, o que significa que o caminho para o uso genuinamente gratuito é real assim que os pesos se tornarem públicos.
Esse "assim que" importa, então sejamos honestos desde o início. A MiniMax prometeu abrir o código dos pesos, mas até o momento eles ainda não estão no Hugging Face. A empresa diz que eles chegarão em poucos dias. Até que isso aconteça, o auto-hospedagem gratuita é um plano para o qual você pode se preparar, não algo que você pode fazer esta tarde. Este guia aborda todas as rotas para acesso M3 de baixo custo e sem custo, o que está disponível hoje e o que está por vir. Se você quiser o contexto completo sobre o próprio modelo, leia o que é MiniMax M3 primeiro.
Aqui está a versão curta. O M3 oferece uma janela de contexto de até 1.000.000 tokens, codificação de nível de ponta e entrada multimodal nativa. A publicação oficial de lançamento está em o anúncio do MiniMax M3. Agora, vamos fazer você usá-lo sem gastar dinheiro.
Rota 1: execute os pesos abertos você mesmo
Esta é a rota que torna o "gratuito" honesto. Uma vez que o MiniMax disponibilize os pesos, você os baixa, os executa em seu próprio hardware ou em uma GPU alugada, e não paga nada em taxas de API por token. Você é o proprietário da inferência. Sem limites de taxa além da sua própria máquina, sem dados saindo da sua rede, sem fatura mensal.
O problema é que "pesos gratuitos" não significa "gratuito para executar". Você ainda precisa de capacidade de computação. Se você tem uma GPU local capaz, seu único custo é a eletricidade. Se você aluga uma GPU na nuvem por hora, você troca o medidor da API por um medidor de instância, o que ainda pode superar os preços hospedados para cargas de trabalho estáveis.
Quando os pesos chegarem ao Hugging Face, você escolherá uma pilha de inferência com base no formato lançado:
- vLLM para serving de alto rendimento com um endpoint compatível com OpenAI. Ótima escolha se você estiver executando um agente ou aplicativo que acessa o modelo constantemente. Consulte a documentação do vLLM para começar.
- SGLang para geração estruturada e cargas de trabalho multi-turn rápidas.
- llama.cpp se uma compilação GGUF quantizada for lançada e você quiser executar em hardware de consumo ou até mesmo em CPU.
Uma nota sobre hardware: a MiniMax não divulgou a contagem de parâmetros para o M3, então qualquer um que lhe dê números exatos de VRAM hoje está adivinhando. Seu requisito real depende do tamanho do peso lançado e da quantização que você usa. Uma quantização de 4 bits precisa de muito menos memória do que a precisão total. Quando os pesos forem lançados, verifique o cartão do modelo no Hugging Face para a configuração recomendada. Essa página é a fonte da verdade, não um post de blog escrito antes do lançamento.
Se hospedar você mesmo um modelo chinês de peso aberto parece atraente, mas você prefere começar com um que já pode ser baixado, o mesmo manual funciona para o Qwen. Cobrimos isso passo a passo em como usar o Qwen 3.7 gratuitamente.
Rota 2: o acesso hospedado mais barato
Nem todo mundo quer gerenciar uma GPU. Se você prefere chamar um endpoint e esquecer a infraestrutura, a API hospedada da MiniMax é o caminho rápido. Não é gratuita, mas o preço de entrada é baixo para o que você obtém.
A MiniMax vende acesso através de planos de tokens por assinatura:
| Plano | Preço | Tokens por mês |
|---|---|---|
| Plus | $20/mês | ~1.7B |
| Max | $50/mês | ~5.1B |
| Ultra | $120/mês | ~9.8B |
O plano Plus de $20 é o ponto de entrada realista. Cerca de 1,7 bilhão de tokens por mês cobrem muita experimentação, prototipagem e uso leve em produção antes que você precise aumentar. Verifique a visão geral da API MiniMax para detalhes atuais do plano, já que as alocações de tokens e preços podem mudar.
O acesso hospedado vence quando seu uso é esporádico ou de baixo volume. Se você só acessa o modelo algumas milhares de vezes por mês, pagar $20 supera alugar uma GPU que fica ociosa a maior parte do dia. Também vence quando você precisa do contexto de 1M de tokens sem provisionar memória suficiente para mantê-lo você mesmo. A configuração completa da solicitação, incluindo a URL base https://api.minimax.io/v1 e o ID do modelo MiniMax-M3, é abordada em como usar a API MiniMax M3.
Rota 3: testes gratuitos e o playground
Este é o ponto em que você deve ser cético em relação a qualquer um que prometa um nível gratuito permanente. Atualmente, a MiniMax não documenta uma permissão de API gratuita permanente para o M3. Não vamos inventar uma.
O que você pode fazer é verificar a plataforma diretamente para créditos de teste atuais. Créditos para novas contas e concessões promocionais vêm e vão, e são o tipo de coisa que muda mais rápido do que qualquer artigo pode acompanhar. Faça login na plataforma MiniMax, olhe para o seu painel de faturamento e veja se há um saldo de teste lá. Se um playground web estiver disponível, essa é muitas vezes a maneira de testar prompts sem configuração antes de se comprometer com um plano ou uma construção de auto-hospedagem.
Trate qualquer crédito gratuito como uma forma de avaliar o M3, não como uma estratégia de produção. Depois de saber que o modelo se encaixa no seu caso de uso, escolha a Rota 1 ou a Rota 2 para trabalho contínuo.
Rota 4: hosts de terceiros (fique de olho nestes)
Aqui está a rota que se abre no momento em que os pesos se tornam públicos. Quando um modelo de peso aberto é lançado, os agregadores de inferência correm para hospedá-lo. Plataformas estilo OpenRouter e provedores de GPU independentes adicionam novos modelos abertos em poucos dias, e muitas vezes competem por preço o suficiente para ter camadas gratuitas ou quase gratuitas para atrair usuários.
Então, o conselho prático é observar os agregadores depois que os pesos forem lançados. Você pode encontrar um endpoint M3 por uma fração do preço da primeira parte, ou uma cota diária gratuita destinada a atraí-lo. A desvantagem é que você está confiando a terceiros seus prompts e seu tempo de atividade, então leia a política de dados deles antes de rotear algo sensível através deles.
Essa dinâmica faz parte de uma história maior. A razão pela qual os laboratórios chineses continuam a abrir o código de modelos de ponta e cortar preços é uma verdadeira corrida pela preferência dos desenvolvedores. Desvendamos isso em a guerra de preços de LLM chinês de 2026, e o lançamento de peso aberto do M3 é o movimento mais recente nesse jogo.
Testando sua configuração gratuita
Qualquer que seja a rota que você escolher, você precisa saber se sua configuração realmente funciona antes de construir sobre ela. Um endpoint auto-hospedado e a API hospedada devem ambos falar o mesmo formato compatível com OpenAI, mas "devem" não é "fazem". Latência, qualidade de saída e manipulação de tokens podem diferir entre uma compilação local quantizada e o serviço de primeira parte.

É aqui que um cliente API se destaca. Direcione suas solicitações através do Apidog e você pode disparar o mesmo prompt para seu M3 auto-hospedado e para o endpoint hospedado lado a lado, e então comparar as respostas, tempos de resposta e uso de tokens em um só lugar. Salve ambos como solicitações em uma coleção, troque a URL base entre http://localhost:8000/v1 e https://api.minimax.io/v1, e você terá um teste A/B limpo de acesso gratuito versus pago.
O Apidog também permite que você salve o ID do modelo MiniMax-M3 e seu cabeçalho de autenticação como variáveis de ambiente, então alternar entre um servidor vLLM local e a nuvem está a um menu suspenso de distância. Se você quiser acompanhar, baixe o Apidog e crie uma nova solicitação em seu endpoint. O mesmo fluxo de trabalho se aplica a outros modelos também, o que é útil se você já estiver executando algo como a configuração em como usar o DeepSeek V4 Pro com Cursor.
Gratuito vs pago: qual você deve escolher
Não há uma única resposta certa. Depende do que você está construindo e da frequência com que você chama o modelo.
| Caso de uso | Melhor rota | Porquê |
|---|---|---|
| Projeto de hobby, chamadas ocasionais | Hosted Plus ($20) ou crédito de teste | Barato, zero operações, sem custo de GPU ociosa |
| Aprendizado e prototipagem | Auto-hospedar os pesos abertos | Gratuito por token, controle total, sem limites de taxa |
| Codificação agêntica em escala | Auto-hospedar em uma GPU alugada | Alto volume constante torna a inferência própria mais barata que por token |
| Trabalhos ocasionais de 1M de tokens | API hospedada | Evita o provisionamento de memória para contextos enormes por conta própria |
| Trabalho sensível à privacidade | Auto-hospedar | Prompts nunca saem da sua máquina |
O padrão é simples. Volume baixo ou esporádico favorece a API hospedada. Volume alto e constante favorece a auto-hospedagem assim que os pesos estiverem disponíveis. As necessidades de privacidade o empurram para a auto-hospedagem, independentemente do volume.
FAQ
O MiniMax M3 é realmente gratuito? Pode ser. O M3 é um modelo de peso aberto, então, uma vez que a MiniMax publique os pesos, você pode executá-lo em seu próprio hardware sem taxas por token. Você ainda pagará pela computação, seja sua conta de eletricidade ou uma GPU alugada. O modelo em si é gratuito para usar; a infraestrutura para executá-lo não é.
Os pesos já foram lançados? Não no momento da escrita. A MiniMax se comprometeu a abrir o código do M3 e diz que os pesos chegarão em poucos dias após o lançamento em 1º de junho. Até que apareçam no Hugging Face, você não pode baixá-los e executá-los. Verifique os canais oficiais e a página do modelo no Hugging Face para o lançamento ao vivo.
Qual hardware eu preciso para auto-hospedar o M3? Isso depende do tamanho do peso lançado e da quantização que você escolher, e a MiniMax ainda não publicou a contagem de parâmetros. Não confie em figuras específicas de VRAM antes que os pesos sejam lançados. Quando o cartão do modelo for disponibilizado no Hugging Face, ele listará a configuração recomendada. Uma quantização de 4 bits via llama.cpp será executada em hardware muito mais modesto do que uma compilação de precisão total via vLLM.
Existe uma chave de API gratuita? Não há um nível gratuito permanente documentado para a API hospedada. A rota mais barata confirmada é o plano Plus de $20/mês, que inclui cerca de 1,7B de tokens. Verifique a plataforma para qualquer crédito de teste atual em novas contas e observe os agregadores de terceiros após o lançamento dos pesos abertos, pois alguns podem ter cotas gratuitas.
Como o acesso gratuito ao M3 se compara ao Qwen ou DeepSeek? Todos os três fazem parte da mesma onda de pesos abertos de laboratórios chineses, e o manual de auto-hospedagem é quase idêntico entre eles. Os pesos do Qwen já podem ser baixados hoje, então, se você quiser começar agora, consulte como usar o Qwen 3.7 gratuitamente. O panorama competitivo completo está em a guerra de preços de LLM chinês de 2026.
Posso usar o M3 gratuitamente com uma ferramenta de codificação como o Cursor? Uma vez que você tenha um endpoint funcionando, seja auto-hospedado ou hospedado, você pode apontar a maioria das ferramentas de codificação compatíveis com OpenAI para ele. A abordagem espelha o que documentamos em como usar o DeepSeek V4 Pro com Cursor: defina a URL base, forneça sua chave e selecione o ID do modelo.
Conclusão
O acesso gratuito ao MiniMax M3 se resume a um fato: é um modelo de peso aberto. Isso coloca a auto-hospedagem em jogo de uma forma que os modelos de ponta fechados nunca permitiriam. Hoje, suas opções honestas são o plano Plus hospedado de $20 e qualquer crédito de teste que sua conta mostre. No momento em que os pesos chegarem ao Hugging Face, a Rota 1 e a Rota 4 se abrem, e o uso genuinamente gratuito se torna um download de distância. Prepare sua pilha de inferência agora, fique atento ao lançamento e teste cada endpoint através do Apidog para saber exatamente o que você está recebendo antes de construir sobre ele.
