Como Executar o GLM-5 Localmente Grátis

Ashley Innocent

Ashley Innocent

13 fevereiro 2026

Como Executar o GLM-5 Localmente Grátis

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Você quer acesso a um dos modelos abertos mais capazes de 2026—GLM-5 da Z.ai—sem pagar um único centavo por chamadas de API ou computação em nuvem. Engenheiros e desenvolvedores conseguem isso hoje executando o GLM-5 localmente em hardware de consumidor e prosumidor. A quantização agressiva da Unsloth encolhe o modelo Mixture-of-Experts de 744B parâmetros (40B ativos) de 1.65TB para apenas 241GB, e você pode implantá-lo via llama.cpp, Ollama ou vLLM.

💡
Antes de começar, baixe o Apidog gratuitamente. Este poderoso cliente de API transforma a maneira como você testa e depura seu endpoint GLM-5 local. Você constrói requisições visualmente, gera código SDK, executa testes automatizados e monitora o uso de tokens—tudo isso mantendo suas experiências completamente privadas. O Apidog combina perfeitamente com os servidores compatíveis com OpenAI que você irá configurar, então você passa de curls brutos para integrações prontas para produção em minutos.
botão

Você executa o GLM-5 localmente! O processo exige atenção ao hardware, etapas de construção precisas e estratégias inteligentes de descarregamento. Este guia o orienta por cada método, explica por que cada comando é importante e mostra como extrair o máximo desempenho de sua configuração. Você ganha soberania total dos dados, latência zero para fluxos de trabalho agentivos e inferência ilimitada.

O Que Torna o GLM-5 um Divisor de Águas para Implantação Local?

A Z.ai lançou o GLM-5 como sucessor do GLM-4.7. O modelo escala para 744B de parâmetros totais com 40B ativos por token, treinado em 28.5T tokens. Ele oferece resultados de ponta em benchmarks agentivos: 77.8% no SWE-bench Verified, 89.7% no τ²-Bench e 61.1% no Terminal-Bench 2.0 com ferramentas.

Você se beneficia de uma janela de contexto de 200K graças à DeepSeek Sparse Attention. O modelo se destaca em raciocínio de longo horizonte, chamadas de ferramentas multi-turn e geração complexa de código. Além disso, a licença MIT aberta permite que você o execute, modifique e até mesmo comercialize sem restrições.

A imagem mostra um gráfico de benchmark comparando o GLM-5 com outros modelos de linguagem, destacando seu desempenho superior em tarefas específicas como SWE-Bench e Terminal-Bench 2.0.

No entanto, o modelo bruto requer 1.65TB de armazenamento e VRAM massiva. A Unsloth mudou o jogo ao lançar as quantizações Dynamic 2.0 GGUF—UD-IQ2_XXS em 241GB (-85%) e 1-bit em 176GB (-89%). Essas versões preservam a qualidade do raciocínio através de upcasting de camadas inteligentes, enquanto se encaixam em um Mac com memória unificada de 256GB ou em uma única GPU de 24GB emparelhada com 256GB de RAM do sistema.

Você executa o GLM-5 localmente com essas quantizações porque elas equilibram tamanho, velocidade e capacidade. Benchmarks mostram degradação mínima em tarefas de codificação e agente em comparação com a precisão total.

A imagem mostra um gráfico de barras comparando o desempenho da quantização UD-IQ2_XXS do GLM-5 da Unsloth com a versão original FP16 em vários benchmarks, como HellaSwag, MMLU, GPQA e DROP. O gráfico ilustra que a versão quantizada mantém um desempenho comparável ao FP16, com apenas uma leve queda.

Por Que Executar o GLM-5 Localmente em Vez de Usar APIs na Nuvem?

Você elimina custos recorrentes. Provedores de nuvem cobram por token, e as capacidades do GLM-5 tornam o uso intensivo rapidamente caro. A inferência local não custa nada além de eletricidade.

Você protege dados sensíveis. Empresas e pesquisadores mantêm código proprietário, registros médicos ou consultas de clientes completamente offline.

Você alcança menor latência. Modelos locais respondem em milissegundos para bate-papo e loops de chamada de ferramenta. Você encadeia agentes sem saltos de rede.

Você personaliza livremente. Você faz fine-tuning com Unsloth, cria Modelfiles em Ollama ou constrói ferramentas personalizadas em vLLM.

Além disso, você experimenta sem limites de taxa. Você testa contextos de 200K, executa conversas de 1000 turnos ou compara a precisão da chamada de ferramentas durante a noite.

Requisitos de Hardware: O Que Você Realmente Precisa

Você adapta sua configuração ao nível de quantização.

Você monitora o uso com nvidia-smi no Linux ou Activity Monitor no macOS. O armazenamento SSD acelera o offloading. Você aloca pelo menos 50GB livres para os arquivos do modelo e cache.

Método 1: Executar GLM-5 Localmente com Unsloth GGUF no llama.cpp (Mais Acessível)

Você escolhe este caminho para máxima flexibilidade e eficiência em hardware misto.

Passo 1: Construir llama.cpp com Suporte a GLM-5

Você precisa do llama.cpp mais recente com o PR 19460 mesclado.

apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON  # Use -DGGML_CUDA=OFF para apenas CPU
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .

Você executa isso uma vez. A construção leva de 10 a 20 minutos, dependendo da sua máquina.

Passo 2: Baixar o Modelo Quantizado

Você usa huggingface_hub para transferências rápidas.

pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"

Você agora tem o modelo de 241GB dividido em shards.

Passo 3: Iniciar Inferência

Você inicia o CLI para uso interativo.

export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
  -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
  --jinja \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 0.7 \
  --top-p 1.0 \
  --fit on

Você adiciona --threads 32 para configurações com uso intenso de CPU ou -ot ".ffn_.*_exps.=CPU" para descarregar especialistas MoE.

Passo 4: Servir como API OpenAI

Você expõe o modelo para aplicações.

./llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "glm-5" \
  --fit on \
  --ctx-size 32768 \
  --port 8000 \
  --jinja

Você agora aponta qualquer cliente OpenAI para http://localhost:8000/v1.

Você alcança 3–8 tokens/segundo em uma GPU de 24GB com esta configuração. Você escala o contexto para 128K sem travar ao usar --fit on.

Método 2: Executar GLM-5 Localmente com Ollama (Mais Fácil para Iniciantes)

Você prefere a simplicidade. O Ollama lida com downloads, quantização e serviço automaticamente.

Instalação

Você baixa de ollama.com e executa o instalador. No Linux:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Puxar e Executar GLM-5

Você usa a tag otimizada pela comunidade.

ollama pull glm-5:cloud
ollama run glm-5:cloud

Você interage diretamente no terminal ou através da API em http://localhost:11434/v1.

Criar um Modelfile Personalizado

Você personaliza o prompt do sistema e os parâmetros.

FROM glm-5:cloud
SYSTEM Você é um arquiteto de software especialista com profundo conhecimento de sistemas distribuídos.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072

Você constrói e executa:

ollama create my-glm5 -f Modelfile
ollama run my-glm5

Você integra com Claude Code, Cursor ou Continue.dev configurando o endpoint Ollama. Você obtém uma alternativa local refinada para agentes de codificação em nuvem.

Método 3: Implantação Avançada com vLLM (Desempenho Máximo)

Você precisa do maior throughput para agentes de produção.

Você instala a versão nightly:

uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130

Você inicia o servidor (a versão FP8 requer 8×H200):

vllm serve unsloth/GLM-5-FP8 \
  --served-model-name glm-5 \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.93

Você habilita a decodificação especulativa e a chamada de ferramentas. Você atende milhares de requisições por minuto em um cluster multi-GPU.

Testar e Depurar Seu GLM-5 Local com Apidog

Você conecta o Apidog ao seu endpoint e verifica se tudo funciona.

A imagem mostra a interface do Apidog com uma requisição de API sendo configurada para o endpoint /v1/chat/completions de um modelo GLM-5 local. Detalhes como o URL, modelo 'glm-5', mensagens (sistema e usuário) e temperatura são visíveis, indicando como testar e depurar um LLM localmente.

Você cria um novo projeto, define a URL base para http://localhost:8000/v1 (ou 11434 para Ollama) e define o endpoint /chat/completions.

Você constrói requisições visualmente:

Você envia requisições, inspeciona respostas de streaming e salva coleções para testes de regressão. Você gera SDKs Python ou JavaScript instantaneamente. Você simula respostas para equipes de frontend.

O Apidog transforma seu GLM-5 local em uma plataforma de desenvolvimento de primeira classe. Você itera em agentes, valida saídas de ferramentas e mede a latência—tudo sem sair da interface.

Técnicas de Otimização de Desempenho

Você extrai mais velocidade do seu hardware.

Você alcança 15–25 tokens/segundo em uma configuração dual RTX 4090 com esses ajustes.

Problemas Comuns e Como Resolvê-los

Você encontra erros de memória. Você reduz o contexto para 16K ou descarrega mais camadas.

Você vê chamadas de ferramentas ruins. Você define a temperatura para 1.0 e top-p para 0.95, depois usa a flag --tool-call-parser glm47.

Você experimenta downloads lentos. Você habilita hf_transfer e usa um mirror rápido.

Você encontra "CUDA out of memory". Você adiciona --gpu-memory-utilization 0.85 e fecha processos em segundo plano.

Você sempre verifica a documentação da Unsloth e o repositório GLM-5 GGUF para os shards mais recentes.

O Caminho à Frente: GLM-5 Local e Além

Você testemunha a mudança para a IA soberana. Modelos como o GLM-5 provam que a capacidade de ponta roda em hardware que você já possui. Você o combina com bancos de dados vetoriais locais, servidores de ferramentas e frameworks de agentes para construir sistemas privados e de alto desempenho.

Você se junta à comunidade no Hugging Face, r/LocalLLaMA do Reddit e no Discord da Unsloth. Você compartilha Modelfiles, resultados de benchmarks e quantizações personalizadas.

Você executa o GLM-5 localmente hoje. Você controla a computação, os dados e o futuro de sua pilha de IA.

Comece com o GGUF de 2 bits no llama.cpp. Baixe o Apidog. Ligue o servidor. Você ficará impressionado com o que pode construir quando o modelo vive em sua máquina.

A era dos modelos de ponta verdadeiramente locais chegou. Você aproveita ao máximo.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs