DeepSeek V4 foi lançado em 23 de abril de 2026 e, ao contrário da maioria dos lançamentos de ponta, os caminhos gratuitos são reais. O chat web oficial executa o V4-Pro sem necessidade de cartão de crédito. Os pesos são licenciados pelo MIT e estão disponíveis para download hoje. Agregadores como OpenRouter e Chutes geralmente expõem camadas gratuitas poucos dias após um lançamento do DeepSeek. Somando tudo, você pode executar cargas de trabalho sérias do V4 a custo zero antes mesmo de decidir se deseja recarregar uma conta.
Este guia detalha todos os caminhos sem custo que podemos verificar, qual se adapta a cada caso de uso e como configurar uma coleção pronta para produção no Apidog para que a transição para a cobrança paga seja suave quando o uso aumentar.
Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o guia completo da API, consulte como usar a API do DeepSeek V4.
TL;DR
- chat.deepseek.com — chat web gratuito no V4-Pro com alternadores Think High e Think Max. Sem cartão. Funciona hoje.
- Pesos do Hugging Face + sua própria GPU — Licença MIT, V4-Flash roda em 2 a 4 H100s, V4-Pro precisa de um cluster.
- Camadas gratuitas do OpenRouter e Chutes — gateways de terceiros que geralmente abrem cota gratuita em modelos DeepSeek dentro de uma semana após o lançamento.
- Provedores de Inferência Hugging Face — um endpoint compartilhado e com limite de taxa que expõe o V4 para experimentação inicial.
- Créditos de teste do Kaggle, Colab e RunPod — computação gratuita para execuções únicas quando você quiser testar a auto-hospedagem.
- Todo caminho gratuito limita o uso. Para cargas de trabalho de produção, passe para a cobrança paga antes que o limite seja atingido.

Caminho 1: chat.deepseek.com (o caminho gratuito padrão)
O caminho gratuito mais rápido e confiável é a interface de chat oficial. O V4-Pro é o modelo padrão; o botão na parte superior do compositor alterna entre os modos de raciocínio Non-Think, Think High e Think Max.

Configuração
- Abra chat.deepseek.com.
- Faça login com e-mail, Google ou WeChat.
- Confirme que o modelo ativo é V4-Pro.
- Comece a digitar.
O que você obtém
- A janela de contexto completa de 1M tokens.
- Upload de arquivos para PDFs, imagens e pacotes de código.
- Pesquisa web sob demanda.
- Todos os três modos de raciocínio, incluindo Think Max.
- Histórico de conversas e pastas.
Como são os limites
O DeepSeek não publica um limite rígido de mensagens por dia; o nível gratuito é suavizado sob carga. O uso intenso pode atrasar as respostas ou enfileirar solicitações, mas raramente bloqueia completamente. Se você começar a ver limites de taxa persistentes, esse é o sinal para diminuir a cadência ou mudar para a API.
Boas tarefas para a interface web: testar se o V4 supera o Claude no seu prompt mais difícil, colar um tarball de repositório para uma revisão arquitetônica, executar o Think Max em um contrato que você pagaria um advogado para ler. Tarefas ruins: qualquer coisa que precise de automação ou reprodutibilidade.
Caminho 2: Auto-hospede o V4-Flash na sua própria GPU
O V4-Flash é a variante licenciada pelo MIT que a maioria das pessoas pode auto-hospedar realisticamente. Com 284B no total e 13B ativos, uma caixa multi-H100 o executa em FP8 com uma taxa de transferência séria, e uma quantização INT4 o coloca em uma única placa de 80GB.
O custo aqui é de hardware, não de licenciamento. Se você já tem capacidade de GPU, este é o caminho gratuito mais durável; ele não pode ser limitado por taxa, depreciado ou retirado.
Baixe os pesos
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Espere aproximadamente 500GB em FP8. Reserve espaço em disco.
Sirva com vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Uma vez que esteja ativo, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. O endpoint aceita o mesmo formato de solicitação da API paga do DeepSeek; o Apidog o vê como outra URL base e todas as suas coleções salvas funcionam sem alterações.
Verificação da realidade do hardware
| Variante | Placas mínimas (FP8) | Placas mínimas (INT4) | Taxa de transferência realista |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 a 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | dependente do cluster |
Se você não tem placas ociosas, a matemática geralmente favorece a API em vez de alugar GPUs por hora. O caminho auto-hospedado é principalmente para equipes com capacidade existente ou requisitos de conformidade rigorosos.
Caminho 3: Nível gratuito do OpenRouter
OpenRouter é um gateway de nível de solicitação que agrega modelos de pesos abertos e fechados por trás de uma única API. A plataforma rotineiramente abre níveis gratuitos em novos lançamentos do DeepSeek, e o padrão se manteve para V3, V3.1 e V3.2.

Configuração
- Cadastre-se em openrouter.ai.
- Crie uma chave de API.
- Verifique o catálogo de modelos para
deepseek/deepseek-v4-prooudeepseek/deepseek-v4-flash; as variantes gratuitas geralmente são sufixadas com:free. - Chame-o com o SDK compatível com OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Escreva uma CLI Python para aumento de versão semver."}],
)
print(response.choices[0].message.content)
Limites
As camadas gratuitas no OpenRouter geralmente limitam algumas centenas de solicitações por dia por chave e reduzem a prioridade sob carga. Perfeito para prototipagem, não confiável para produção.
Caminho 4: Provedores de Inferência Hugging Face
O Hugging Face executa uma superfície de inferência hospedada que expõe os checkpoints V4 logo após o lançamento. Os limites de taxa são rigorosos e a latência varia, mas é gratuito para usar.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Resuma o relatório técnico do V4 em 5 pontos."}],
max_tokens=512,
)
print(response.choices[0].message.content)
O token HF é gratuito. Para uso mais intenso, faça upgrade para uma conta Pro; os limites de taxa ficam mais flexíveis, mas o custo ainda é uma ordem de magnitude abaixo da API oficial para cargas de trabalho comparáveis.
Caminho 5: Créditos de teste no Colab, Kaggle, RunPod e Lambda
Todo grande provedor de aluguel de GPU oferece créditos de teste. Bem utilizados, eles cobrem experimentos pontuais com V4-Flash sem nunca gastar dinheiro real.
- Google Colab. O nível gratuito T4 é muito pequeno para V4. O Colab Pro+ oferece 500 unidades de computação por mês, o suficiente para alguns experimentos com V4-Flash em um A100.
- Kaggle. Horas gratuitas semanais de GPU em T4 e P100. Muito pequeno para V4-Pro, às vezes suficiente para experimentos com V4-Flash quantizado.
- RunPod. Crédito de teste de US$ 10 cobre algumas horas em um H100. O suficiente para iniciar o vLLM, executar um pacote de benchmarks e desligá-lo.
- Lambda. Promoções ocasionais de horas gratuitas em H100 e H200; fique atento à página de cadastro para ofertas ativas.
Nenhum desses são caminhos gratuitos de longo prazo. Eles funcionam bem para um experimento limitado e nada mais.
Crie uma coleção Apidog agnóstica de provedor
A recompensa prática de tantos caminhos gratuitos é que você pode testar o mesmo prompt em todos eles sem duplicar o trabalho. O fluxo de trabalho:
- Baixe o Apidog.
- Crie uma coleção com quatro ambientes:
chat(placeholder),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Salve uma única solicitação POST para
{{BASE_URL}}/chat/completions. - Armazene a chave de cada provedor como uma variável secreta para que o corpo da solicitação seja idêntico em todos os ambientes.
- Alterne entre os ambientes para fazer testes A/B do mesmo prompt em cada backend.
Este é o mesmo padrão usado para a coleção gratuita do GPT-5.5; uma ferramenta, todo provedor, sem trabalho duplicado.
Qual caminho gratuito você deve escolher?
Quatro heurísticas cobrem a maioria das decisões.
- Quero formar uma opinião em cinco minutos. Use chat.deepseek.com.
- Quero prototipar um produto. Use o nível gratuito do OpenRouter até atingir o limite, então recarregue no DeepSeek.
- Tenho GPUs e uma história de conformidade. Auto-hospede o V4-Flash no vLLM.
- Preciso de uso gratuito a longo prazo. Não existe tal coisa. Todo nível gratuito hospedado tem um limite em algum lugar. Combine chat.deepseek.com para trabalho interativo com uma recarga paga modesta para automação.
Quando sair do nível gratuito
Três sinais indicam que você superou o nível gratuito.
- Você é limitado por taxa mais de uma vez ao dia. Isso significa que a carga de trabalho é grande o suficiente para merecer um orçamento.
- Você precisa de SLAs. Os níveis gratuitos não os oferecem. A API oficial sim.
- Você precisa registrar, auditar ou passar por conformidade. A API paga retorna registros de cobrança claros; a maioria dos níveis gratuitos de agregadores não.
Quando qualquer um desses cenários ocorrer, mude para a API oficial. A recarga mínima é de US$ 2 e o preço por token é o mais baixo na camada de ponta.
FAQ
- O chat.deepseek.com é realmente gratuito?Sim. Sem cartão de crédito, sem tempo de teste. O serviço é suavizado, mas não tem paywall.
- Preciso de uma conta Hugging Face para baixar os pesos?Tecnicamente não, o repositório é público. Na prática sim; uma conta logada oferece melhores limites de taxa no download.
- Qual caminho gratuito executa o V4-Pro real?O chat.deepseek.com executa o V4-Pro completo. Os níveis gratuitos do OpenRouter geralmente oferecem V4-Flash. Se você precisa da saída do V4-Pro e não quer pagar, o chat web é o caminho confiável.
- Posso colocar um nível gratuito por trás de um produto?Não de forma responsável. Níveis gratuitos têm limites de taxa, mudam os termos e às vezes desaparecem. Se você está entregando V4 a clientes, use a API paga ou auto-hospede.
- A auto-hospedagem é realmente gratuita?A licença é gratuita. O hardware não. Se você já possui capacidade de GPU, o custo marginal é a eletricidade. Se você aluga, a matemática geralmente perde para a API paga.
- Haverá um nível gratuito Apidog para testes?O Apidog em si é gratuito para uso em design e teste de API; ele só custa créditos quando você acessa APIs pagas através dele. Então sim, você pode combinar um espaço de trabalho Apidog gratuito com chat.deepseek.com ou OpenRouter para um fluxo de trabalho totalmente gratuito.
