Como Usar DeepSeek V4 Grátis: Guia Completo

Ashley Innocent

Ashley Innocent

24 abril 2026

Como Usar DeepSeek V4 Grátis: Guia Completo

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

DeepSeek V4 foi lançado em 23 de abril de 2026 e, ao contrário da maioria dos lançamentos de ponta, os caminhos gratuitos são reais. O chat web oficial executa o V4-Pro sem necessidade de cartão de crédito. Os pesos são licenciados pelo MIT e estão disponíveis para download hoje. Agregadores como OpenRouter e Chutes geralmente expõem camadas gratuitas poucos dias após um lançamento do DeepSeek. Somando tudo, você pode executar cargas de trabalho sérias do V4 a custo zero antes mesmo de decidir se deseja recarregar uma conta.

Este guia detalha todos os caminhos sem custo que podemos verificar, qual se adapta a cada caso de uso e como configurar uma coleção pronta para produção no Apidog para que a transição para a cobrança paga seja suave quando o uso aumentar.

botão

Para uma visão geral do produto, consulte o que é DeepSeek V4. Para o guia completo da API, consulte como usar a API do DeepSeek V4.

TL;DR

Caminho 1: chat.deepseek.com (o caminho gratuito padrão)

O caminho gratuito mais rápido e confiável é a interface de chat oficial. O V4-Pro é o modelo padrão; o botão na parte superior do compositor alterna entre os modos de raciocínio Non-Think, Think High e Think Max.

Configuração

  1. Abra chat.deepseek.com.
  2. Faça login com e-mail, Google ou WeChat.
  3. Confirme que o modelo ativo é V4-Pro.
  4. Comece a digitar.

O que você obtém

Como são os limites

O DeepSeek não publica um limite rígido de mensagens por dia; o nível gratuito é suavizado sob carga. O uso intenso pode atrasar as respostas ou enfileirar solicitações, mas raramente bloqueia completamente. Se você começar a ver limites de taxa persistentes, esse é o sinal para diminuir a cadência ou mudar para a API.

Boas tarefas para a interface web: testar se o V4 supera o Claude no seu prompt mais difícil, colar um tarball de repositório para uma revisão arquitetônica, executar o Think Max em um contrato que você pagaria um advogado para ler. Tarefas ruins: qualquer coisa que precise de automação ou reprodutibilidade.

Caminho 2: Auto-hospede o V4-Flash na sua própria GPU

O V4-Flash é a variante licenciada pelo MIT que a maioria das pessoas pode auto-hospedar realisticamente. Com 284B no total e 13B ativos, uma caixa multi-H100 o executa em FP8 com uma taxa de transferência séria, e uma quantização INT4 o coloca em uma única placa de 80GB.

O custo aqui é de hardware, não de licenciamento. Se você já tem capacidade de GPU, este é o caminho gratuito mais durável; ele não pode ser limitado por taxa, depreciado ou retirado.

Baixe os pesos

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash

Espere aproximadamente 500GB em FP8. Reserve espaço em disco.

Sirva com vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000

Uma vez que esteja ativo, aponte qualquer cliente compatível com OpenAI para http://localhost:8000/v1. O endpoint aceita o mesmo formato de solicitação da API paga do DeepSeek; o Apidog o vê como outra URL base e todas as suas coleções salvas funcionam sem alterações.

Verificação da realidade do hardware

Variante Placas mínimas (FP8) Placas mínimas (INT4) Taxa de transferência realista
V4-Flash 2 × H100 80GB 1 × H100 80GB 50 a 150 tok/s
V4-Pro 16 × H100 80GB 8 × H100 80GB dependente do cluster

Se você não tem placas ociosas, a matemática geralmente favorece a API em vez de alugar GPUs por hora. O caminho auto-hospedado é principalmente para equipes com capacidade existente ou requisitos de conformidade rigorosos.

Caminho 3: Nível gratuito do OpenRouter

OpenRouter é um gateway de nível de solicitação que agrega modelos de pesos abertos e fechados por trás de uma única API. A plataforma rotineiramente abre níveis gratuitos em novos lançamentos do DeepSeek, e o padrão se manteve para V3, V3.1 e V3.2.

Configuração

  1. Cadastre-se em openrouter.ai.
  2. Crie uma chave de API.
  3. Verifique o catálogo de modelos para deepseek/deepseek-v4-pro ou deepseek/deepseek-v4-flash; as variantes gratuitas geralmente são sufixadas com :free.
  4. Chame-o com o SDK compatível com OpenAI.
from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Escreva uma CLI Python para aumento de versão semver."}],
)

print(response.choices[0].message.content)

Limites

As camadas gratuitas no OpenRouter geralmente limitam algumas centenas de solicitações por dia por chave e reduzem a prioridade sob carga. Perfeito para prototipagem, não confiável para produção.

Caminho 4: Provedores de Inferência Hugging Face

O Hugging Face executa uma superfície de inferência hospedada que expõe os checkpoints V4 logo após o lançamento. Os limites de taxa são rigorosos e a latência varia, mas é gratuito para usar.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Resuma o relatório técnico do V4 em 5 pontos."}],
    max_tokens=512,
)

print(response.choices[0].message.content)

O token HF é gratuito. Para uso mais intenso, faça upgrade para uma conta Pro; os limites de taxa ficam mais flexíveis, mas o custo ainda é uma ordem de magnitude abaixo da API oficial para cargas de trabalho comparáveis.

Caminho 5: Créditos de teste no Colab, Kaggle, RunPod e Lambda

Todo grande provedor de aluguel de GPU oferece créditos de teste. Bem utilizados, eles cobrem experimentos pontuais com V4-Flash sem nunca gastar dinheiro real.

Nenhum desses são caminhos gratuitos de longo prazo. Eles funcionam bem para um experimento limitado e nada mais.

Crie uma coleção Apidog agnóstica de provedor

A recompensa prática de tantos caminhos gratuitos é que você pode testar o mesmo prompt em todos eles sem duplicar o trabalho. O fluxo de trabalho:

  1. Baixe o Apidog.
  2. Crie uma coleção com quatro ambientes: chat (placeholder), deepseek (https://api.deepseek.com/v1), openrouter (https://openrouter.ai/api/v1), self-hosted (http://localhost:8000/v1).
  3. Salve uma única solicitação POST para {{BASE_URL}}/chat/completions.
  4. Armazene a chave de cada provedor como uma variável secreta para que o corpo da solicitação seja idêntico em todos os ambientes.
  5. Alterne entre os ambientes para fazer testes A/B do mesmo prompt em cada backend.

Este é o mesmo padrão usado para a coleção gratuita do GPT-5.5; uma ferramenta, todo provedor, sem trabalho duplicado.

Qual caminho gratuito você deve escolher?

Quatro heurísticas cobrem a maioria das decisões.

Quando sair do nível gratuito

Três sinais indicam que você superou o nível gratuito.

  1. Você é limitado por taxa mais de uma vez ao dia. Isso significa que a carga de trabalho é grande o suficiente para merecer um orçamento.
  2. Você precisa de SLAs. Os níveis gratuitos não os oferecem. A API oficial sim.
  3. Você precisa registrar, auditar ou passar por conformidade. A API paga retorna registros de cobrança claros; a maioria dos níveis gratuitos de agregadores não.

Quando qualquer um desses cenários ocorrer, mude para a API oficial. A recarga mínima é de US$ 2 e o preço por token é o mais baixo na camada de ponta.

FAQ

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs