O DeepSeek V4 foi lançado em 23 de abril de 2026 com a API precificada tão baixo que a maioria das equipes pula completamente a busca por camadas gratuitas. Mas um caminho gratuito real existe para desenvolvedores que desejam chamar o V4 programaticamente antes de comprometer um cartão. Gateways agregadores expõem variantes :free, o Hugging Face oferece um endpoint de inferência compartilhado, e a API oficial concede um crédito de teste a novas contas. Junte os três, construa uma cadeia de fallback no Apidog, e você poderá prototipar um produto baseado em V4 sem gastar um centavo.
Este guia é o caminho gratuito específico para a API. Para o guia mais abrangente que inclui o chat da web e auto-hospedagem, consulte como usar o DeepSeek V4 gratuitamente. Para o passo a passo pago, consulte como usar a API DeepSeek V4. Para a visão geral do produto, consulte o que é DeepSeek V4.
EM RESUMO
- Camada gratuita do OpenRouter —
deepseek/deepseek-v4-flash:freee às vezesdeepseek-v4-pro:free. Compatível com OpenAI, algumas centenas de requisições por dia por chave. - Provedores de Inferência Hugging Face — endpoint compartilhado gratuito em
https://router.huggingface.co/hf-inference; com limite de taxa, útil para prototipagem. - Camada gratuita do Chutes — rede de GPU da comunidade que frequentemente expõe endpoints DeepSeek gratuitos dentro de uma semana após o lançamento.
- Crédito de teste do DeepSeek — novas contas em
platform.deepseek.comàs vezes recebem um pequeno saldo inicial. - O V4-Flash auto-hospedado em sua própria GPU também é gratuito no nível da licença; veja como executar o DeepSeek V4 localmente.
- Construa uma cadeia de fallback no Apidog para que o formato da requisição permaneça idêntico entre os provedores.

Por que o caminho gratuito da API existe
As taxas pagas do DeepSeek já são as mais baixas na camada de ponta, então por que procurar por algo gratuito? Três razões.
- Prototipagem pré-cartão. Você deseja chamar o V4 a partir do código antes de comprometer um método de pagamento, seja por razões de aquisição ou para uma prova de conceito rápida.
- Trabalhos de estudantes, pesquisa e código aberto. Pequenos projetos que não podem ter um orçamento ainda desejam uma qualidade de ponta real.
- Comparação de provedores. Executar o mesmo prompt contra o V4 em três endpoints gratuitos diferentes expõe diferenças de latência, qualidade e confiabilidade que só aparecem no tráfego de produção.
Se alguma dessas opções se encaixa, este guia é para você. Se você está construindo um produto para ser lançado, pule para o guia da API paga; a recarga mínima de US$ 2 na API oficial do DeepSeek é um negócio melhor do que lutar contra os limites de taxa.
Caminho 1: Camada gratuita do OpenRouter
O OpenRouter é um gateway de nível de requisição que agrega modelos de ponta por trás de uma API compatível com OpenAI. A plataforma libera de forma confiável variantes gratuitas nos lançamentos do DeepSeek; o padrão se manteve para o V3, V3.1, V3.2 e agora para o V4.
Configuração
- Cadastre-se em openrouter.ai.
- Crie uma chave de API em Configurações → Chaves.
- Verifique o catálogo de modelos para entradas com o sufixo
:free, geralmentedeepseek/deepseek-v4-flash:free. - Chame o endpoint com qualquer SDK compatível com OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_API_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Refactor this Go function to use channels."}],
)
print(response.choices[0].message.content)
Como são os limites
As requisições da camada gratuita no OpenRouter ficam na fila atrás do tráfego pago sob carga. Os limites típicos ficam em torno de 50 a 200 requisições por dia por chave com concorrência limitada. A variante pode ser desacelerada ou desaparecer sem aviso; esta é uma ferramenta de prototipagem, não um backend de produção.
Versão Node
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.OPENROUTER_API_KEY,
baseURL: "https://openrouter.ai/api/v1",
});
const response = await client.chat.completions.create({
model: "deepseek/deepseek-v4-flash:free",
messages: [{ role: "user", content: "Explain MoE routing like I'm 12." }],
});
console.log(response.choices[0].message.content);
Caminho 2: Provedores de Inferência Hugging Face
O Hugging Face opera um endpoint de inferência compartilhado que expõe checkpoints do V4 logo após o lançamento. É gratuito para chamar com um token HF logado, mas os limites de taxa são os mais rigorosos entre os caminhos gratuitos.
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
model="deepseek-ai/DeepSeek-V4-Flash",
token=os.environ["HF_TOKEN"],
)
response = client.chat_completion(
messages=[
{"role": "user", "content": "Write a Python decorator that retries with jitter."}
],
max_tokens=512,
)
print(response.choices[0].message.content)
O token HF é gratuito em huggingface.co/settings/tokens. A latência varia com a carga e o token conta para um orçamento diário compartilhado por conta. Atualize para o HF Pro para afrouxar os limites sem ter que usar a API paga do DeepSeek.
Caminho 3: Chutes e gateways da comunidade
Chutes é uma rede de GPU descentralizada que frequentemente hospeda modelos DeepSeek com preços gratuitos ou quase gratuitos. Ele expõe um endpoint compatível com OpenAI em https://llm.chutes.ai/v1.
client = OpenAI(
api_key=CHUTES_API_KEY,
base_url="https://llm.chutes.ai/v1",
)
response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Flash",
messages=[{"role": "user", "content": "Compare CSA and HCA attention in two sentences."}],
)
A disponibilidade muda rapidamente. Sempre verifique o ID do modelo atual e o custo no painel do provedor antes de construir uma dependência nele.
Caminho 4: Crédito de teste do DeepSeek
Historicamente, o DeepSeek tem concedido um pequeno crédito de teste a novas contas. O valor e o período variam; às vezes, US$ 1 aparecem em seu saldo após a verificação de e-mail. Sempre verifique o painel de faturamento em platform.deepseek.com após o cadastro.
Mesmo um teste de US$ 1 rende muito nas taxas do V4. Um US$ 1 completo cobre aproximadamente 7 milhões de tokens de entrada no V4-Flash ou 570K tokens de entrada no V4-Pro. Isso é suficiente para centenas de chamadas de protótipo de nível de produção.
Construa uma cadeia gratuita agnóstica de provedores no Apidog
A recompensa por suportar tantos caminhos gratuitos é um protótipo resiliente que se degrada graciosamente quando qualquer provedor limita as requisições. O fluxo de trabalho:
- Baixe o Apidog e crie um novo projeto.
- Crie quatro ambientes:
openrouter,huggingface,chutes,deepseek-trial. - Em cada um, armazene a chave de API respectiva como uma variável secreta e defina
BASE_URL. - Salve uma requisição POST para
{{BASE_URL}}/chat/completionscom um campomodelparametrizado. - Use a troca de ambiente para executar o mesmo prompt em todos os provedores com um clique.
A mesma abordagem funciona para os caminhos gratuitos da API GPT-5.5 correspondentes; copie a coleção e troque os provedores.
Monte uma cadeia de fallback no código
Quando um provedor gratuito limita as requisições, a solução mais limpa é um fallback automático. Usando o SDK do OpenAI:
import os
from openai import OpenAI, RateLimitError, APIError
PROVIDERS = [
{
"base_url": "https://openrouter.ai/api/v1",
"api_key": os.environ["OPENROUTER_API_KEY"],
"model": "deepseek/deepseek-v4-flash:free",
},
{
"base_url": "https://llm.chutes.ai/v1",
"api_key": os.environ["CHUTES_API_KEY"],
"model": "deepseek-ai/DeepSeek-V4-Flash",
},
{
"base_url": "https://api.deepseek.com/v1",
"api_key": os.environ["DEEPSEEK_API_KEY"],
"model": "deepseek-v4-flash",
},
]
def call_v4(messages):
for provider in PROVIDERS:
try:
client = OpenAI(
api_key=provider["api_key"],
base_url=provider["base_url"],
)
return client.chat.completions.create(
model=provider["model"],
messages=messages,
)
except (RateLimitError, APIError) as e:
print(f"{provider['base_url']} failed: {e}")
continue
raise RuntimeError("all providers exhausted")
Para que cada caminho gratuito realmente serve
| Caminho | Melhor para | Pior para |
|---|---|---|
| OpenRouter gratuito | Prototipagem, desenvolvimento diário | Qualquer coisa com SLAs rigorosos |
| Inferência HF | Chamadas exploratórias, notebooks | Cargas de trabalho de baixa latência |
| Chutes | Trabalho experimental da comunidade | Dependências de longo prazo |
| Teste DeepSeek | Testes de fidelidade total | Produção contínua |
| V4-Flash auto-hospedado | Trabalho vinculado à conformidade | Equipes sem capacidade de GPU |
Matemática de cota que importa
Uma rápida verificação da realidade sobre a vazão diária antes de se comprometer com qualquer caminho gratuito.
- OpenRouter gratuito: ~100 requisições/dia/chave, ~50K tokens cada. Útil para talvez 30 a 50 chamadas de desenvolvimento reais por dia.
- Inferência HF gratuita: limites de taxa compartilhados, aproximadamente 1K requisições/dia total na conta; às vezes mais lento sob carga.
- Chutes: variável; trate como melhor esforço.
- Teste DeepSeek (US$ 1): aproximadamente 700 chamadas de 10K tokens de entrada cada no V4-Flash. Finito, mas generoso.
- V4-Flash auto-hospedado: vazão limitada pelo seu hardware. Uma caixa 4 × H100 mantém de 50 a 150 tok/s.
Se o seu protótipo precisa de mais do que isso, a economia muda. A US$ 0,14 / M no V4-Flash, 10.000 chamadas com 2K de contexto e 500 tokens de saída custam aproximadamente US$ 2,80. A API paga geralmente é a escolha mais simples após a fase de protótipo.
Quando mudar para a API paga
Três sinais indicam que você superou a camada gratuita:
- Os limites de taxa são atingidos mais de uma vez por dia.
- Você está encadeando vários provedores gratuitos apenas para cobrir uma única carga de trabalho.
- Seus testes precisam de latência previsível ou SLAs.
A recarga mínima em platform.deepseek.com é de US$ 2. Um dia de prototipagem intensa em camadas gratuitas geralmente custa mais tempo de desenvolvedor do que a API paga cobraria. Veja o guia de preços do DeepSeek V4 para a tabela de taxas completa.
PERGUNTAS FREQUENTES
Algum desses caminhos é permanentemente gratuito?Não. As camadas gratuitas mudam sem aviso prévio. Trate-as como ferramentas de prototipagem, não como backends de produção.
O OpenRouter :free executa o V4 real?Sim, mas em infraestrutura compartilhada com limites de taxa rigorosos. A qualidade corresponde; a vazão não.
Posso usar a saída de um caminho gratuito em um produto sendo lançado?Verifique os termos de cada provedor. O OpenRouter permite uso comercial dentro do limite de taxa. A Inferência HF permite uso comercial, mas o limita rigorosamente. O crédito de teste do próprio DeepSeek segue os termos principais.
Qual caminho gratuito tem a melhor latência?O crédito de teste do próprio DeepSeek; você está acessando a infraestrutura de produção. O OpenRouter é o segundo. HF Inference e Chutes variam.
Posso auto-hospedar o V4 gratuitamente?A licença é MIT, então sim no nível da licença. O hardware é o custo. Veja como executar o DeepSeek V4 localmente para a configuração.
Como eu rastreio qual caminho gratuito eu esgotei hoje?Use Apidog e fixe usage no visualizador de respostas. A maioria dos agregadores também expõe um painel de uso em seu console de administração.
