DeepSeek V4 wurde am 23. April 2026 ausgeliefert, und im Gegensatz zu den meisten Vorreiter-Starts sind die kostenlosen Pfade real. Der offizielle Web-Chat läuft mit V4-Pro ohne Kreditkarte. Die Gewichte sind MIT-lizenziert und heute herunterladbar. Aggregatoren wie OpenRouter und Chutes stellen typischerweise innerhalb weniger Tage nach einer DeepSeek-Veröffentlichung kostenlose Stufen bereit. Rechnet man alles zusammen, können Sie ernsthafte V4-Workloads kostenlos ausführen, bevor Sie sich überhaupt entscheiden müssen, ob Sie ein Konto aufladen möchten.
Dieser Leitfaden führt Sie durch jeden kostenlosen Pfad, den wir verifizieren können, welcher zu welchem Anwendungsfall passt und wie Sie eine produktionsreife Sammlung in Apidog einrichten, damit der Übergang zur kostenpflichtigen Abrechnung bei steigender Nutzung reibungslos verläuft.
Eine Produktübersicht finden Sie unter Was ist DeepSeek V4. Eine vollständige API-Anleitung finden Sie unter So verwenden Sie die DeepSeek V4 API.
Kurzfassung
- chat.deepseek.com — Kostenloser Web-Chat auf V4-Pro mit Think High- und Think Max-Umschaltern. Keine Karte. Funktioniert heute.
- Hugging Face Gewichte + eigene GPU — MIT-Lizenz, V4-Flash läuft auf 2 bis 4 H100s, V4-Pro benötigt einen Cluster.
- OpenRouter und Chutes kostenlose Tarife — Drittanbieter-Gateways, die normalerweise innerhalb einer Woche nach der Veröffentlichung kostenlose Kontingente für DeepSeek-Modelle freischalten.
- Hugging Face Inference Provider — ein gemeinsamer, ratenbegrenzter Endpunkt, der V4 für frühe Experimente bereitstellt.
- Kaggle, Colab und RunPod Testguthaben — kostenlose Rechenleistung für einmalige Ausführungen, wenn Sie Self-Hosting testen möchten.
- Jeder kostenlose Pfad begrenzt die Nutzung. Für Produktions-Workloads wechseln Sie zur kostenpflichtigen Abrechnung, bevor die Begrenzung greift.

Pfad 1: chat.deepseek.com (der standardmäßige kostenlose Pfad)
Der schnellste und zuverlässigste kostenlose Pfad ist die offizielle Chat-Oberfläche. V4-Pro ist das Standardmodell; der Umschalter oben im Eingabefeld wechselt zwischen den Denkmodi Non-Think, Think High und Think Max.

Einrichtung
- Öffnen Sie chat.deepseek.com.
- Melden Sie sich mit E-Mail, Google oder WeChat an.
- Bestätigen Sie, dass das aktive Modell V4-Pro anzeigt.
- Beginnen Sie zu tippen.
Was Sie bekommen
- Das vollständige 1M-Token-Kontextfenster.
- Dateiupload für PDFs, Bilder und Code-Pakete.
- Websuche auf Abruf.
- Alle drei Denkmodi, einschließlich Think Max.
- Gesprächsverlauf und Ordner.
Wie die Begrenzungen aussehen
DeepSeek veröffentlicht keine feste tägliche Nachrichtenanzahl; die kostenlose Stufe wird unter Last sanft gedrosselt. Starke Nutzung kann die Antworten verlangsamen oder Anfragen in die Warteschlange stellen, blockiert aber selten komplett. Wenn Sie dauerhaft Ratenbegrenzungen feststellen, ist das das Signal, entweder die Frequenz zu verlangsamen oder zur API zu wechseln.
Gute Aufgaben für die Web-Benutzeroberfläche: Testen, ob V4 Claude bei Ihrer schwierigsten Anfrage schlägt, Einfügen eines Repo-Tarballs für eine Architekturprüfung, Ausführen von Think Max gegen einen Vertrag, den Sie sonst von einem Anwalt lesen lassen würden. Schlechte Aufgaben: alles, was Automatisierung oder Reproduzierbarkeit erfordert.
Pfad 2: V4-Flash auf Ihrer eigenen GPU selbst hosten
V4-Flash ist die MIT-lizenzierte Variante, die die meisten Menschen realistisch selbst hosten können. Bei 284B insgesamt und 13B aktiv läuft sie auf einer Multi-H100-Box in FP8 mit erheblichem Durchsatz, und eine INT4-Quantisierung ermöglicht den Betrieb auf einer einzelnen 80GB-Karte.
Die Kosten hier sind Hardware, nicht Lizenzierung. Wenn Sie bereits über GPU-Kapazität verfügen, ist dies der haltbarste kostenlose Pfad; er kann nicht ratenbegrenzt, veraltet oder zurückgezogen werden.
Die Gewichte herunterladen
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Erwarten Sie etwa 500 GB bei FP8. Reservieren Sie Speicherplatz.
Mit vLLM bereitstellen
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Sobald es läuft, richten Sie jeden OpenAI-kompatiblen Client auf http://localhost:8000/v1 aus. Der Endpunkt akzeptiert die gleiche Anforderungsform wie die kostenpflichtige DeepSeek API; Apidog betrachtet ihn als eine weitere Basis-URL, und all Ihre gespeicherten Sammlungen funktionieren unverändert.
Hardware-Realitätscheck
| Variante | Minimale Karten (FP8) | Minimale Karten (INT4) | Realistischer Durchsatz |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 bis 150 Tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | Cluster-abhängig |
Wenn Sie keine ungenutzten Karten haben, begünstigt die Rechnung in der Regel die API gegenüber dem stundenweisen Mieten von GPUs. Der selbstgehostete Pfad ist hauptsächlich für Teams mit vorhandener Kapazität oder strengen Compliance-Anforderungen gedacht.
Pfad 3: OpenRouter kostenloser Tarif
OpenRouter ist ein Gateway auf Anforderungsebene, das Open-Weights- und geschlossene Modelle hinter einer API aggregiert. Die Plattform bietet routinemäßig kostenlose Tarife für neue DeepSeek-Veröffentlichungen an, und dieses Muster hat sich für V3, V3.1 und V3.2 bewährt.

Einrichtung
- Melden Sie sich bei openrouter.ai an.
- Erstellen Sie einen API-Schlüssel.
- Überprüfen Sie den Modellkatalog nach
deepseek/deepseek-v4-prooderdeepseek/deepseek-v4-flash; die kostenlosen Varianten sind normalerweise mit:freegekennzeichnet. - Rufen Sie es mit dem OpenAI-kompatiblen SDK auf.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat_completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)
print(response.choices[0].message.content)
Begrenzungen
Kostenlose Tarife auf OpenRouter begrenzen die Nutzung typischerweise auf einige hundert Anfragen pro Tag und Schlüssel und reduzieren die Priorität unter Last. Perfekt für Prototyping, unzuverlässig für die Produktion.
Pfad 4: Hugging Face Inference Provider
Hugging Face betreibt eine gehostete Inferenz-Oberfläche, die V4-Checkpoints kurz nach der Veröffentlichung bereitstellt. Ratenbegrenzungen sind streng und die Latenz variiert, aber der Aufruf ist kostenlos.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
max_tokens=512,
)
print(response.choices[0].message.content)
Der HF-Token ist kostenlos. Für stärkere Nutzung wechseln Sie zu einem Pro-Konto; die Ratenbegrenzungen lockern sich, aber die Kosten sind immer noch um eine Größenordnung unter der offiziellen API für vergleichbare Workloads.
Pfad 5: Testguthaben auf Colab, Kaggle, RunPod und Lambda
Jeder große GPU-Mietanbieter bietet Testguthaben an. Gut genutzt decken diese einmalige V4-Flash-Experimente ab, ohne dass Sie echtes Geld ausgeben müssen.
- Google Colab. Der kostenlose T4-Tarif ist zu klein für V4. Colab Pro+ bietet 500 Compute-Einheiten pro Monat, genug für eine Handvoll V4-Flash-Experimente auf einer A100.
- Kaggle. Kostenlose wöchentliche GPU-Stunden auf T4 und P100. Zu klein für V4-Pro, manchmal ausreichend für quantisierte V4-Flash-Experimente.
- RunPod. 10 $ Testguthaben deckt einige Stunden auf einem H100 ab. Genug, um vLLM zu starten, eine Benchmark-Suite auszuführen und sie wieder herunterzufahren.
- Lambda. Gelegentliche Gratis-Stunden-Aktionen auf H100 und H200; achten Sie auf der Registrierungsseite auf aktive Angebote.
Keiner dieser Pfade ist langfristig kostenlos. Sie eignen sich gut für ein begrenztes Experiment und nichts weiter.
Eine anbieterunabhängige Apidog-Sammlung erstellen
Der praktische Nutzen dieser vielen kostenlosen Pfade besteht darin, dass Sie denselben Prompt auf allen testen können, ohne Arbeit zu duplizieren. Der Workflow:
- Laden Sie Apidog herunter.
- Erstellen Sie eine Sammlung mit vier Umgebungen:
chat(Platzhalter),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Speichern Sie eine einzelne POST-Anfrage an
{{BASE_URL}}/chat/completions. - Speichern Sie den Schlüssel jedes Anbieters als geheime Variable, damit der Anforderungs-Body in allen Umgebungen identisch ist.
- Wechseln Sie die Umgebungen, um denselben Prompt über jedes Backend per A/B-Test zu prüfen.
Dies ist dasselbe Muster, das für die GPT-5.5 Free-Tier-Sammlung verwendet wird; ein Tool, jeder Anbieter, keine doppelte Arbeit.
Welchen kostenlosen Pfad sollten Sie wählen?
Vier Heuristiken decken die meisten Entscheidungen ab.
- Ich möchte mir in fünf Minuten eine Meinung bilden. Verwenden Sie chat.deepseek.com.
- Ich möchte ein Produkt prototypisieren. Verwenden Sie den kostenlosen Tarif von OpenRouter, bis Sie an die Grenze stoßen, und laden Sie dann DeepSeek auf.
- Ich habe GPUs und eine Compliance-Anforderung. Hoste V4-Flash selbst auf vLLM.
- Ich benötige langfristige kostenlose Nutzung. So etwas gibt es nicht. Jeder gehostete kostenlose Tarif hat irgendwo eine Begrenzung. Kombinieren Sie chat.deepseek.com für interaktive Arbeiten mit einer bescheidenen kostenpflichtigen Aufladung für die Automatisierung.
Wann Sie den kostenlosen Tarif verlassen sollten
Drei Signale deuten darauf hin, dass Sie den kostenlosen Tarif überwachsen haben.
- Sie werden mehr als einmal täglich ratenbegrenzt. Das bedeutet, dass der Workload groß genug ist, um ein Budget zu rechtfertigen.
- Sie benötigen SLAs. Kostenlose Tarife bieten diese nicht. Die offizielle API schon.
- Sie müssen protokollieren, prüfen oder Compliance-Anforderungen erfüllen. Die kostenpflichtige API liefert klare Abrechnungsdaten; die meisten kostenlosen Aggregator-Tarife nicht.
Wenn einer dieser Punkte zutrifft, wechseln Sie zur offiziellen API. Die Mindestaufladung beträgt 2 $ und die Preisgestaltung pro Token ist die niedrigste im Frontier-Tarif.
FAQ
Ist chat.deepseek.com wirklich kostenlos?Ja. Keine Kreditkarte, keine Testzeit. Der Dienst wird sanft gedrosselt, aber nicht hinter einer Paywall versteckt.
Benötige ich ein Hugging Face-Konto, um die Gewichte herunterzuladen?Technisch gesehen nein, das Repository ist öffentlich. Praktisch ja; ein angemeldetes Konto gewährt Ihnen bessere Ratenbegrenzungen beim Download.
Welcher kostenlose Pfad betreibt das echte V4-Pro?chat.deepseek.com betreibt das vollständige V4-Pro. Kostenlose OpenRouter-Tarife verwenden häufiger V4-Flash. Wenn Sie V4-Pro-Ausgaben benötigen und nicht bezahlen möchten, ist der Web-Chat der zuverlässige Pfad.
Kann ich einen kostenlosen Tarif hinter einem Produkt einsetzen?Nicht verantwortungsvoll. Kostenlose Tarife haben Ratenbegrenzungen, ändern Bedingungen und verschwinden manchmal. Wenn Sie V4 an Kunden liefern, verwenden Sie die kostenpflichtige API oder hosten Sie selbst.
Ist Self-Hosting tatsächlich kostenlos?Die Lizenz ist kostenlos. Die Hardware nicht. Wenn Sie bereits über GPU-Kapazität verfügen, sind die Grenzkosten Strom. Wenn Sie mieten, ist die Rechnung meistens schlechter als die kostenpflichtige API.
Wird es einen kostenlosen Apidog-Tarif zum Testen geben?Apidog selbst ist kostenlos für API-Design und -Tests; es kostet nur Guthaben, wenn Sie kostenpflichtige APIs darüber aufrufen. Also ja, Sie können einen kostenlosen Apidog-Workspace mit chat.deepseek.com oder OpenRouter für einen vollständig kostenlosen Workflow kombinieren.
