DeepSeek V4 Kostenlos Nutzen: Anleitung & Tipps

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4 Kostenlos Nutzen: Anleitung & Tipps

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

DeepSeek V4 wurde am 23. April 2026 ausgeliefert, und im Gegensatz zu den meisten Vorreiter-Starts sind die kostenlosen Pfade real. Der offizielle Web-Chat läuft mit V4-Pro ohne Kreditkarte. Die Gewichte sind MIT-lizenziert und heute herunterladbar. Aggregatoren wie OpenRouter und Chutes stellen typischerweise innerhalb weniger Tage nach einer DeepSeek-Veröffentlichung kostenlose Stufen bereit. Rechnet man alles zusammen, können Sie ernsthafte V4-Workloads kostenlos ausführen, bevor Sie sich überhaupt entscheiden müssen, ob Sie ein Konto aufladen möchten.

Dieser Leitfaden führt Sie durch jeden kostenlosen Pfad, den wir verifizieren können, welcher zu welchem Anwendungsfall passt und wie Sie eine produktionsreife Sammlung in Apidog einrichten, damit der Übergang zur kostenpflichtigen Abrechnung bei steigender Nutzung reibungslos verläuft.

Button

Eine Produktübersicht finden Sie unter Was ist DeepSeek V4. Eine vollständige API-Anleitung finden Sie unter So verwenden Sie die DeepSeek V4 API.

Kurzfassung

Pfad 1: chat.deepseek.com (der standardmäßige kostenlose Pfad)

Der schnellste und zuverlässigste kostenlose Pfad ist die offizielle Chat-Oberfläche. V4-Pro ist das Standardmodell; der Umschalter oben im Eingabefeld wechselt zwischen den Denkmodi Non-Think, Think High und Think Max.

Einrichtung

  1. Öffnen Sie chat.deepseek.com.
  2. Melden Sie sich mit E-Mail, Google oder WeChat an.
  3. Bestätigen Sie, dass das aktive Modell V4-Pro anzeigt.
  4. Beginnen Sie zu tippen.

Was Sie bekommen

Wie die Begrenzungen aussehen

DeepSeek veröffentlicht keine feste tägliche Nachrichtenanzahl; die kostenlose Stufe wird unter Last sanft gedrosselt. Starke Nutzung kann die Antworten verlangsamen oder Anfragen in die Warteschlange stellen, blockiert aber selten komplett. Wenn Sie dauerhaft Ratenbegrenzungen feststellen, ist das das Signal, entweder die Frequenz zu verlangsamen oder zur API zu wechseln.

Gute Aufgaben für die Web-Benutzeroberfläche: Testen, ob V4 Claude bei Ihrer schwierigsten Anfrage schlägt, Einfügen eines Repo-Tarballs für eine Architekturprüfung, Ausführen von Think Max gegen einen Vertrag, den Sie sonst von einem Anwalt lesen lassen würden. Schlechte Aufgaben: alles, was Automatisierung oder Reproduzierbarkeit erfordert.

Pfad 2: V4-Flash auf Ihrer eigenen GPU selbst hosten

V4-Flash ist die MIT-lizenzierte Variante, die die meisten Menschen realistisch selbst hosten können. Bei 284B insgesamt und 13B aktiv läuft sie auf einer Multi-H100-Box in FP8 mit erheblichem Durchsatz, und eine INT4-Quantisierung ermöglicht den Betrieb auf einer einzelnen 80GB-Karte.

Die Kosten hier sind Hardware, nicht Lizenzierung. Wenn Sie bereits über GPU-Kapazität verfügen, ist dies der haltbarste kostenlose Pfad; er kann nicht ratenbegrenzt, veraltet oder zurückgezogen werden.

Die Gewichte herunterladen

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash

Erwarten Sie etwa 500 GB bei FP8. Reservieren Sie Speicherplatz.

Mit vLLM bereitstellen

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000

Sobald es läuft, richten Sie jeden OpenAI-kompatiblen Client auf http://localhost:8000/v1 aus. Der Endpunkt akzeptiert die gleiche Anforderungsform wie die kostenpflichtige DeepSeek API; Apidog betrachtet ihn als eine weitere Basis-URL, und all Ihre gespeicherten Sammlungen funktionieren unverändert.

Hardware-Realitätscheck

Variante Minimale Karten (FP8) Minimale Karten (INT4) Realistischer Durchsatz
V4-Flash 2 × H100 80GB 1 × H100 80GB 50 bis 150 Tok/s
V4-Pro 16 × H100 80GB 8 × H100 80GB Cluster-abhängig

Wenn Sie keine ungenutzten Karten haben, begünstigt die Rechnung in der Regel die API gegenüber dem stundenweisen Mieten von GPUs. Der selbstgehostete Pfad ist hauptsächlich für Teams mit vorhandener Kapazität oder strengen Compliance-Anforderungen gedacht.

Pfad 3: OpenRouter kostenloser Tarif

OpenRouter ist ein Gateway auf Anforderungsebene, das Open-Weights- und geschlossene Modelle hinter einer API aggregiert. Die Plattform bietet routinemäßig kostenlose Tarife für neue DeepSeek-Veröffentlichungen an, und dieses Muster hat sich für V3, V3.1 und V3.2 bewährt.

Einrichtung

  1. Melden Sie sich bei openrouter.ai an.
  2. Erstellen Sie einen API-Schlüssel.
  3. Überprüfen Sie den Modellkatalog nach deepseek/deepseek-v4-pro oder deepseek/deepseek-v4-flash; die kostenlosen Varianten sind normalerweise mit :free gekennzeichnet.
  4. Rufen Sie es mit dem OpenAI-kompatiblen SDK auf.
from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat_completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)

print(response.choices[0].message.content)

Begrenzungen

Kostenlose Tarife auf OpenRouter begrenzen die Nutzung typischerweise auf einige hundert Anfragen pro Tag und Schlüssel und reduzieren die Priorität unter Last. Perfekt für Prototyping, unzuverlässig für die Produktion.

Pfad 4: Hugging Face Inference Provider

Hugging Face betreibt eine gehostete Inferenz-Oberfläche, die V4-Checkpoints kurz nach der Veröffentlichung bereitstellt. Ratenbegrenzungen sind streng und die Latenz variiert, aber der Aufruf ist kostenlos.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
    max_tokens=512,
)

print(response.choices[0].message.content)

Der HF-Token ist kostenlos. Für stärkere Nutzung wechseln Sie zu einem Pro-Konto; die Ratenbegrenzungen lockern sich, aber die Kosten sind immer noch um eine Größenordnung unter der offiziellen API für vergleichbare Workloads.

Pfad 5: Testguthaben auf Colab, Kaggle, RunPod und Lambda

Jeder große GPU-Mietanbieter bietet Testguthaben an. Gut genutzt decken diese einmalige V4-Flash-Experimente ab, ohne dass Sie echtes Geld ausgeben müssen.

Keiner dieser Pfade ist langfristig kostenlos. Sie eignen sich gut für ein begrenztes Experiment und nichts weiter.

Eine anbieterunabhängige Apidog-Sammlung erstellen

Der praktische Nutzen dieser vielen kostenlosen Pfade besteht darin, dass Sie denselben Prompt auf allen testen können, ohne Arbeit zu duplizieren. Der Workflow:

  1. Laden Sie Apidog herunter.
  2. Erstellen Sie eine Sammlung mit vier Umgebungen: chat (Platzhalter), deepseek (https://api.deepseek.com/v1), openrouter (https://openrouter.ai/api/v1), self-hosted (http://localhost:8000/v1).
  3. Speichern Sie eine einzelne POST-Anfrage an {{BASE_URL}}/chat/completions.
  4. Speichern Sie den Schlüssel jedes Anbieters als geheime Variable, damit der Anforderungs-Body in allen Umgebungen identisch ist.
  5. Wechseln Sie die Umgebungen, um denselben Prompt über jedes Backend per A/B-Test zu prüfen.

Dies ist dasselbe Muster, das für die GPT-5.5 Free-Tier-Sammlung verwendet wird; ein Tool, jeder Anbieter, keine doppelte Arbeit.

Welchen kostenlosen Pfad sollten Sie wählen?

Vier Heuristiken decken die meisten Entscheidungen ab.

Wann Sie den kostenlosen Tarif verlassen sollten

Drei Signale deuten darauf hin, dass Sie den kostenlosen Tarif überwachsen haben.

  1. Sie werden mehr als einmal täglich ratenbegrenzt. Das bedeutet, dass der Workload groß genug ist, um ein Budget zu rechtfertigen.
  2. Sie benötigen SLAs. Kostenlose Tarife bieten diese nicht. Die offizielle API schon.
  3. Sie müssen protokollieren, prüfen oder Compliance-Anforderungen erfüllen. Die kostenpflichtige API liefert klare Abrechnungsdaten; die meisten kostenlosen Aggregator-Tarife nicht.

Wenn einer dieser Punkte zutrifft, wechseln Sie zur offiziellen API. Die Mindestaufladung beträgt 2 $ und die Preisgestaltung pro Token ist die niedrigste im Frontier-Tarif.

FAQ

Ist chat.deepseek.com wirklich kostenlos?Ja. Keine Kreditkarte, keine Testzeit. Der Dienst wird sanft gedrosselt, aber nicht hinter einer Paywall versteckt.

Benötige ich ein Hugging Face-Konto, um die Gewichte herunterzuladen?Technisch gesehen nein, das Repository ist öffentlich. Praktisch ja; ein angemeldetes Konto gewährt Ihnen bessere Ratenbegrenzungen beim Download.

Welcher kostenlose Pfad betreibt das echte V4-Pro?chat.deepseek.com betreibt das vollständige V4-Pro. Kostenlose OpenRouter-Tarife verwenden häufiger V4-Flash. Wenn Sie V4-Pro-Ausgaben benötigen und nicht bezahlen möchten, ist der Web-Chat der zuverlässige Pfad.

Kann ich einen kostenlosen Tarif hinter einem Produkt einsetzen?Nicht verantwortungsvoll. Kostenlose Tarife haben Ratenbegrenzungen, ändern Bedingungen und verschwinden manchmal. Wenn Sie V4 an Kunden liefern, verwenden Sie die kostenpflichtige API oder hosten Sie selbst.

Ist Self-Hosting tatsächlich kostenlos?Die Lizenz ist kostenlos. Die Hardware nicht. Wenn Sie bereits über GPU-Kapazität verfügen, sind die Grenzkosten Strom. Wenn Sie mieten, ist die Rechnung meistens schlechter als die kostenpflichtige API.

Wird es einen kostenlosen Apidog-Tarif zum Testen geben?Apidog selbst ist kostenlos für API-Design und -Tests; es kostet nur Guthaben, wenn Sie kostenpflichtige APIs darüber aufrufen. Also ja, Sie können einen kostenlosen Apidog-Workspace mit chat.deepseek.com oder OpenRouter für einen vollständig kostenlosen Workflow kombinieren.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen