DeepSeek V4: Web Chat, API und Self-Hosting Nutzung

DeepSeek V4 wurde am 23. April 2026 mit vier Checkpoints, einer Live-API und MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese Kombination bedeutet, dass es keinen einzigen „richtigen Weg“ gibt, es zu nutzen; der beste Pfad hängt davon ab, ob Sie sofortigen Zugriff, Produktions-API-Aufrufe oder eine On-Premise-Bereitstellung wünschen. Dieser Leitfaden führt Sie durch alle drei Optionen, einschließlich der Kompromisse, der Fallstricke und eines produktionsbereiten Prompt-Workflows, den Sie wiederverwenden können.

Wenn Sie nur einen Produktüberblick wünschen, lesen Sie zuerst was ist DeepSeek V4. Für eine reine API-Anleitung siehe den DeepSeek V4 API-Leitfaden. Für den kostenlosen Pfad siehe wie man DeepSeek V4 kostenlos nutzt. Wenn Sie bereit sind, echte Anfragen zu testen, besorgen Sie sich Apidog und erstellen Sie die Sammlung vor.

Schaltfläche

TL;DR

Schnellster Weg: chat.deepseek.com. Kostenloser Web-Chat, V4-Pro als Standard, drei Denkmodi.
Produktionsweg: https://api.deepseek.com/v1/chat/completions mit den Modell-IDs deepseek-v4-pro oder deepseek-v4-flash.
Self-Hosted-Weg: Gewichte von Hugging Face herunterladen, die /inference-Skripte im Repository ausführen.
Wählen Sie Non-Think für Routing und Klassifizierung, Think High für Code und Analyse, Think Max nur, wenn die Genauigkeit wichtiger ist als die Kosten.
Sampling-Empfehlung von DeepSeek: temperature=1.0, top_p=1.0. Zweifeln Sie nicht daran.
Verwenden Sie Apidog als API-Client; das OpenAI-kompatible Format bedeutet, dass eine gespeicherte Anfrage über DeepSeek, OpenAI und Anthropic hinweg wiedergegeben werden kann.

Wählen Sie den richtigen Pfad für Ihre Arbeitslast

Es gibt vier realistische Pfade. Jeder davon ist für etwas anderes am besten geeignet.

Pfad	Kosten	Einrichtungszeit	Am besten für
chat.deepseek.com	Kostenlos	30 Sekunden	Schnelle Tests, Ad-hoc-Arbeiten
DeepSeek API	Pro-Token-Abrechnung	5 Minuten	Produktion, Agenten, Batch-Jobs
Self-hosted V4-Flash	Nur Hardwarekosten	Einige Stunden	On-Premise-Compliance, Offline-Inferenz
Self-hosted V4-Pro	Nur Clusterkosten	Ein Tag	Forschung, kundenspezifische Fine-Tunes
OpenRouter / Aggregator	Pro-Token-Abrechnung	2 Minuten	Multi-Anbieter-Fallback

Pfad 1: V4 im Web-Chat nutzen

Der schnellste Weg, sich eine Meinung über V4 zu bilden, ist die offizielle Chat-Oberfläche.

Gehen Sie zu chat.deepseek.com.
Melden Sie sich mit E-Mail, Google oder WeChat an.
V4-Pro ist das Standardmodell. Der Umschalter oben im Eingabefeld wechselt zwischen Non-Think, Think High und Think Max.
Beginnen Sie zu tippen.

Der Web-Chat unterstützt Datei-Uploads, Websuche und den vollen 1M-Token-Kontext. Ratenbegrenzungen gelten auf Kontoebene; intensive Nutzung kann die Antworten verlangsamen, blockiert aber selten vollständig.

Gute Aufgaben für die Web-Benutzeroberfläche: Einfügen eines Fehler-Traces zur Diagnose, Hochladen einer 200-seitigen PDF-Datei zur Zusammenfassung, Benchmarking mit demselben Prompt, den Sie mit GPT-5.5 oder Claude ausführen. Schlechte Aufgaben: alles, was Sie automatisieren oder wiedergeben möchten.

Pfad 2: Die DeepSeek API nutzen

Dies ist der Pfad, den die meisten Teams wählen werden. Die API ist live, die Anfragenstruktur ist OpenAI-kompatibel, und die Modell-IDs sind dieselben, die DeepSeek auch nach der Abschaffung von deepseek-chat im Juli 2026 beibehalten wird.

Schlüssel erhalten

Registrieren Sie sich unter platform.deepseek.com.
Fügen Sie eine Zahlungsmethode hinzu. Aufladungen beginnen bei 2 $.
Erstellen Sie einen API-Schlüssel unter API Keys und kopieren Sie ihn einmal; Sie werden das Geheimnis danach nicht mehr sehen.

Exportieren Sie den Schlüssel, damit jeder Client ihn aufnehmen kann:

export DEEPSEEK_API_KEY="sk-..."

Die minimal praktikable Anfrage

DeepSeek stellt zwei Basis-URLs zur Verfügung. Die OpenAI-kompatible Oberfläche ist diejenige, die standardmäßig verwendet werden sollte.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Tauschen Sie deepseek-v4-pro gegen deepseek-v4-flash aus, wenn Sie die günstigere Variante wünschen. Tauschen Sie thinking gegen non-thinking aus, wenn Sie den schnellen Pfad wünschen.

Python-Client

Das offizielle openai SDK funktioniert mit einem einzigen Basis-URL-Override. Das ist der stille Vorteil von OpenAI-kompatiblen Endpunkten; jede Wrapper-Bibliothek, einschließlich LangChain, LlamaIndex und DSPy, funktioniert unverändert.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Node-Client

Gleiches Muster unter Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Vollständige Endpunkt-Details, Parametertabellen und Fehlerbehandlung finden Sie im DeepSeek V4 API-Leitfaden.

Pfad 3: Mit Apidog iterieren

Curl ist gut für einen einzelnen Aufruf. Danach verschwendet jeder erneute Durchlauf Credits und überfüllt Ihr Terminal. Apidog löst beide Probleme.

Schaltfläche

Laden Sie Apidog für Mac, Windows oder Linux herunter.
Erstellen Sie ein neues API-Projekt und fügen Sie eine POST-Anfrage hinzu, die auf https://api.deepseek.com/v1/chat/completions zeigt.
Fügen Sie Authorization: Bearer {{DEEPSEEK_API_KEY}} als Header hinzu und speichern Sie den Schlüssel in Umgebungsvariablen, nicht im Anfrage-Body.
Fügen Sie Ihren ersten JSON-Body ein und speichern Sie ihn. Jede Anpassung von hier aus ist ein Klick zum Wiederholen.
Verwenden Sie den integrierten Antwort-Viewer, um Begründungsspuren zwischen Non-Think- und Think Max-Läufen mit demselben Prompt zu vergleichen.

Dieselbe Sammlung kann eine OpenAI GPT-5.5-Anfrage, eine Claude-Anfrage und eine DeepSeek V4-Anfrage nebeneinander enthalten. Das macht A/B-Tests über verschiedene Anbieter hinweg trivial und hält Ihre Abrechnung in einem Fenster sichtbar. Für Teams, die Apidog bereits mit anderen KI-APIs verwenden, entspricht der Workflow eins zu eins; die gespeicherte GPT-5.5 API-Sammlung wird zu einer V4-Sammlung mit einer einzigen Basis-URL-Änderung.

Pfad 4: V4-Flash selbst hosten

Wenn Compliance, Air-Gap-Anforderungen oder Unit Economics Sie von gehosteten APIs abbringen, bedeutet die MIT-Lizenz, dass Sie diesen Pfad vollständig selbst in der Hand haben.

Hardware

V4-Flash (13B aktiv, 284B gesamt): 2 bis 4 H100 / H200 / MI300X Karten bei FP8. Auf INT4 quantisiert, passt es auf eine einzelne 80GB-Karte mit engen Batches.
V4-Pro (49B aktiv, 1.6T gesamt): echtes Cluster-Gebiet. 16 bis 32 H100s sind die realistische Untergrenze für die Produktion von Inferenz.

Die Gewichte herunterladen

# Install the CLI once
pip install -U "huggingface_hub[cli]"

# Log in if the repo is gated (V4 is public, but the login helps with rate limits)
huggingface-cli login

# Pull V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Rechnen Sie damit, dass der Download eine Weile dauern wird. V4-Flash beträgt bei FP8 ungefähr 500 GB; V4-Pro liegt im Multi-Terabyte-Bereich.

Inferenz ausführen

Der Ordner /inference im Modell-Repository enthält Referenzcode. Für schnelle Tests haben vLLM und SGLang innerhalb eines Tages nach der Veröffentlichung V4-Support-Branches veröffentlicht.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Sobald vLLM läuft, verweisen Sie jeden OpenAI-kompatiblen Client auf http://localhost:8000/v1. Dieselbe Apidog-Sammlung, unterschiedliche Basis-URL.

V4 effektiv prompten

V4 reagiert anders auf Prompts als GPT-5.5 oder Claude. Drei Muster, die funktionieren.

Fragen Sie explizit nach dem gewünschten Denkmodus. Setzen Sie thinking_mode passend zur Aufgabe. Verlassen Sie sich nicht darauf, dass das Modell wählt.
Verwenden Sie System-Prompts für die Persona, nicht für die Aufgabenform. V4-Pro folgt System-Prompts gut für Ton und Einschränkung; es ist weniger zuverlässig, wenn Sie versuchen, die gesamte Aufgabenspezifikation in die Systemnachricht zu quetschen. Legen Sie die Aufgabe in die Benutzernachricht.
Geben Sie Code-Aufgaben ein Test-Harness. Der LiveCodeBench-Score von 93,5 resultierte aus Evaluierungen mit klaren Testfällen. Ihre Code-Aufgaben werden davon profitieren; fügen Sie den fehlerhaften Test ein und das Modell wird Code schreiben, der ihn häufiger bestehen lässt, als wenn Sie nach „einer Funktion, die X tut“ fragen.

Für Arbeiten mit langem Kontext (Hunderttausende von Tokens) halten Sie das relevanteste Material oben und unten im Eingabefenster. Die hybride Aufmerksamkeit von V4 ist effizient, aber Recency- und Primacy-Bias treten immer noch auf.

Kostenkontrolle

Selbst mit den niedrigen Token-Preisen von V4 kann ein außer Kontrolle geratener Agent schnell ein Budget aufbrauchen. Drei Schutzmaßnahmen:

Standardmäßig V4-Flash verwenden. Verwenden Sie V4-Pro nur, wenn Sie einen signifikanten Qualitätsunterschied gemessen haben.
Standardmäßig Non-Think verwenden. Erhöhen Sie auf Think High für schwierige Aufgaben; reservieren Sie Think Max für Korrektheits-kritische Arbeiten.
Begrenzen Sie max_tokens. Der 1M-Kontext ist eine Obergrenze, kein Ziel. Die meisten Antworten passen in 2.000 Output-Tokens.

In Apidog legen Sie umgebungsspezifische Variablen für DEEPSEEK_API_KEY fest, damit Testläufe ein separates Abrechnungskonto von der Produktion verwenden. Apidog zeichnet auch die Token-Anzahl jeder Antwort auf, was der einfachste Weg ist, einen zu lang geratenen Prompt zu erkennen.

Migration von DeepSeek V3 oder anderen Modellen

Drei Migrationspfade decken die meisten Teams ab:

Von deepseek-chat / deepseek-reasoner: Ändern Sie die Modell-ID zu deepseek-v4-pro oder deepseek-v4-flash. Die älteren IDs werden am 24. Juli 2026 eingestellt. Führen Sie diese Migration vorher durch.
Von OpenAI GPT-5.x: Ändern Sie die Basis-URL auf https://api.deepseek.com/v1, ändern Sie die Modell-ID, lassen Sie alles andere unverändert. Siehe den entsprechenden GPT-5.5 API-Leitfaden für die parallele Anfrageform.
Von Anthropic Claude: Zeigen Sie auf https://api.deepseek.com/anthropic, um das Anthropic-Nachrichtenformat beizubehalten, oder wandeln Sie es in das OpenAI-Format um und verwenden Sie den Hauptendpunkt.

FAQ

Benötige ich ein kostenpflichtiges Konto, um V4 zu nutzen?Der Web-Chat ist kostenlos. Die API erfordert eine Aufladung, aber das Minimum beträgt 2 $. Siehe wie man DeepSeek V4 kostenlos nutzt für kostenlose Pfade.

Welche Variante sollte ich standardmäßig verwenden?Beginnen Sie mit V4-Flash im Non-Think-Modus. Messen Sie die Qualität. Eskalieren Sie nur dort, wo es sich lohnt.

Kann ich V4 auf meinem MacBook ausführen?V4-Flash läuft auf einem M3 Max oder M4 Max mit 128 GB Unified Memory bei starker Quantisierung, aber langsam. V4-Pro wird nicht laufen. Für Experimente auf Laptop-Niveau bleiben Sie bei der API oder dem Web-Chat.

Unterstützt V4 die Verwendung von Tools und Funktionsaufrufe?Ja. Der OpenAI-kompatible Endpunkt akzeptiert das Standard-tools-Array; Antworten enthalten tool_calls in derselben Form. Der Anthropic-Format-Endpunkt verwendet das native Anthropic-Schema für die Tool-Nutzung.

Wie streame ich Antworten?Setzen Sie stream: true im Anfragetext. Die Antwort ist ein standardmäßiger OpenAI-kompatibler SSE-Stream; jede Bibliothek, die OpenAI-Streaming verarbeitet, funktioniert ohne Änderungen.

Gibt es eine Ratenbegrenzung?Die gehostete API veröffentlicht tier-spezifische Limits auf api-docs.deepseek.com. Ein selbstgehostetes V4 hat keine anfragebezogene Begrenzung über Ihre Hardware hinaus.