DeepSeek V4: Web Chat, API und Self-Hosting Nutzung

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4: Web Chat, API und Self-Hosting Nutzung

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

DeepSeek V4 wurde am 23. April 2026 mit vier Checkpoints, einer Live-API und MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese Kombination bedeutet, dass es keinen einzigen „richtigen Weg“ gibt, es zu nutzen; der beste Pfad hängt davon ab, ob Sie sofortigen Zugriff, Produktions-API-Aufrufe oder eine On-Premise-Bereitstellung wünschen. Dieser Leitfaden führt Sie durch alle drei Optionen, einschließlich der Kompromisse, der Fallstricke und eines produktionsbereiten Prompt-Workflows, den Sie wiederverwenden können.

Wenn Sie nur einen Produktüberblick wünschen, lesen Sie zuerst was ist DeepSeek V4. Für eine reine API-Anleitung siehe den DeepSeek V4 API-Leitfaden. Für den kostenlosen Pfad siehe wie man DeepSeek V4 kostenlos nutzt. Wenn Sie bereit sind, echte Anfragen zu testen, besorgen Sie sich Apidog und erstellen Sie die Sammlung vor.

Schaltfläche

TL;DR

Wählen Sie den richtigen Pfad für Ihre Arbeitslast

Es gibt vier realistische Pfade. Jeder davon ist für etwas anderes am besten geeignet.

Pfad Kosten Einrichtungszeit Am besten für
chat.deepseek.com Kostenlos 30 Sekunden Schnelle Tests, Ad-hoc-Arbeiten
DeepSeek API Pro-Token-Abrechnung 5 Minuten Produktion, Agenten, Batch-Jobs
Self-hosted V4-Flash Nur Hardwarekosten Einige Stunden On-Premise-Compliance, Offline-Inferenz
Self-hosted V4-Pro Nur Clusterkosten Ein Tag Forschung, kundenspezifische Fine-Tunes
OpenRouter / Aggregator Pro-Token-Abrechnung 2 Minuten Multi-Anbieter-Fallback

Pfad 1: V4 im Web-Chat nutzen

Der schnellste Weg, sich eine Meinung über V4 zu bilden, ist die offizielle Chat-Oberfläche.

  1. Gehen Sie zu chat.deepseek.com.
  2. Melden Sie sich mit E-Mail, Google oder WeChat an.
  3. V4-Pro ist das Standardmodell. Der Umschalter oben im Eingabefeld wechselt zwischen Non-Think, Think High und Think Max.
  4. Beginnen Sie zu tippen.

Der Web-Chat unterstützt Datei-Uploads, Websuche und den vollen 1M-Token-Kontext. Ratenbegrenzungen gelten auf Kontoebene; intensive Nutzung kann die Antworten verlangsamen, blockiert aber selten vollständig.

Gute Aufgaben für die Web-Benutzeroberfläche: Einfügen eines Fehler-Traces zur Diagnose, Hochladen einer 200-seitigen PDF-Datei zur Zusammenfassung, Benchmarking mit demselben Prompt, den Sie mit GPT-5.5 oder Claude ausführen. Schlechte Aufgaben: alles, was Sie automatisieren oder wiedergeben möchten.

Pfad 2: Die DeepSeek API nutzen

Dies ist der Pfad, den die meisten Teams wählen werden. Die API ist live, die Anfragenstruktur ist OpenAI-kompatibel, und die Modell-IDs sind dieselben, die DeepSeek auch nach der Abschaffung von deepseek-chat im Juli 2026 beibehalten wird.

Schlüssel erhalten

  1. Registrieren Sie sich unter platform.deepseek.com.
  2. Fügen Sie eine Zahlungsmethode hinzu. Aufladungen beginnen bei 2 $.
  3. Erstellen Sie einen API-Schlüssel unter API Keys und kopieren Sie ihn einmal; Sie werden das Geheimnis danach nicht mehr sehen.

Exportieren Sie den Schlüssel, damit jeder Client ihn aufnehmen kann:

export DEEPSEEK_API_KEY="sk-..."

Die minimal praktikable Anfrage

DeepSeek stellt zwei Basis-URLs zur Verfügung. Die OpenAI-kompatible Oberfläche ist diejenige, die standardmäßig verwendet werden sollte.

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Tauschen Sie deepseek-v4-pro gegen deepseek-v4-flash aus, wenn Sie die günstigere Variante wünschen. Tauschen Sie thinking gegen non-thinking aus, wenn Sie den schnellen Pfad wünschen.

Python-Client

Das offizielle openai SDK funktioniert mit einem einzigen Basis-URL-Override. Das ist der stille Vorteil von OpenAI-kompatiblen Endpunkten; jede Wrapper-Bibliothek, einschließlich LangChain, LlamaIndex und DSPy, funktioniert unverändert.

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Node-Client

Gleiches Muster unter Node:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Vollständige Endpunkt-Details, Parametertabellen und Fehlerbehandlung finden Sie im DeepSeek V4 API-Leitfaden.

Pfad 3: Mit Apidog iterieren

Curl ist gut für einen einzelnen Aufruf. Danach verschwendet jeder erneute Durchlauf Credits und überfüllt Ihr Terminal. Apidog löst beide Probleme.

Schaltfläche
  1. Laden Sie Apidog für Mac, Windows oder Linux herunter.
  2. Erstellen Sie ein neues API-Projekt und fügen Sie eine POST-Anfrage hinzu, die auf https://api.deepseek.com/v1/chat/completions zeigt.
  3. Fügen Sie Authorization: Bearer {{DEEPSEEK_API_KEY}} als Header hinzu und speichern Sie den Schlüssel in Umgebungsvariablen, nicht im Anfrage-Body.
  4. Fügen Sie Ihren ersten JSON-Body ein und speichern Sie ihn. Jede Anpassung von hier aus ist ein Klick zum Wiederholen.
  5. Verwenden Sie den integrierten Antwort-Viewer, um Begründungsspuren zwischen Non-Think- und Think Max-Läufen mit demselben Prompt zu vergleichen.

Dieselbe Sammlung kann eine OpenAI GPT-5.5-Anfrage, eine Claude-Anfrage und eine DeepSeek V4-Anfrage nebeneinander enthalten. Das macht A/B-Tests über verschiedene Anbieter hinweg trivial und hält Ihre Abrechnung in einem Fenster sichtbar. Für Teams, die Apidog bereits mit anderen KI-APIs verwenden, entspricht der Workflow eins zu eins; die gespeicherte GPT-5.5 API-Sammlung wird zu einer V4-Sammlung mit einer einzigen Basis-URL-Änderung.

Pfad 4: V4-Flash selbst hosten

Wenn Compliance, Air-Gap-Anforderungen oder Unit Economics Sie von gehosteten APIs abbringen, bedeutet die MIT-Lizenz, dass Sie diesen Pfad vollständig selbst in der Hand haben.

Hardware

Die Gewichte herunterladen

# Install the CLI once
pip install -U "huggingface_hub[cli]"

# Log in if the repo is gated (V4 is public, but the login helps with rate limits)
huggingface-cli login

# Pull V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Rechnen Sie damit, dass der Download eine Weile dauern wird. V4-Flash beträgt bei FP8 ungefähr 500 GB; V4-Pro liegt im Multi-Terabyte-Bereich.

Inferenz ausführen

Der Ordner /inference im Modell-Repository enthält Referenzcode. Für schnelle Tests haben vLLM und SGLang innerhalb eines Tages nach der Veröffentlichung V4-Support-Branches veröffentlicht.

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Sobald vLLM läuft, verweisen Sie jeden OpenAI-kompatiblen Client auf http://localhost:8000/v1. Dieselbe Apidog-Sammlung, unterschiedliche Basis-URL.

V4 effektiv prompten

V4 reagiert anders auf Prompts als GPT-5.5 oder Claude. Drei Muster, die funktionieren.

  1. Fragen Sie explizit nach dem gewünschten Denkmodus. Setzen Sie thinking_mode passend zur Aufgabe. Verlassen Sie sich nicht darauf, dass das Modell wählt.
  2. Verwenden Sie System-Prompts für die Persona, nicht für die Aufgabenform. V4-Pro folgt System-Prompts gut für Ton und Einschränkung; es ist weniger zuverlässig, wenn Sie versuchen, die gesamte Aufgabenspezifikation in die Systemnachricht zu quetschen. Legen Sie die Aufgabe in die Benutzernachricht.
  3. Geben Sie Code-Aufgaben ein Test-Harness. Der LiveCodeBench-Score von 93,5 resultierte aus Evaluierungen mit klaren Testfällen. Ihre Code-Aufgaben werden davon profitieren; fügen Sie den fehlerhaften Test ein und das Modell wird Code schreiben, der ihn häufiger bestehen lässt, als wenn Sie nach „einer Funktion, die X tut“ fragen.

Für Arbeiten mit langem Kontext (Hunderttausende von Tokens) halten Sie das relevanteste Material oben und unten im Eingabefenster. Die hybride Aufmerksamkeit von V4 ist effizient, aber Recency- und Primacy-Bias treten immer noch auf.

Kostenkontrolle

Selbst mit den niedrigen Token-Preisen von V4 kann ein außer Kontrolle geratener Agent schnell ein Budget aufbrauchen. Drei Schutzmaßnahmen:

In Apidog legen Sie umgebungsspezifische Variablen für DEEPSEEK_API_KEY fest, damit Testläufe ein separates Abrechnungskonto von der Produktion verwenden. Apidog zeichnet auch die Token-Anzahl jeder Antwort auf, was der einfachste Weg ist, einen zu lang geratenen Prompt zu erkennen.

Migration von DeepSeek V3 oder anderen Modellen

Drei Migrationspfade decken die meisten Teams ab:

FAQ

Benötige ich ein kostenpflichtiges Konto, um V4 zu nutzen?Der Web-Chat ist kostenlos. Die API erfordert eine Aufladung, aber das Minimum beträgt 2 $. Siehe wie man DeepSeek V4 kostenlos nutzt für kostenlose Pfade.

Welche Variante sollte ich standardmäßig verwenden?Beginnen Sie mit V4-Flash im Non-Think-Modus. Messen Sie die Qualität. Eskalieren Sie nur dort, wo es sich lohnt.

Kann ich V4 auf meinem MacBook ausführen?V4-Flash läuft auf einem M3 Max oder M4 Max mit 128 GB Unified Memory bei starker Quantisierung, aber langsam. V4-Pro wird nicht laufen. Für Experimente auf Laptop-Niveau bleiben Sie bei der API oder dem Web-Chat.

Unterstützt V4 die Verwendung von Tools und Funktionsaufrufe?Ja. Der OpenAI-kompatible Endpunkt akzeptiert das Standard-tools-Array; Antworten enthalten tool_calls in derselben Form. Der Anthropic-Format-Endpunkt verwendet das native Anthropic-Schema für die Tool-Nutzung.

Wie streame ich Antworten?Setzen Sie stream: true im Anfragetext. Die Antwort ist ein standardmäßiger OpenAI-kompatibler SSE-Stream; jede Bibliothek, die OpenAI-Streaming verarbeitet, funktioniert ohne Änderungen.

Gibt es eine Ratenbegrenzung?Die gehostete API veröffentlicht tier-spezifische Limits auf api-docs.deepseek.com. Ein selbstgehostetes V4 hat keine anfragebezogene Begrenzung über Ihre Hardware hinaus.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen