Claude Sonnet 5 API nutzen: Schritt-für-Schritt-Anleitung mit Apidog

Claude Sonnet 5 wurde am 30. Juni 2026 veröffentlicht und ist das agentischste Sonnet-Modell, das Anthropic herausgebracht hat. Es erzielt bei Aufgaben zur Werkzeugnutzung und beim Programmieren ähnliche Leistungen wie Opus 4.8, ist aber deutlich günstiger, was es zu einer starken Standardwahl für alles macht, was Werkzeuge in einer Schleife aufruft. Dieser Leitfaden zeigt Ihnen, wie Sie die Claude Sonnet 5 API durchgängig aufrufen: einen Schlüssel erhalten, Ihre erste Anfrage in curl und Python senden, die Antwort lesen, die neue Standardeinstellung für adaptives Denken handhaben, die drei Anforderungsänderungen vermeiden, die 400er-Fehler zurückgeben, lange Ausgaben streamen und Tokens mit dem neuen Tokenizer zählen.

Sie richten das Ganze auch in Apidog ein, sodass Ihre Anfragen in einer wiederverwendbaren Sammlung mit gespeicherten Umgebungen und automatisierten Tests leben, anstatt über die Shell-Historie verstreut zu sein. Wenn Sie die Messages API zuvor aufgerufen haben, wird Ihnen das meiste davon bekannt vorkommen. Die Modell-ID ist claude-sonnet-5, und die Anfragenstruktur entspricht dem, was Sie bereits verwenden.

button

Was Sie vor dem Start benötigen

Sie benötigen drei Dinge, um die API aufzurufen.

Ein Anthropic-Konto und einen API-Schlüssel von der Claude-Plattformkonsole.
Die Modell-ID: claude-sonnet-5. Es ist die exakte Zeichenfolge, ohne Datumssuffix.
Eine Möglichkeit, HTTP-Anfragen zu senden. curl funktioniert für einen schnellen Test. Apidog funktioniert besser, sobald Sie iterieren.

Sonnet 5 ist für alle API-Kunden verfügbar, zusätzlich zu Amazon Bedrock (über die Claude-Plattform auf AWS), Google Cloud über Vertex AI und Microsoft Foundry als Vorschau. Dieser Leitfaden verwendet die direkte Anthropic API. Der Anfragetext ist über alle Plattformen hinweg derselbe; nur die Authentifizierung und der Endpunkt-Host ändern sich.

Holen Sie sich Ihren API-Schlüssel

Melden Sie sich bei der Claude-Plattformkonsole an, öffnen Sie den Abschnitt „API-Schlüssel“ und erstellen Sie einen neuen Schlüssel. Kopieren Sie ihn einmal und speichern Sie ihn an einem sicheren Ort, da die Konsole ihn danach nicht mehr anzeigen wird. Programmieren Sie den Schlüssel niemals fest in Ihren Quellcode oder committen Sie ihn zu Git. Setzen Sie ihn stattdessen als Umgebungsvariable:

export ANTHROPIC_API_KEY="sk-ant-..."

Wenn Sie einen ZDR-Vertrag haben, unterstützt Sonnet 5 die Null-Datenaufbewahrung, sodass sich für Sie an der API-Oberfläche nichts ändert.

Ihre erste Anfrage

Die Sonnet 5 API verwendet Anthropic's Messages-Endpunkt. Hier ist eine minimale Anfrage mit curl.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Write a haiku about API testing."}
    ]
  }'

Dieselbe Anfrage mit dem Python SDK:

import os
from anthropic import Anthropic

client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Write a haiku about API testing."}
    ],
)

print(message.content[0].text)

Zwei Felder erledigen die Hauptarbeit. model wählt Sonnet 5 aus. max_tokens begrenzt die gesamte Ausgabe. Lesen Sie weiter, denn max_tokens verhält sich auf Sonnet 5 anders als auf Sonnet 4.6, und es ist das Einfachste, was man falsch machen kann.

Die Antwort lesen

Ein erfolgreicher Aufruf gibt HTTP 200 mit einem JSON-Body wie diesem zurück (gekürzt):

{
  "id": "msg_01ABC...",
  "type": "message",
  "role": "assistant",
  "model": "claude-sonnet-5",
  "content": [
    {"type": "text", "text": "Assertions green,\nendpoints answer on the first try,\nship the merge tonight."}
  ],
  "stop_reason": "end_turn",
  "usage": {
    "input_tokens": 18,
    "output_tokens": 27
  }
}

Einige Felder sind für die tatsächliche Arbeit wichtig.

content ist ein Array. Text befindet sich in Blöcken, deren type "text" ist. Wenn Werkzeugnutzung oder Denken aktiviert sind, sehen Sie andere Blocktypen im selben Array, also iterieren Sie; gehen Sie nicht davon aus, dass content[0] immer Ihre Antwort ist.
stop_reason teilt Ihnen mit, warum die Generierung beendet wurde. end_turn ist normal. max_tokens bedeutet, dass Sie das Limit erreicht haben und die Ausgabe abgeschnitten wurde. refusal ist neu und erklärungsbedürftig (siehe unten).
usage meldet input_tokens und output_tokens. Dies ist das, wofür Sie abgerechnet werden, und die Zahlen sind bei Sonnet 5 für denselben Text höher aufgrund des neuen Tokenizers.

Der Ablehnungsgrund (refusal stop reason)

Sonnet 5 ist das erste Modell der Sonnet-Klasse mit Echtzeit-Cybersicherheitsmaßnahmen. Wenn eine Anfrage ein verbotenes oder hochriskantes Cyber-Thema berührt, kann das Modell die Anfrage ablehnen. Eine Ablehnung wird als normale HTTP 200 mit stop_reason: "refusal" zurückgegeben, nicht als Fehler. Behandeln Sie dies in Ihrem Antwort-Parsing-Code genauso, wie Sie jeden anderen Nicht-end_turn-Stoppgrund behandeln würden, anstatt es als fehlgeschlagenen HTTP-Aufruf zu betrachten.

Adaptives Denken ist standardmäßig aktiviert

Dies ist die größte Verhaltensänderung gegenüber Sonnet 4.6 und bringt Leute zum Stolpern. Bei Sonnet 4.6 bedeutete kein thinking-Feld kein Denken. Bei Sonnet 5 ist adaptives Denken standardmäßig aktiviert. Eine Anfrage ohne thinking-Feld läuft nun mit adaptivem Denken, und Denk-Tokens werden auf Ihre gesamte Ausgabe angerechnet.

Da max_tokens eine feste Obergrenze für die Gesamtausgabe ist (Denk-Tokens plus Antworttext), kann ein max_tokens-Wert, der bei 4.6 ausreichend war, Ihre sichtbare Antwort nun abschneiden, bevor sie beendet ist. Wenn Sie eine Arbeitslast migriert haben, die nie Denken verwendete und ein enges max_tokens gesetzt hatte, erhöhen Sie es oder rechnen Sie mit einer Trunkierung.

Um das Denken vollständig zu deaktivieren:

message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    thinking={"type": "disabled"},
    messages=[
        {"role": "user", "content": "Return only the JSON, no reasoning."}
    ],
)

Um adaptives Denken aktiviert zu lassen und zu steuern, wie intensiv das Modell arbeitet, verwenden Sie den Parameter effort, anstatt zu versuchen, ein manuelles Token-Budget festzulegen. Effort unterstützt low, medium, high und xhigh. Höherer Aufwand bedeutet tieferes Denken und mehr Token-Verbrauch. Anthropic dokumentiert das Verhalten auf der Seite für adaptives Denken. Beachten Sie, dass der Feldwert {"type": "adaptive"} ist und keine budget_tokens-Zahl.

Drei Anforderungsänderungen, die 400er zurückgeben

Wenn Sie Code von Sonnet 4.6 oder einem älteren Claude-Modell portieren, führen drei Dinge, die früher funktioniert haben, jetzt zu einem 400er-Fehler. Beheben Sie diese, bevor Sie migrieren.

Manuelles erweitertes Denken wurde entfernt. thinking: {type: "enabled", budget_tokens: N} gibt 400 zurück. Es war bereits auf 4.6 veraltet. Verwenden Sie stattdessen adaptives Denken plus den effort-Parameter.
Sampling-Parameter werden abgelehnt. Das Setzen von temperature, top_p oder top_k auf einen Nicht-Standardwert gibt 400 zurück. Entfernen Sie diese. Das Weglassen oder Belassen bei ihren Standardwerten ist in Ordnung. Steuern Sie das Verhalten stattdessen mit System-Prompt-Anweisungen. Diese Einschränkung gab es bereits bei Opus 4.7 und höher; für die Sonnet-Klasse ist sie neu.
Präfüllen von Assistant-Nachrichten wird nicht unterstützt. Das Präfüllen des Beginns der Assistenten-Antwort gibt 400 zurück. Verwenden Sie stattdessen strukturierte Ausgaben oder output_config.format oder System-Prompt-Anweisungen, um die Ausgabe zu formen.

Alles andere, was auf Sonnet 4.6 läuft, läuft auf Sonnet 5 ohne weitere Codeänderungen. Die Request-, Response- und Streaming-Strukturen sind identisch. Eine umfassendere Migrationsanleitung finden Sie in unserem Leitfaden zur Claude Sonnet 4.6 API, der dieselbe Anfragenoberfläche abdeckt, die Sonnet 5 erbt.

Streaming für große Ausgaben

Sonnet 5 unterstützt bis zu 128.000 Tokens Ausgabe. Bei langen Antworten oder Anfragen, bei denen adaptives Denken die Gesamtausgabe hochtreibt, streamen Sie das Ergebnis, damit Sie Tokens erhalten, sobald sie generiert werden, anstatt auf die vollständige Antwort zu warten. Streaming vermeidet auch Client-Timeouts bei großen Generierungen.

with client.messages.stream(
    model="claude-sonnet-5",
    max_tokens=8000,
    messages=[
        {"role": "user", "content": "Draft an OpenAPI 3.1 spec for a bookstore checkout API."}
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

Die Struktur der Streaming-Ereignisse ist dieselbe wie bei Sonnet 4.6, sodass bestehende Stream-Handler unverändert funktionieren.

Token-Zählung mit dem neuen Tokenizer

Sonnet 5 verwendet einen neuen Tokenizer. Derselbe Eingabetext erzeugt etwa 30 % mehr Tokens als bei Sonnet 4.6, etwa das 1,3-fache. Dies ist keine API-Änderung. Die Request-, Response- und Streaming-Strukturen sind identisch, und Sie müssen dafür keinen Code ändern. Aber es beeinflusst alles, was Sie in Tokens messen oder budgetieren.

Ihre usage-Zahlen und Token-Zählergebnisse sind für denselben Text höher. Zählen Sie neu gegen Sonnet 5; verwenden Sie Ihre 4.6-Zählungen nicht wieder.
Das 1.000.000-Token-Kontextfenster fasst im Durchschnitt weniger Text, da jeder Token nun weniger Text abdeckt.
Ein max_tokens-Wert, der nahe an Ihrer erwarteten Ausgabe bemessen war, kann nun abgeschnitten werden. Überprüfen Sie ihn.
Die Kosten pro Anfrage für äquivalenten Text können höher sein, obwohl der Preis pro Token unverändert ist.

Verwenden Sie den count-tokens-Endpunkt, bevor Sie senden, damit Sie mit den realen Zahlen von Sonnet 5 budgetieren:

count = client.messages.count_tokens(
    model="claude-sonnet-5",
    messages=[
        {"role": "user", "content": "Estimate the tokens for this prompt on Sonnet 5."}
    ],
)
print(count.input_tokens)

Anthropic dokumentiert dies auf der Seite zur Token-Zählung.

Fehler, Ratenbegrenzungen und Grundlagen der Kosten

Es gelten die Standard-HTTP-Semantik. Eine 400 bedeutet eine fehlerhafte Anfrage (die drei oben genannten Änderungen sind die üblichen Verdächtigen bei Sonnet 5). Eine 401 bedeutet einen falschen oder fehlenden API-Schlüssel. Eine 429 bedeutet, dass Sie ein Ratenlimit erreicht haben. Lesen Sie den retry-after-Header und warten Sie, bevor Sie es erneut versuchen. Denken Sie daran, dass eine Ablehnung eine 200 ist, kein Fehler, leiten Sie sie also nicht durch Ihre Wiederholungslogik.

Bei der Preisgestaltung beträgt der Einführungstarif 2 US-Dollar pro Million Eingabetokens und 10 US-Dollar pro Million Ausgabetokens, gültig bis zum 31. August 2026. Danach wechselt er zum Standardtarif von 3 US-Dollar pro Million Eingabe und 15 US-Dollar pro Million Ausgabe, dem gleichen Token-Preis wie bei Sonnet 4.6. Aufgrund der Tokenizer-Änderung können die Kosten einer Anfrage mit äquivalentem Text immer noch höher sein als bei 4.6, obwohl der Token-Preis übereinstimmt. Modellieren Sie daher Ihre tatsächlichen Arbeitslasten mit Token-Zählung, anstatt von einer pauschalen Parität auszugehen. Für eine detailliertere Kostenübersicht siehe unsere Claude API Kostenaufschlüsselung und den Leitfaden zu Claude API Ratenbegrenzungen. Priority Tier ist bei Sonnet 5 nicht verfügbar.

Testen und organisieren Sie Ihre Sonnet 5-Aufrufe in Apidog

Sobald Sie über den ersten curl-Befehl hinaus sind, möchten Sie, dass Ihre Anfragen gespeichert, Ihr Schlüssel einmalig hinterlegt und Ihre Antworten automatisch überprüft werden. Hier kommt Apidog ins Spiel. Es ist eine All-in-One-API-Plattform, sodass dieselbe Anfrage, die Sie manuell senden, zu einem wiederverwendbaren, testbaren Asset wird. Laden Sie Apidog herunter, um mitzumachen.

button

Hier ist eine praktische Einrichtung für die Sonnet 5 API.

1. Erstellen Sie die Anfrage. Fügen Sie eine neue HTTP-Anfrage in Apidog hinzu. Setzen Sie die Methode auf POST und die URL auf https://api.anthropic.com/v1/messages. Fügen Sie die Header anthropic-version: 2023-06-01 und content-type: application/json hinzu. Fügen Sie den JSON-Body mit "model": "claude-sonnet-5" ein.
2. Speichern Sie den API-Schlüssel als Umgebungsvariable. Erstellen Sie eine Umgebung (z.B. „Anthropic Produktion“) und fügen Sie eine Variable namens ANTHROPIC_API_KEY hinzu. Referenzieren Sie diese im x-api-key-Header als {{ANTHROPIC_API_KEY}}. Nun befindet sich Ihr Schlüssel an einem Ort, außerhalb Ihres Anfragetexts, und Sie können Umgebungen wechseln, ohne Anfragen bearbeiten zu müssen.
3. Speichern Sie sie in einer Sammlung. Gruppieren Sie Ihre Sonnet 5-Anfragen, einen einfachen Nachrichtenaufruf, einen Streaming-Aufruf, einen Werkzeugaufruf, in einer Sammlung. Ihr gesamtes Team erhält dieselben bekannten, guten Anfragen, anstatt curl-Snippets herumzukopieren.
4. Fügen Sie einen automatisierten Test hinzu. Fügen Sie der Anfrage Zusicherungen (Assertions) hinzu, damit ein Lauf lautstark fehlschlägt, wenn etwas abweicht. Zum Beispiel:Ketten Sie diese zu einem Testszenario zusammen und führen Sie es in CI aus, wann immer Sie Prompts ändern oder Modellversionen migrieren. Diese letzte Zusicherung ist der günstigste Weg, eine max_tokens-Regression abzufangen, die dadurch verursacht wird, dass adaptives Denken nun standardmäßig aktiviert ist.
- Bestätigen Sie, dass der Antwortstatus 200 ist.
- Bestätigen Sie, dass model gleich claude-sonnet-5 ist.
- Bestätigen Sie, dass stop_reason vorhanden und nicht max_tokens ist (eine schnelle Methode, um Trunkierung nach der Tokenizer-Änderung abzufangen).
- Bestätigen Sie, dass usage.output_tokens größer als 0 ist.
5. Mocken Sie den Endpunkt. Apidogs Smart Mock gibt eine realistische Antwort für die Messages-Struktur zurück, sodass der Client-Code Ihrer App, die Fehlerbehandlung und der Streaming-Parser erstellt und getestet werden können, ohne einen einzigen Token auszugeben. Das ist nützlich für Frontend-Arbeiten und zum Lasttesten Ihrer eigenen Integrationsschicht.

Wenn Sie von Postman hierfür wechseln, erklärt unser Beitrag zum API-Testen ohne Postman im Jahr 2026, warum ein Design-plus-Test-plus-Mock-Workflow in einem Tool Round-Trips einspart. Bevorzugen Sie das Terminal? Der vollständige Leitfaden zur Apidog CLI zeigt, wie Sie dieselben gespeicherten Tests in einer Pipeline ausführen können.

button

FAQ

Was ist die Modell-ID von Claude Sonnet 5?

Es ist claude-sonnet-5, die exakte Zeichenfolge ohne Datumssuffix. Verwenden Sie sie im Feld model Ihrer Messages-Anfrage. Es ist ein direkter Ersatz für claude-sonnet-4-6, sodass Sie in den meisten Fällen die Modell-ID ändern und drei Dinge überprüfen: das nun standardmäßig aktivierte adaptive Denken, die entfernten Sampling-Parameter und das entfernte manuelle Denkbudget. Für ein vollständiges Bild des Modells lesen Sie was ist Claude Sonnet 5.

Warum wird meine max_tokens-Ausgabe auf Sonnet 5 abgeschnitten?

Adaptives Denken ist standardmäßig aktiviert, und Denk-Tokens werden zusammen mit Ihrem Antworttext auf max_tokens angerechnet. Wenn Ihre Obergrenze für eine Arbeitslast ohne Denken auf Sonnet 4.6 eingestellt war, erhöhen Sie diese, oder setzen Sie thinking: {"type": "disabled"}, wenn Sie überhaupt kein Denken wünschen. Der neue Tokenizer erzeugt etwa 30 % mehr Tokens für denselben Text, was den Effekt verstärkt.

Muss ich meinen Code ändern, um von Sonnet 4.6 zu migrieren?

Nur an drei Stellen. Entfernen Sie nicht-standardmäßige temperature, top_p und top_k. Entfernen Sie jegliches thinking: {type: "enabled", budget_tokens: N}. Entfernen Sie das Präfüllen von Assistant-Nachrichten. Jede dieser Aktionen gibt auf Sonnet 5 eine 400 zurück. Alles andere, einschließlich Streaming und Antwortstrukturen, bleibt unverändert. Wenn Sie auch Opus betreiben, verwendet unser Opus 4.8 API-Leitfaden dieselbe Messages-Oberfläche.

Ist eine Ablehnung (refusal) ein Fehler, den ich abfangen muss?

Nein. Eine Cybersicherheitsablehnung gibt HTTP 200 mit stop_reason: "refusal" zurück. Behandeln Sie es als normale Antwort mit einem Nicht-end_turn-Stoppgrund, nicht als fehlgeschlagene Anfrage. Leiten Sie es nicht durch Ihren Wiederholungsversuch bei Fehlern.

Wie viel kostet die Sonnet 5 API?

Der Einführungspreis beträgt 2 US-Dollar pro Million Eingabetokens und 10 US-Dollar pro Million Ausgabetokens bis zum 31. August 2026, danach 3 US-Dollar bzw. 15 US-Dollar. Der Token-Preis entspricht dem von Sonnet 4.6, aber der neue Tokenizer bedeutet, dass äquivalenter Text mehr kosten kann. Messen Sie daher mit Token-Zählung, anstatt von einer Parität auszugehen.