Claude Sonnet 4.6: Was kostet es wirklich?

Kurz gesagt

Claude Sonnet 4.6 kostet 3 $ pro Million Eingabe-Tokens und 15 $ pro Million Ausgabe-Tokens – der gleiche Preis wie Sonnet 4.5, liefert aber eine nahezu Opus-Leistung. Mit Prompt-Caching sinken die Cache-Lesevorgänge auf 0,30 $/MTok (90 % Ersparnis). Die Batch-API halbiert die Kosten auf 1,50 $/MTok für Eingabe und 7,50 $/MTok für Ausgabe. Das 1M-Token-Kontextfenster (Beta) löst eine höhere Preisgestaltung für langen Kontext aus, und zwar 6 $/MTok für Eingabe und 22,50 $/MTok für Ausgabe bei Anfragen über 200.000 Tokens.

Claude Sonnet 4.6 Basispreise

Claude Sonnet 4.6 behält den gleichen Preis wie sein Vorgänger bei und liefert gleichzeitig deutlich bessere Ergebnisse. Hier ist die Kernpreisgestaltung auf einen Blick:

Preisstufe	Eingabe-Tokens	Ausgabe-Tokens
Standard	3,00 $ / MTok	15,00 $ / MTok
Batch-API	1,50 $ / MTok	7,50 $ / MTok
Cache-Schreibvorgänge (5 Min.)	3,75 $ / MTok	—
Cache-Schreibvorgänge (1 Std.)	6,00 $ / MTok	—
Cache-Lesevorgänge	0,30 $ / MTok	—
Langer Kontext >200K (Standard)	6,00 $ / MTok	22,50 $ / MTok
Langer Kontext >200K (Batch)	3,00 $ / MTok	11,25 $ / MTok

MTok = Millionen Tokens. Alle Preise in USD.

Die hier gebotene Wertigkeit ist kaum zu ignorieren. Frühe Tester bevorzugten Sonnet 4.6 gegenüber dem früheren Premium-Modell Opus 4.5 in 59 % der direkten Vergleiche – bei 60 % der Kosten.

Für die meisten Kodierungs-, Analyse- und Agenten-Aufgaben müssen Sie keine Opus-Preise mehr zahlen, um Ergebnisse auf Opus-Niveau zu erhalten.

💡

Das Testen dieser Anfragen vor dem Schreiben von Produktionscode spart im großen Maßstab Geld. Laden Sie Apidog herunter, um Test-API-Aufrufe gegen Claude Sonnet 4.6 durchzuführen, die tatsächliche Token-Nutzung pro Anfrage zu überprüfen und Ihr Budget genau zu kalkulieren, bevor Sie sich festlegen.

Button

Vollständige Preisübersicht nach Funktion

Standard-API-Preise

Die Standardtarife gelten für alle synchronen API-Aufrufe, die über die Anthropic API getätigt werden:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Summarize this document."}]
)

# Check exact token usage
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")

# Calculate cost
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")

Für den typischen API-Aufruf mit einer 500-Token-Eingabe und 300-Token-Ausgabe betragen die Kosten ungefähr 0,0060 $. Das ist weniger als ein Cent pro Anfrage zu Standardtarifen.

Prompt-Caching-Preise

Prompt-Caching ist der wirkungsvollste Kostenhebel von Sonnet 4.6. Es speichert Teile Ihres Prompts serverseitig und berechnet bei Cache-Treffern drastisch weniger.

Cache-Schreibtarife:- 5-Minuten-Cache: 3,75 $/MTok (1,25× Basis-Eingabepreis) - 1-Stunden-Cache: 6,00 $/MTok (2× Basis-Eingabepreis)

Cache-Lesetarif:- 0,30 $/MTok — ein Zehntel des Standard-Eingabepreises

Wenn Ihr System-Prompt 10.000 Tokens lang ist und Sie 1.000 Anfragen pro Tag verarbeiten: - Ohne Caching: 10.000 × 1.000 × 3 $/MTok = 30 $/Tag- Mit Caching (einmal schreiben, 999× lesen): 3,75 $ + (999 × 0,30 $) × 10.000/MTok ≈ 3,04 $/Tag

Das ist eine 90%ige Reduzierung allein für einen statischen System-Prompt.

import anthropic

client = anthropic.Anthropic()

# Mark expensive static content for caching
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
            "cache_control": {"type": "ephemeral"}  # Cache this block
        }
    ],
    messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)

# Check what came from cache vs fresh tokens
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens:  {usage.cache_read_input_tokens}")
print(f"Uncached tokens:    {usage.input_tokens}")

Wann welche Cache-Dauer verwenden:- 5-Minuten-Cache: Hochfrequente Aufrufe, stoßweiser Datenverkehr, kurze Gesprächsfenster - 1-Stunden-Cache: Hintergrundverarbeitungspipelines, Batch-Jobs mit längeren Pausen, Agenten-Loops

Batch-API-Preise

Die Batch-API bietet einen pauschalen Rabatt von 50 % auf Eingabe- und Ausgabe-Tokens im Austausch für asynchrone Verarbeitung (Ergebnisse innerhalb von 24 Stunden, typischerweise viel früher, verfügbar).

	Standard	Batch-API
Eingabe	3,00 $/MTok	1,50 $/MTok
Ausgabe	15,00 $/MTok	7,50 $/MTok

Beste Anwendungsfälle für die Batch-API:- Content-Moderationspipelines - Dokumentenklassifizierung im großen Maßstab - Datenanreicherung über Nacht - Generierung von Einbettungen oder Zusammenfassungen für große Datensätze - Jede nicht-interaktive Verarbeitung, bei der Latenz keine Rolle spielt

Bei 1,50 $/MTok für Eingabe und 7,50 $/MTok für Ausgabe kostet die Verarbeitung einer Million Dokumente mit jeweils 500 Eingabe-Tokens und 100 Ausgabe-Tokens: - Eingabe: 500M Tokens × 1,50 $/MTok = 750 $- Ausgabe: 100M Tokens × 7,50 $/MTok = 750 $- Gesamt: 1.500 $ für 1 Million Dokumente (~0,0015 $ pro Dokument)

Batch-API: 50 % Rabatt für nicht-Echtzeit-Workloads

Die Batch-Verarbeitung ist unkompliziert: Anfragen senden, Ergebnisse asynchron zum halben Preis erhalten. Der Kompromiss ist die Latenz – die Ergebnisse kommen innerhalb von 24 Stunden, meist jedoch viel schneller.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """Classify a list of texts at Batch API rates."""

    # Submit batch
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # Poll until complete
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # Collect results in order
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

Preise für langen Kontext (1M Token)

Wenn Sie das 1M-Token-Kontextfenster über den Beta-Header context-1m-2025-08-07 aktivieren, werden Anfragen, die 200.000 Eingabe-Tokens überschreiten, zu einem höheren Satz berechnet.

Tariftabelle für langen Kontext

Eingabe-Tokens	Eingabepreis	Ausgabepreis
≤ 200K	3,00 $/MTok	15,00 $/MTok
> 200K	6,00 $/MTok	22,50 $/MTok

Die 200K-Schwelle basiert auf den gesamten Eingabe-Tokens, welche umfassen: - input_tokens (Standard-Eingabe) - cache_creation_input_tokens (bei Verwendung von Prompt-Caching) - cache_read_input_tokens (bei Verwendung von Prompt-Caching)

Wenn die Summe 200K überschreitet, werden alle Tokens in dieser Anfrage zum höheren Satz berechnet.

Langer Kontext + Batch-API

Der 50%ige Rabatt der Batch-API kumuliert sich mit der Preisgestaltung für langen Kontext:

Szenario	Eingaberate	Ausgaberate
Standard	3,00 $/MTok	15,00 $/MTok
Langer Kontext (>200K)	6,00 $/MTok	22,50 $/MTok
Batch-API	1,50 $/MTok	7,50 $/MTok
Langer Kontext + Batch	3,00 $/MTok	11,25 $/MTok

Die Verarbeitung großer Dokumente in Masse über die Batch-API hält die Kosten für langen Kontext überschaubar.

Preise für Tools und Funktionen

Mehrere Tools verursachen separate Kosten, die über die Token-Kosten hinausgehen.

Websuch-Tool

10,00 $ pro 1.000 Suchanfragen
+ Standard-Token-Kosten für suchgenerierten Inhalt

Jeder Websuchaufruf zählt als eine Nutzung, unabhängig davon, wie viele Ergebnisse zurückgegeben werden. Keine Kosten, wenn die Suche fehlschlägt.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Web searches used: {search_count.get('web_search_requests', 0)}")
# Each search: $0.01

Code-Ausführungs-Tool

Kostenlos, wenn gebündelt mit Websuche oder Web-Abruf (unter Verwendung der Tool-Versionen web_search_20260209 oder web_fetch_20260209).

Bei eigenständiger Verwendung: - 1.550 kostenlose Stunden pro Organisation pro Monat - 0,05 $ pro Stunde pro Container jenseits des kostenlosen Kontingents - Mindestabrechnungseinheit: 5 Minuten

Für die meisten Entwicklungs- und Test-Workloads ist das kostenlose Kontingent mehr als ausreichend.

Web-Abruf-Tool

Keine zusätzlichen Gebühren. Sie zahlen nur die Standard-Token-Kosten für Inhalte, die in das Gespräch gelangen.

Tool	Zusätzliche Kosten	Hinweise
Websuche	10 $/1K Suchanfragen	Gebühr pro Suche
Web-Abruf	Kostenlos	Nur Token-Kosten
Code-Ausführung (mit Web-Tools)	Kostenlos	Gebündelt
Code-Ausführung (eigenständig)	0,05 $/Std. nach 1.550 Freistunden/Monat	Pro Container
Overhead für Computernutzung	~735 zusätzliche Eingabe-Tokens	Pro Tool-Definition
Overhead für Texteditor	~700 zusätzliche Eingabe-Tokens	Pro Tool-Definition

Overhead für Computernutzung

Die Computernutzung fügt einen festen Token-Overhead hinzu: - System-Prompt-Ergänzung: 466–499 Tokens - Tool-Definitions-Tokens: 735 Tokens pro Tool (Claude 4.x Modelle)

Für eine Computernutzungssitzung mit 100 Runden à 200 Tokens/Runde plus Screenshots: - Tool-Overhead: 735 Tokens × 3 $/MTok = 0,0022 $ (vernachlässigbar) - Screenshot-Tokens hängen von der Auflösung ab; planen Sie ~2.000–5.000 Tokens pro Screenshot ein

Claude Sonnet 4.6 vs. alle Modelle: Vollständiger Vergleich

Aktuelle Modellpreise

Modell	Eingabe	Ausgabe	Cache-Lesen	Batch-Eingabe	Batch-Ausgabe
Claude Sonnet 4.6	3,00 $	15,00 $	0,30 $	1,50 $	7,50 $
Claude Haiku 4.5	1,00 $	5,00 $	0,10 $	0,50 $	2,50 $
Claude Opus 4.6	5,00 $	25,00 $	0,50 $	2,50 $	12,50 $
Claude Opus 4.5	5,00 $	25,00 $	0,50 $	2,50 $	12,50 $
Claude Opus 4.1	15,00 $	75,00 $	1,50 $	7,50 $	37,50 $

Alle Preise in USD pro Million Tokens.

Sonnet 4.6 vs. Opus 4.6: Die Wertfrage

	Claude Sonnet 4.6	Claude Opus 4.6
Eingabepreis	3 $/MTok	5 $/MTok
Ausgabepreis	15 $/MTok	25 $/MTok
Relative Kosten	1×	1,67×
SWE-bench Verifiziert	79,6%	~80,8%
OSWorld (Computernutzung)	72,5%	72,7%
Benutzerpräferenz ggü. Sonnet 4.5	70%	N/A
Benutzerpräferenz ggü. Opus 4.5	59%	N/A
1M Kontextfenster	Ja (Beta)	Ja (Beta)
Adaptives Denken	Ja	Ja
Maximale Ausgabe	64K Tokens	128K Tokens

Für die überwiegende Mehrheit der Aufgaben – Kodierung, Analyse, Dokumentenverarbeitung, Agenten-Workflows – erreicht Sonnet 4.6 die Opus-Leistung zu 60 % des Preises. Opus 4.6 ist den Aufpreis wert, wenn Sie 128K Ausgabe-Tokens oder die absolute maximale Leistung bei neuen Denkaufgaben benötigen.

Sonnet 4.6 vs. Haiku 4.5: Wann welches Modell verwenden

Anwendungsfall	Sonnet 4.6	Haiku 4.5
Komplexe Code-Generierung	✅	⚠️
Einfache Klassifizierung	⚠️ Überdimensioniert	✅
Dokumentenzusammenfassung	✅	✅
Mehrstufige Agenten-Aufgaben	✅	❌
Hohes Volumen, geringe Komplexität	❌ Teuer	✅
Tool-Aufruf / Funktionsnutzung	✅	✅
Lange Argumentationsketten	✅	❌
Latenzempfindliche Anwendungen	✅ Schnell	✅ Am schnellsten

Das intelligente Muster: Verwenden Sie Haiku 4.5 für Routing, Klassifizierung und einfache Extraktion; leiten Sie komplexe Aufgaben an Sonnet 4.6 weiter. Dieser Hybridansatz kostet typischerweise 60–80 % weniger, als wenn Sonnet 4.6 für alles verwendet würde.

Kosten mit Apidog vor der Live-Schaltung testen

Bevor Sie in Produktion gehen, möchten Sie genau wissen, was jede Anfrage kostet. Der visuelle API-Client von Apidog ermöglicht es Ihnen, Claude Sonnet 4.6-Aufrufe zu testen, die vollständige Antwort einschließlich des usage-Objekts zu überprüfen und die Token-Zahlen pro Anfrage zu verfolgen.

Kostentransparenz in Apidog einrichten

Erstellen Sie eine neue POST-Anfrage an https://api.anthropic.com/v1/messages
Fügen Sie Header hinzu: x-api-key, anthropic-version: 2023-06-01, Content-Type: application/json
Setzen Sie den Body mit Ihrem Modell und Ihren Nachrichten
Führen Sie die Anfrage aus — das usage-Objekt der Antwort zeigt genaue Token-Zahlen

{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

Aus diesen Zahlen berechnen Sie die tatsächlichen Kosten: - Eingabe: 523 Tokens × 3 $/MTok = 0,00157 $ - Cache-Schreibvorgang: 5.000 Tokens × 3,75 $/MTok = 0,01875 $ - Ausgabe: 312 Tokens × 15 $/MTok = 0,00468 $ - Gesamtkosten erster Aufruf: 0,025 $ (nachfolgende Aufrufe mit Cache-Treffer: ~0,006 $)

Sie können diese Anfragen als Sammlung in Apidog speichern, mit Ihrem Team teilen und Kostenschätzungen für verschiedene Prompt-Variationen durchführen, bevor Sie Ihr Produktionsdesign finalisieren.

Bereit, mit der Entwicklung zu beginnen? Laden Sie Apidog kostenlos herunter, um Claude Sonnet 4.6 API-Aufrufe visuell zu testen, die Token-Nutzung pro Anfrage zu überprüfen und Ihre Kosten vor der Bereitstellung genau zu kalkulieren.

Button