Claude Opus 4.8 kostet 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken im Standardmodus. Das ist derselbe Tarif wie bei Opus 4.7. Wenn Sie also bereits für 4.7 budgetiert haben, ändert sich nichts, wenn Sie ein Upgrade durchführen. Der interessante Teil ist alles, was um diese Schlagzeilenzahl herum passiert: ein schnellerer Modus, ein Token-Ausgaben-Regler, Caching und Batch-Rabatte, die Ihre tatsächliche Rechnung viel mehr beeinflussen als der Grundpreis.
Dieser Leitfaden schlüsselt auf, was Sie tatsächlich bezahlen, mit durchgerechneten Beispielen. Eine Modellübersicht finden Sie unter Was ist Claude Opus 4.8. Um mit dem Aufbau zu beginnen, siehe den API-Leitfaden.
Die Preisliste
| Modus | Eingabe (pro 1 Mio. Tokens) | Ausgabe (pro 1 Mio. Tokens) | Geschwindigkeit |
|---|---|---|---|
| Standard | $5 | $25 | Basislinie |
| Schnell | $10 | $50 | 2,5x schnellere Ausgabe |
Zwei Dinge fallen auf. Erstens kosten Ausgabetoken fünfmal mehr als Eingabetoken, sodass die Länge der Antworten von Claude Ihre Rechnung bestimmt, nicht die Größe Ihrer Prompts. Zweitens verdoppelt der schnelle Modus den Preis für eine 2,5-mal schnellere Ausgabe. Anthropic merkt an, dass der schnelle Modus etwa dreimal günstiger ist als das Äquivalent bei früheren Modellen, sodass der Aufpreis für Geschwindigkeit von Generation zu Generation gesunken ist.
Sie können die aktuellen Tarife in Anthropic’s Preisdokumentation bestätigen.
Wofür der schnelle Modus gedacht ist
Der Standardmodus ist die Standardeinstellung und die richtige Wahl für die meisten Arbeitslasten. Der schnelle Modus existiert für Fälle, in denen Latenz das Produkt ist: Live-Code-Assistenten, interaktive Agenten, alles, bei dem ein Benutzer den Cursor beobachtet. Sie zahlen doppelt pro Token für eine Ausgabe, die 2,5-mal schneller streamt.
Die Entscheidung ist einfach. Wenn ein Mensch in Echtzeit auf die Antwort wartet, kann sich der schnelle Modus lohnen. Wenn die Arbeit im Hintergrund abläuft, eine Agenten-Schleife, ein Batch-Job, eine geplante Aufgabe, bleiben Sie beim Standardmodus und sparen Sie Geld.
Wie der Aufwand Ihre Rechnung verändert
Dies ist der Hebel, den die meisten Teams übersehen. Der effort-Parameter von Opus 4.8 steuert, wie viele Token das Modell für die gesamte Antwort, einschließlich Tool-Aufrufe, ausgibt. Da die Ausgabe die teure Hälfte ist, senkt eine Reduzierung des Aufwands bei Arbeiten, die keine tiefgreifende Argumentation erfordern, die Kosten direkt.
Die fünf Stufen, vom günstigsten zum teuersten in Bezug auf Token:
low: knappe Antworten, wenigste Tool-Aufrufe, geringste Ausgabenmedium: ausgewogenhigh: die Standardeinstellung, gründlichxhigh: tiefgreifende Argumentation, mehr Tool-Aufrufe, empfohlen für Codierungmax: keine Einschränkungen, höchste Ausgaben
Eine Klassifizierungsaufgabe bei low Aufwand könnte ein Zehntel der Ausgabetoken verwenden, die sie bei high verwenden würde. Dasselbe Modell, derselbe Preis, ein Bruchteil der Rechnung. Anthropic’s Aufwandsrichtlinie beschreibt, wo jede Stufe die Qualität beibehält. Das Fazit: Passen Sie den Aufwand der Aufgabe an, anstatt überall für high zu bezahlen.
Durchgerechnete Kostenszenarien
Alle Zahlen verwenden die Standardpreise (5 US-Dollar Eingabe, 25 US-Dollar Ausgabe pro Million Tokens). Sie sind illustrativ; Ihre tatsächlichen Token-Anzahlen können variieren.
Szenario 1: eine Chatbot-Interaktion. 1.000 Eingabetoken, 500 Ausgabetoken.
- Eingabe: 1.000 / 1.000.000 x $5 = $0.005
- Ausgabe: 500 / 1.000.000 x $25 = $0.0125
- Gesamt: ca. $0.018 pro Interaktion
Bei low Aufwand schrumpft die Ausgabe, wodurch die Kosten pro Interaktion unter einen Cent sinken.
Szenario 2: eine agentenbasierte Codierungsaufgabe. 50.000 Eingabetoken Kontext aus dem Repo, 8.000 Ausgabetoken bei xhigh.
- Eingabe: 50.000 / 1.000.000 x $5 = $0.25
- Ausgabe: 8.000 / 1.000.000 x $25 = $0.20
- Gesamt: ca. $0.45 pro Aufgabe
Wenn dieser 50K-Kontext bei mehreren Aufrufen wiederholt wird, senkt das Prompt-Caching die Eingabekosten auf ungefähr $0.025, wodurch die Gesamtkosten auf etwa $0.23 sinken.
Szenario 3: ein nächtlicher Batch-Job. 1.000.000 Eingabetoken, 200.000 Ausgabetoken, über die Batch-API mit 50% Rabatt ausgeführt.
- Eingabe: 1.000.000 / 1.000.000 x $5 x 0.5 = $2.50
- Ausgabe: 200.000 / 1.000.000 x $25 x 0.5 = $2.50
- Gesamt: ca. $5.00 für den gesamten Batch
Für einen Preisvergleich mit günstigeren Modellen siehe die Gemini 3.5 Flash Preisaufschlüsselung und Xiaomi MiMo v2.5 API-Kosten.
Prompt-Caching: die größte einzelne Ersparnis
Wenn Sie bei jedem Aufruf denselben System-Prompt, dasselbe Dokument oder denselben Code senden, zahlen Sie den vollen Eingabepreis für Token, die das Modell bereits gesehen hat. Prompt-Caching behebt dies. Das Lesen von zwischengespeicherten Eingaben wird nach dem anfänglichen Schreiben des Caches zu einem Bruchteil des normalen Eingabetarifs, etwa einem Zehntel, berechnet.
Long-Context-Agenten sparen am meisten. Ein 50K-Token-System-Prompt, der bei jedem Aufruf zum vollen Preis abgerechnet wird, ist teuer; wenn er zwischengespeichert ist, kostet der wiederholte Teil fast nichts. Der erste Aufruf schreibt den Cache, jeder folgende Aufruf liest ihn günstig.
Batch-API und große Ausgaben
Die Batch-API führt Jobs mit einem Rabatt aus, wenn Sie keine Echtzeit-Antwort benötigen. Senden Sie eine Reihe von Anfragen, erhalten Sie die Ergebnisse innerhalb des Batch-Fensters zurück und zahlen Sie weniger pro Token. Sie erhöht auch die Ausgabegrenze: Opus 4.8 unterstützt über die Batch-API mit dem Beta-Header output-300k-2026-03-24 bis zu 300K Ausgabetoken, verglichen mit 128K am synchronen Endpunkt.
Verwenden Sie sie für Evaluierungen, Massen-Zusammenfassungen, Datenbeschriftung und jede Pipeline, bei der Minuten Latenz keine Rolle spielen.
Opus-Preise über Generationen hinweg
Opus 4.8 hält den Preis stabil. Die Geschichte ist, wie weit der Preis vor zwei Generationen gesunken ist:
| Modell | Eingabe (pro 1 Mio.) | Ausgabe (pro 1 Mio.) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus fiel von 15/75 US-Dollar auf 5/25 US-Dollar bei der 4.5-Generation und ist seitdem dort geblieben, während sich das Modell hinter dem Preis ständig verbessert. Sie erhalten die Qualität von 4.8 zum Preis von 4.5. Für einen direkten Vergleich mit den Flaggschiffen anderer Anbieter siehe Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5.
Eine Checkliste zur Kostenoptimierung
Bevor Sie Opus 4.8 skalieren, arbeiten Sie diese Liste durch:
- Legen Sie den Aufwand pro Aufgabe fest. Zahlen Sie nicht
highfür Klassifizierung oderxhighfür eine Nachschlagefunktion. - Wiederholten Kontext cachen. System-Prompts, Dokumente und Codebasen sollten gecacht werden.
- Das Nicht-Dringende als Batch verarbeiten. Verschieben Sie Evaluierungen und Massenaufträge in die Batch-API.
- Begrenzen Sie
max_tokenssinnvoll. Es begrenzt die schlimmsten Output-Kosten pro Aufruf. - Bleiben Sie im Standardmodus, es sei denn, ein Mensch wartet in Echtzeit.
- Beachten Sie die Nutzungsstufen. Ratenbegrenzungen und Ausgaben steigen zusammen; die Änderung der wöchentlichen Claude Code-Limits ist eine Erinnerung, das Kontingent zu verfolgen.
Verfolgen Sie Ihre tatsächlichen Ausgaben mit Apidog
Geschätzte Kosten und tatsächliche Kosten driften schnell auseinander, sobald Sie in Produktion sind, da reale Antworten in Länge und Anzahl der Tool-Aufrufe variieren. Der Weg, ehrlich zu bleiben, besteht darin, das usage-Objekt zu überprüfen, das jede Messages API-Antwort zurückgibt und das die Anzahl der Eingabe- und Ausgabetoken pro Aufruf meldet.

Apidog macht das sichtbar:
- Senden Sie eine echte Opus 4.8-Anfrage und lesen Sie den
usage-Block in der Antwort. - Vergleichen Sie die Token-Anzahlen über verschiedene
effort-Level für denselben Prompt, um die Kostenunterschiede direkt zu sehen. - Speichern Sie Anfragen für jede Arbeitslast und führen Sie sie erneut aus, wenn sich Ihre Prompts ändern.
- Simulieren Sie den Endpunkt, damit Sie entwickeln und testen können, ohne einen Token auszugeben.
Laden Sie Apidog herunter, richten Sie eine Anfrage an den Messages-Endpunkt und führen Sie denselben Prompt mit low, high und xhigh aus. Die Token-Anzahlen sagen Ihnen genau, was jedes Aufwandslevel kostet, bevor Sie es in Produktion übernehmen.
FAQ
Wie viel kostet Claude Opus 4.8? 5 US-Dollar pro Million Eingabetoken und 25 US-Dollar pro Million Ausgabetoken im Standardmodus. Der schnelle Modus kostet 10 US-Dollar und 50 US-Dollar für eine 2,5-mal schnellere Ausgabe.
Ist Opus 4.8 teurer als Opus 4.7? Nein. Die Token-Raten sind identisch, sodass ein Upgrade von 4.7 Ihre Rechnung nicht ändert.
Was ist der Unterschied zwischen der Preisgestaltung im Standard- und im Schnellmodus? Der Schnellmodus verdoppelt die Token-Rate im Austausch für eine Ausgabe, die etwa 2,5-mal schneller streamt. Verwenden Sie ihn nur, wenn Latenz für einen wartenden Benutzer wichtig ist.
Wie senke ich meine Opus 4.8-Kosten? Reduzieren Sie den effort-Level bei einfacheren Aufgaben, cachen Sie wiederholte Prompt-Inhalte, bündeln Sie nicht dringende Aufgaben und halten Sie max_tokens knapp. Ausgabetoken sind der Hauptkostentreiber.
Spart Prompt-Caching wirklich Geld? Ja. Nachdem der erste Aufruf den Cache geschrieben hat, wird die wiederholte Eingabe zu etwa einem Zehntel des normalen Eingabetarifs gelesen. Langkontext-Agenten sparen am meisten.
Wie viele Ausgabetoken kann Opus 4.8 produzieren? Bis zu 128K über die synchrone Messages API und bis zu 300K über die Batch API mit dem Beta-Header output-300k-2026-03-24.
Wo sehe ich die Token-Nutzung pro Aufruf? Im usage-Objekt jeder Messages API-Antwort. Tools wie Apidog zeigen es an, damit Sie die Kosten über verschiedene Aufwandslevel hinweg vergleichen können.
