En resumen
Claude Sonnet 4.6 cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida, el mismo precio que Sonnet 4.5, a la vez que ofrece un rendimiento cercano al de Opus. Con el almacenamiento en caché de prompts, las lecturas de caché se reducen a $0.30/MTok (un ahorro del 90%). La API por lotes reduce los costos a la mitad, a $1.50/$7.50 por MTok. La ventana de contexto de 1 millón de tokens (beta) activa los precios de contexto largo a $6/$22.50 por MTok para solicitudes de más de 200K tokens.
Precios base de Claude Sonnet 4.6
Claude Sonnet 4.6 mantiene el mismo precio que su predecesor, al tiempo que ofrece resultados significativamente mejores. Aquí un resumen de los precios principales:
| Nivel de precios | Tokens de entrada | Tokens de salida |
|---|---|---|
| Estándar | $3.00 / MTok | $15.00 / MTok |
| API por lotes | $1.50 / MTok | $7.50 / MTok |
| Escrituras en caché (5 min) | $3.75 / MTok | — |
| Escrituras en caché (1 hora) | $6.00 / MTok | — |
| Lecturas de caché | $0.30 / MTok | — |
| Contexto largo >200K (estándar) | $6.00 / MTok | $22.50 / MTok |
| Contexto largo >200K (por lotes) | $3.00 / MTok | $11.25 / MTok |
MTok = millones de tokens. Todos los precios en USD.
La propuesta de valor aquí es difícil de ignorar. Los primeros evaluadores prefirieron Sonnet 4.6 sobre el modelo premium anterior Opus 4.5 en el 59% de las comparaciones directas, con un costo del 60%.

Para la mayoría de las tareas de codificación, análisis y agenciales, ya no necesitas pagar precios de Opus para obtener resultados de nivel Opus.
Desglose completo de precios por característica
Precios estándar de la API
Las tarifas estándar se aplican a todas las llamadas API síncronas realizadas a través de la API de Anthropic:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Summarize this document."}]
)
# Check exact token usage
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")
# Calculate cost
input_cost = response.usage.input_tokens / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")
Para una llamada API típica con una entrada de 500 tokens y una salida de 300 tokens, el costo es de aproximadamente $0.0060. Eso es menos de un centavo por solicitud a tarifas estándar.
Precios de caché de prompts
El almacenamiento en caché de prompts es la palanca de costos más impactante de Sonnet 4.6. Almacena partes de tu prompt en el servidor y cobra significativamente menos por los aciertos de caché.
Tarifas de escritura en caché:- Caché de 5 minutos: $3.75/MTok (1.25× el precio base de entrada) - Caché de 1 hora: $6.00/MTok (2× el precio base de entrada)
Tarifa de lectura de caché:- $0.30/MTok — una décima parte del precio de entrada estándar
Si tu prompt del sistema es de 10,000 tokens y procesas 1,000 solicitudes por día: - Sin caché: 10,000 × 1,000 × $3/MTok = $30/día- Con caché (escribir una vez, leer 999×): $3.75 + (999 × 0.30) × 10,000/MTok ≈ $3.04/día
Esto representa una reducción del 90% solo para un prompt de sistema estático.
import anthropic
client = anthropic.Anthropic()
# Mark expensive static content for caching
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
"cache_control": {"type": "ephemeral"} # Cache this block
}
],
messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)
# Check what came from cache vs fresh tokens
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens: {usage.cache_read_input_tokens}")
print(f"Uncached tokens: {usage.input_tokens}")
Cuándo usar cada duración de caché:- Caché de 5 minutos: Llamadas de alta frecuencia, tráfico en ráfagas, ventanas de conversación cortas - Caché de 1 hora: Pipelines de procesamiento en segundo plano, trabajos por lotes con intervalos más largos, bucles de agentes
Precios de la API por lotes
La API por lotes ofrece un descuento fijo del 50% tanto en tokens de entrada como de salida a cambio de un procesamiento asíncrono (resultados disponibles en 24 horas, normalmente mucho antes).
| Estándar | API por lotes | |
|---|---|---|
| Entrada | $3.00/MTok | $1.50/MTok |
| Salida | $15.00/MTok | $7.50/MTok |
Mejores casos de uso para la API por lotes:- Pipelines de moderación de contenido - Clasificación de documentos a escala - Enriquecimiento de datos durante la noche - Generación de embeddings o resúmenes para grandes conjuntos de datos - Cualquier procesamiento no interactivo donde la latencia no importa
A $1.50/$7.50/MTok, procesar un millón de documentos, cada uno con 500 tokens de entrada y 100 tokens de salida, cuesta: - Entrada: 500M tokens × $1.50/MTok = $750- Salida: 100M tokens × $7.50/MTok = $750- Total: $1,500 por 1 millón de documentos (~$0.0015 por documento)
API por lotes: 50% de descuento para cargas de trabajo no en tiempo real
El procesamiento por lotes es sencillo: envías solicitudes, obtienes resultados asincrónicamente a mitad de precio. La desventaja es la latencia: los resultados llegan en 24 horas, aunque generalmente mucho más rápido.
import anthropic, time
client = anthropic.Anthropic()
def batch_classify(texts: list[str]) -> list[str]:
"""Classify a list of texts at Batch API rates."""
# Submit batch
requests = [
{
"custom_id": f"item-{i}",
"params": {
"model": "claude-sonnet-4-6",
"max_tokens": 20,
"messages": [{
"role": "user",
"content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
}]
}
}
for i, text in enumerate(texts)
]
batch = client.messages.batches.create(requests=requests)
# Poll until complete
while True:
status = client.messages.batches.retrieve(batch.id)
if status.processing_status == "ended":
break
time.sleep(60)
# Collect results in order
results = {}
for result in client.messages.batches.results(batch.id):
if result.result.type == "succeeded":
results[result.custom_id] = result.result.message.content[0].text.strip()
return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]
Precios de contexto largo (1 millón de tokens)
Cuando habilitas la ventana de contexto de 1 millón de tokens a través del encabezado beta context-1m-2025-08-07, las solicitudes que superan los 200K tokens de entrada se cobran a una tarifa más alta.
Tabla de tarifas de contexto largo
| Tokens de entrada | Precio de entrada | Precio de salida |
|---|---|---|
| ≤ 200K | $3.00/MTok | $15.00/MTok |
| > 200K | $6.00/MTok | $22.50/MTok |
El umbral de 200K se basa en el total de tokens de entrada, que incluye: - input_tokens (entrada estándar) - cache_creation_input_tokens (si se usa caché de prompts) - cache_read_input_tokens (si se usa caché de prompts)
Si el total supera los 200K, todos los tokens de esa solicitud se cobran a la tarifa más alta.
Contexto largo + API por lotes
El descuento del 50% de la API por lotes se acumula con los precios de contexto largo:
| Escenario | Tarifa de entrada | Tarifa de salida |
|---|---|---|
| Estándar | $3.00/MTok | $15.00/MTok |
| Contexto largo (>200K) | $6.00/MTok | $22.50/MTok |
| API por lotes | $1.50/MTok | $7.50/MTok |
| Contexto largo + por lotes | $3.00/MTok | $11.25/MTok |
Procesar documentos grandes a granel a través de la API por lotes mantiene los costos de contexto largo bajo control.
Precios de herramientas y características
Varias herramientas conllevan cargos separados más allá de los costos de los tokens.
Herramienta de búsqueda web
$10.00 por 1,000 búsquedas
+ costos estándar de tokens para el contenido generado por la búsqueda
Cada llamada de búsqueda web cuenta como un uso, independientemente de cuántos resultados se devuelvan. No hay cargo si la búsqueda falla.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
betas=["code-execution-web-tools-2026-02-09"],
tools=[{"type": "web_search_20260209", "name": "web_search"}],
messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)
usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Web searches used: {search_count.get('web_search_requests', 0)}")
# Each search: $0.01
Herramienta de ejecución de código
Gratis cuando se incluye con la búsqueda web o la recuperación web (usando las versiones de herramientas web_search_20260209 o web_fetch_20260209).
Cuando se usa de forma independiente: - 1,550 horas gratis por organización al mes - $0.05 por hora por contenedor más allá del nivel gratuito - Unidad de facturación mínima: 5 minutos
Para la mayoría de las cargas de trabajo de desarrollo y pruebas, el nivel gratuito es más que suficiente.
Herramienta de recuperación web
Sin cargos adicionales. Solo pagas los costos de tokens estándar por el contenido que entra en la conversación.
| Herramienta | Costo adicional | Notas |
|---|---|---|
| Búsqueda web | $10/1K búsquedas | Tarifa por búsqueda |
| Recuperación web | Gratis | Solo costos de tokens |
| Ejecución de código (con herramientas web) | Gratis | Incluido |
| Ejecución de código (independiente) | $0.05/h después de 1,550 h gratis/mes | Por contenedor |
| Sobrecarga de uso de computadora | ~735 tokens de entrada extra | Por definición de herramienta |
| Sobrecarga de editor de texto | ~700 tokens de entrada extra | Por definición de herramienta |
Sobrecarga de uso de computadora
El uso de la computadora añade una sobrecarga fija de tokens: - Adición de prompt del sistema: 466–499 tokens - Tokens de definición de herramienta: 735 tokens por herramienta (modelos Claude 4.x)
Para una sesión de uso de computadora con 100 turnos a 200 tokens/turno más capturas de pantalla: - Sobrecarga de herramienta: 735 tokens × $3/MTok = $0.0022 (despreciable) - Los tokens de captura de pantalla dependen de la resolución; planifica entre ~2,000 y 5,000 tokens por captura de pantalla.
Claude Sonnet 4.6 vs Todos los modelos: Comparación completa
Precios actuales de los modelos
| Modelo | Entrada | Salida | Lectura de caché | Entrada por lotes | Salida por lotes |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 | $7.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | $0.50 | $2.50 |
| Claude Opus 4.6 | $5.00 | $25.00 | $0.50 | $2.50 | $12.50 |
| Claude Opus 4.5 | $5.00 | $25.00 | $0.50 | $2.50 | $12.50 |
| Claude Opus 4.1 | $15.00 | $75.00 | $1.50 | $7.50 | $37.50 |
Todos los precios en USD por millón de tokens.
Sonnet 4.6 vs Opus 4.6: La pregunta del valor
| Claude Sonnet 4.6 | Claude Opus 4.6 | |
|---|---|---|
| Precio de entrada | $3/MTok | $5/MTok |
| Precio de salida | $15/MTok | $25/MTok |
| Costo relativo | 1× | 1.67× |
| SWE-bench Verificado | 79.6% | ~80.8% |
| OSWorld (uso de computadora) | 72.5% | 72.7% |
| Preferencia del usuario vs Sonnet 4.5 | 70% | N/A |
| Preferencia del usuario vs Opus 4.5 | 59% | N/A |
| Ventana de contexto de 1 millón | Sí (beta) | Sí (beta) |
| Pensamiento adaptativo | Sí | Sí |
| Salida máxima | 64K tokens | 128K tokens |
Para la gran mayoría de las tareas —codificación, análisis, procesamiento de documentos, flujos de trabajo agenciales— Sonnet 4.6 iguala el rendimiento de Opus al 60% del precio. Opus 4.6 vale el premium cuando necesitas 128K tokens de salida o el máximo absoluto en tareas de razonamiento novedosas.
Sonnet 4.6 vs Haiku 4.5: Cuándo usar cada uno
| Caso de uso | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|
| Generación de código compleja | ✅ | ⚠️ |
| Clasificación simple | ⚠️ Excesivo | ✅ |
| Resumen de documentos | ✅ | ✅ |
| Tareas agenciales de varios pasos | ✅ | ❌ |
| Alto volumen, baja complejidad | ❌ Caro | ✅ |
| Llamada a herramientas / uso de funciones | ✅ | ✅ |
| Cadenas de razonamiento largas | ✅ | ❌ |
| Aplicaciones sensibles a la latencia | ✅ Rápido | ✅ Más rápido |
El patrón inteligente: usa Haiku 4.5 para enrutamiento, clasificación y extracción simple; dirige tareas complejas a Sonnet 4.6. Este enfoque híbrido suele costar entre un 60% y un 80% menos que Sonnet 4.6 para todo.
Probando costos con Apidog antes de salir en vivo
Antes de desplegar a producción, querrás saber exactamente cuánto cuesta cada solicitud. El cliente API visual de Apidog te permite probar las llamadas de Claude Sonnet 4.6, inspeccionar la respuesta completa incluyendo el objeto usage, y rastrear el recuento de tokens por solicitud.

Configura la visibilidad de costos en Apidog
- Crea una nueva solicitud POST a
https://api.anthropic.com/v1/messages - Añade encabezados:
x-api-key,anthropic-version: 2023-06-01,Content-Type: application/json - Establece el cuerpo con tu modelo y mensajes
- Ejecuta la solicitud — el objeto
usagede la respuesta muestra los recuentos exactos de tokens
{
"usage": {
"input_tokens": 523,
"cache_creation_input_tokens": 5000,
"cache_read_input_tokens": 0,
"output_tokens": 312
}
}
A partir de esos números, calcula el costo real: - Entrada: 523 tokens × $3/MTok = $0.00157 - Escritura en caché: 5,000 tokens × $3.75/MTok = $0.01875 - Salida: 312 tokens × $15/MTok = $0.00468 - Total de la primera llamada: $0.025 (llamadas subsiguientes con acierto de caché: ~$0.006)
Puedes guardar estas solicitudes como una colección en Apidog, compartirlas con tu equipo y ejecutar estimaciones de costos en diferentes variaciones de prompts antes de finalizar tu diseño de producción.
¿Listo para empezar a construir? Descarga Apidog gratis para probar visualmente las llamadas API de Claude Sonnet 4.6, inspeccionar el uso de tokens por solicitud y dimensionar tus costos con precisión antes de desplegar.
