¿Cuánto Cuesta Realmente Claude Sonnet 4.6?

Ashley Innocent

Ashley Innocent

18 February 2026

¿Cuánto Cuesta Realmente Claude Sonnet 4.6?

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

En resumen

Claude Sonnet 4.6 cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida, el mismo precio que Sonnet 4.5, a la vez que ofrece un rendimiento cercano al de Opus. Con el almacenamiento en caché de prompts, las lecturas de caché se reducen a $0.30/MTok (un ahorro del 90%). La API por lotes reduce los costos a la mitad, a $1.50/$7.50 por MTok. La ventana de contexto de 1 millón de tokens (beta) activa los precios de contexto largo a $6/$22.50 por MTok para solicitudes de más de 200K tokens.

Precios base de Claude Sonnet 4.6

Claude Sonnet 4.6 mantiene el mismo precio que su predecesor, al tiempo que ofrece resultados significativamente mejores. Aquí un resumen de los precios principales:

Nivel de precios Tokens de entrada Tokens de salida
Estándar $3.00 / MTok $15.00 / MTok
API por lotes $1.50 / MTok $7.50 / MTok
Escrituras en caché (5 min) $3.75 / MTok
Escrituras en caché (1 hora) $6.00 / MTok
Lecturas de caché $0.30 / MTok
Contexto largo >200K (estándar) $6.00 / MTok $22.50 / MTok
Contexto largo >200K (por lotes) $3.00 / MTok $11.25 / MTok

MTok = millones de tokens. Todos los precios en USD.

La propuesta de valor aquí es difícil de ignorar. Los primeros evaluadores prefirieron Sonnet 4.6 sobre el modelo premium anterior Opus 4.5 en el 59% de las comparaciones directas, con un costo del 60%.

Comparativa de Sonnet 4.6

Para la mayoría de las tareas de codificación, análisis y agenciales, ya no necesitas pagar precios de Opus para obtener resultados de nivel Opus.

💡
Probar estas solicitudes antes de escribir código de producción ahorra dinero a escala. Descarga Apidog para ejecutar llamadas API de prueba contra Claude Sonnet 4.6, inspeccionar el uso real de tokens por solicitud y dimensionar tu presupuesto con precisión antes de comprometerte.
botón

Desglose completo de precios por característica

Precios estándar de la API

Las tarifas estándar se aplican a todas las llamadas API síncronas realizadas a través de la API de Anthropic:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Summarize this document."}]
)

# Check exact token usage
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")

# Calculate cost
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")

Para una llamada API típica con una entrada de 500 tokens y una salida de 300 tokens, el costo es de aproximadamente $0.0060. Eso es menos de un centavo por solicitud a tarifas estándar.

Precios de caché de prompts

El almacenamiento en caché de prompts es la palanca de costos más impactante de Sonnet 4.6. Almacena partes de tu prompt en el servidor y cobra significativamente menos por los aciertos de caché.

Tarifas de escritura en caché:- Caché de 5 minutos: $3.75/MTok (1.25× el precio base de entrada) - Caché de 1 hora: $6.00/MTok (2× el precio base de entrada)

Tarifa de lectura de caché:- $0.30/MTok — una décima parte del precio de entrada estándar

Si tu prompt del sistema es de 10,000 tokens y procesas 1,000 solicitudes por día: - Sin caché: 10,000 × 1,000 × $3/MTok = $30/día- Con caché (escribir una vez, leer 999×): $3.75 + (999 × 0.30) × 10,000/MTok ≈ $3.04/día

Esto representa una reducción del 90% solo para un prompt de sistema estático.

import anthropic

client = anthropic.Anthropic()

# Mark expensive static content for caching
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
            "cache_control": {"type": "ephemeral"}  # Cache this block
        }
    ],
    messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)

# Check what came from cache vs fresh tokens
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens:  {usage.cache_read_input_tokens}")
print(f"Uncached tokens:    {usage.input_tokens}")

Cuándo usar cada duración de caché:- Caché de 5 minutos: Llamadas de alta frecuencia, tráfico en ráfagas, ventanas de conversación cortas - Caché de 1 hora: Pipelines de procesamiento en segundo plano, trabajos por lotes con intervalos más largos, bucles de agentes

Precios de la API por lotes

La API por lotes ofrece un descuento fijo del 50% tanto en tokens de entrada como de salida a cambio de un procesamiento asíncrono (resultados disponibles en 24 horas, normalmente mucho antes).

Estándar API por lotes
Entrada $3.00/MTok $1.50/MTok
Salida $15.00/MTok $7.50/MTok

Mejores casos de uso para la API por lotes:- Pipelines de moderación de contenido - Clasificación de documentos a escala - Enriquecimiento de datos durante la noche - Generación de embeddings o resúmenes para grandes conjuntos de datos - Cualquier procesamiento no interactivo donde la latencia no importa

A $1.50/$7.50/MTok, procesar un millón de documentos, cada uno con 500 tokens de entrada y 100 tokens de salida, cuesta: - Entrada: 500M tokens × $1.50/MTok = $750- Salida: 100M tokens × $7.50/MTok = $750- Total: $1,500 por 1 millón de documentos (~$0.0015 por documento)

API por lotes: 50% de descuento para cargas de trabajo no en tiempo real

El procesamiento por lotes es sencillo: envías solicitudes, obtienes resultados asincrónicamente a mitad de precio. La desventaja es la latencia: los resultados llegan en 24 horas, aunque generalmente mucho más rápido.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """Classify a list of texts at Batch API rates."""

    # Submit batch
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # Poll until complete
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # Collect results in order
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

Precios de contexto largo (1 millón de tokens)

Cuando habilitas la ventana de contexto de 1 millón de tokens a través del encabezado beta context-1m-2025-08-07, las solicitudes que superan los 200K tokens de entrada se cobran a una tarifa más alta.

Tabla de tarifas de contexto largo

Tokens de entrada Precio de entrada Precio de salida
≤ 200K $3.00/MTok $15.00/MTok
> 200K $6.00/MTok $22.50/MTok

El umbral de 200K se basa en el total de tokens de entrada, que incluye: - input_tokens (entrada estándar) - cache_creation_input_tokens (si se usa caché de prompts) - cache_read_input_tokens (si se usa caché de prompts)

Si el total supera los 200K, todos los tokens de esa solicitud se cobran a la tarifa más alta.

Contexto largo + API por lotes

El descuento del 50% de la API por lotes se acumula con los precios de contexto largo:

Escenario Tarifa de entrada Tarifa de salida
Estándar $3.00/MTok $15.00/MTok
Contexto largo (>200K) $6.00/MTok $22.50/MTok
API por lotes $1.50/MTok $7.50/MTok
Contexto largo + por lotes $3.00/MTok $11.25/MTok

Procesar documentos grandes a granel a través de la API por lotes mantiene los costos de contexto largo bajo control.

Precios de herramientas y características

Varias herramientas conllevan cargos separados más allá de los costos de los tokens.

Herramienta de búsqueda web

$10.00 por 1,000 búsquedas
+ costos estándar de tokens para el contenido generado por la búsqueda

Cada llamada de búsqueda web cuenta como un uso, independientemente de cuántos resultados se devuelvan. No hay cargo si la búsqueda falla.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Web searches used: {search_count.get('web_search_requests', 0)}")
# Each search: $0.01

Herramienta de ejecución de código

Gratis cuando se incluye con la búsqueda web o la recuperación web (usando las versiones de herramientas web_search_20260209 o web_fetch_20260209).

Cuando se usa de forma independiente: - 1,550 horas gratis por organización al mes - $0.05 por hora por contenedor más allá del nivel gratuito - Unidad de facturación mínima: 5 minutos

Para la mayoría de las cargas de trabajo de desarrollo y pruebas, el nivel gratuito es más que suficiente.

Herramienta de recuperación web

Sin cargos adicionales. Solo pagas los costos de tokens estándar por el contenido que entra en la conversación.

Herramienta Costo adicional Notas
Búsqueda web $10/1K búsquedas Tarifa por búsqueda
Recuperación web Gratis Solo costos de tokens
Ejecución de código (con herramientas web) Gratis Incluido
Ejecución de código (independiente) $0.05/h después de 1,550 h gratis/mes Por contenedor
Sobrecarga de uso de computadora ~735 tokens de entrada extra Por definición de herramienta
Sobrecarga de editor de texto ~700 tokens de entrada extra Por definición de herramienta

Sobrecarga de uso de computadora

El uso de la computadora añade una sobrecarga fija de tokens: - Adición de prompt del sistema: 466–499 tokens - Tokens de definición de herramienta: 735 tokens por herramienta (modelos Claude 4.x)

Para una sesión de uso de computadora con 100 turnos a 200 tokens/turno más capturas de pantalla: - Sobrecarga de herramienta: 735 tokens × $3/MTok = $0.0022 (despreciable) - Los tokens de captura de pantalla dependen de la resolución; planifica entre ~2,000 y 5,000 tokens por captura de pantalla.

Claude Sonnet 4.6 vs Todos los modelos: Comparación completa

Precios actuales de los modelos

Modelo Entrada Salida Lectura de caché Entrada por lotes Salida por lotes
Claude Sonnet 4.6 $3.00 $15.00 $0.30 $1.50 $7.50
Claude Haiku 4.5 $1.00 $5.00 $0.10 $0.50 $2.50
Claude Opus 4.6 $5.00 $25.00 $0.50 $2.50 $12.50
Claude Opus 4.5 $5.00 $25.00 $0.50 $2.50 $12.50
Claude Opus 4.1 $15.00 $75.00 $1.50 $7.50 $37.50

Todos los precios en USD por millón de tokens.

Sonnet 4.6 vs Opus 4.6: La pregunta del valor

Claude Sonnet 4.6 Claude Opus 4.6
Precio de entrada $3/MTok $5/MTok
Precio de salida $15/MTok $25/MTok
Costo relativo 1.67×
SWE-bench Verificado 79.6% ~80.8%
OSWorld (uso de computadora) 72.5% 72.7%
Preferencia del usuario vs Sonnet 4.5 70% N/A
Preferencia del usuario vs Opus 4.5 59% N/A
Ventana de contexto de 1 millón Sí (beta) Sí (beta)
Pensamiento adaptativo
Salida máxima 64K tokens 128K tokens

Para la gran mayoría de las tareas —codificación, análisis, procesamiento de documentos, flujos de trabajo agenciales— Sonnet 4.6 iguala el rendimiento de Opus al 60% del precio. Opus 4.6 vale el premium cuando necesitas 128K tokens de salida o el máximo absoluto en tareas de razonamiento novedosas.

Sonnet 4.6 vs Haiku 4.5: Cuándo usar cada uno

Caso de uso Sonnet 4.6 Haiku 4.5
Generación de código compleja ⚠️
Clasificación simple ⚠️ Excesivo
Resumen de documentos
Tareas agenciales de varios pasos
Alto volumen, baja complejidad ❌ Caro
Llamada a herramientas / uso de funciones
Cadenas de razonamiento largas
Aplicaciones sensibles a la latencia ✅ Rápido ✅ Más rápido

El patrón inteligente: usa Haiku 4.5 para enrutamiento, clasificación y extracción simple; dirige tareas complejas a Sonnet 4.6. Este enfoque híbrido suele costar entre un 60% y un 80% menos que Sonnet 4.6 para todo.

Probando costos con Apidog antes de salir en vivo

Antes de desplegar a producción, querrás saber exactamente cuánto cuesta cada solicitud. El cliente API visual de Apidog te permite probar las llamadas de Claude Sonnet 4.6, inspeccionar la respuesta completa incluyendo el objeto usage, y rastrear el recuento de tokens por solicitud.

Interfaz de Apidog

Configura la visibilidad de costos en Apidog

  1. Crea una nueva solicitud POST a https://api.anthropic.com/v1/messages
  2. Añade encabezados: x-api-key, anthropic-version: 2023-06-01, Content-Type: application/json
  3. Establece el cuerpo con tu modelo y mensajes
  4. Ejecuta la solicitud — el objeto usage de la respuesta muestra los recuentos exactos de tokens
{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

A partir de esos números, calcula el costo real: - Entrada: 523 tokens × $3/MTok = $0.00157 - Escritura en caché: 5,000 tokens × $3.75/MTok = $0.01875 - Salida: 312 tokens × $15/MTok = $0.00468 - Total de la primera llamada: $0.025 (llamadas subsiguientes con acierto de caché: ~$0.006)

Puedes guardar estas solicitudes como una colección en Apidog, compartirlas con tu equipo y ejecutar estimaciones de costos en diferentes variaciones de prompts antes de finalizar tu diseño de producción.

¿Listo para empezar a construir? Descarga Apidog gratis para probar visualmente las llamadas API de Claude Sonnet 4.6, inspeccionar el uso de tokens por solicitud y dimensionar tus costos con precisión antes de desplegar.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs