Claude Opus 4.8 cuesta $5 por millón de tokens de entrada y $25 por millón de tokens de salida en modo estándar. Esa es la misma tarifa que Opus 4.7, así que si ya tienes un presupuesto para 4.7, nada cambia al actualizar. Lo interesante es todo lo que rodea a esa cifra principal: un modo más rápido, un dial de gasto de tokens, almacenamiento en caché y descuentos por lotes que afectan mucho más tu factura real que la tarifa base.
Esta guía desglosa lo que realmente pagas, con ejemplos prácticos. Para una descripción general del modelo, consulta qué es Claude Opus 4.8. Para empezar a desarrollar, consulta la guía de la API.
La tarjeta de tarifas
| Modo | Entrada (por 1M de tokens) | Salida (por 1M de tokens) | Velocidad |
|---|---|---|---|
| Estándar | $5 | $25 | base |
| Rápido | $10 | $50 | Salida 2.5x más rápida |
Dos cosas destacan. Primero, los tokens de salida cuestan cinco veces más que los tokens de entrada, por lo que la longitud de las respuestas de Claude determina tu factura, no el tamaño de tus prompts. Segundo, el modo rápido duplica la tarifa para una salida 2.5 veces más rápida. Anthropic señala que el modo rápido es aproximadamente tres veces más barato de lo que era el equivalente en modelos anteriores, por lo que la prima por velocidad ha disminuido generación tras generación.
Puedes confirmar las tarifas actuales en la documentación de precios de Anthropic.
Para qué sirve el modo rápido
El modo estándar es el predeterminado y la elección correcta para la mayoría de las cargas de trabajo. El modo rápido existe para los casos en que la latencia es el factor principal: asistentes de codificación en vivo, agentes interactivos, cualquier cosa en la que un usuario esté esperando el cursor. Pagas el doble por token por una salida que se transmite 2.5 veces más rápido.
La decisión es simple. Si un humano está esperando la respuesta en tiempo real, el modo rápido puede valer la pena. Si el trabajo se ejecuta en segundo plano, un bucle de agente, un trabajo por lotes, una tarea programada, mantente en el modo estándar y ahorra dinero.
Cómo el esfuerzo cambia tu factura
Esta es la palanca que la mayoría de los equipos no aprovechan. El parámetro effort de Opus 4.8 controla cuántos tokens gasta el modelo en toda la respuesta, incluyendo las llamadas a herramientas. Dado que la salida es la mitad costosa, reducir el esfuerzo en trabajos que no requieren un razonamiento profundo reduce el costo directamente.
Los cinco niveles, del más barato al más caro en términos de tokens:
low: respuestas concisas, menos llamadas a herramientas, menor gastomedium: equilibradohigh: el predeterminado, exhaustivoxhigh: razonamiento profundo, más llamadas a herramientas, recomendado para codificaciónmax: sin restricciones, mayor gasto
Una tarea de clasificación con un esfuerzo low podría usar una décima parte de los tokens de salida que usaría con un esfuerzo high. El mismo modelo, la misma tarifa, una fracción de la factura. La guía de esfuerzo de Anthropic cubre dónde cada nivel mantiene la calidad. La conclusión: ajusta el esfuerzo a la tarea en lugar de pagar por high en todas partes.
Escenarios de costos con ejemplos
Todas las cifras utilizan precios estándar ($5 de entrada, $25 de salida por millón de tokens). Son ilustrativas; tus recuentos reales de tokens variarán.
Escenario 1: una ronda de chatbot. 1.000 tokens de entrada, 500 tokens de salida.
- Entrada: 1.000 / 1.000.000 x $5 = $0.005
- Salida: 500 / 1.000.000 x $25 = $0.0125
- Total: aproximadamente $0.018 por ronda
Con un esfuerzo low, la salida se reduce, haciendo que el costo por ronda sea inferior a un centavo.
Escenario 2: una tarea de codificación agéntica. 50.000 tokens de entrada de contexto de repositorio, 8.000 tokens de salida con esfuerzo xhigh.
- Entrada: 50.000 / 1.000.000 x $5 = $0.25
- Salida: 8.000 / 1.000.000 x $25 = $0.20
- Total: aproximadamente $0.45 por tarea
Si ese contexto de 50K se repite en varias llamadas, el almacenamiento en caché de prompts reduce el costo de entrada a aproximadamente $0.025, disminuyendo el total a unos $0.23.
Escenario 3: un trabajo por lotes nocturno. 1.000.000 tokens de entrada, 200.000 tokens de salida, ejecutados a través de la API por lotes con un descuento del 50%.
- Entrada: 1.000.000 / 1.000.000 x $5 x 0.5 = $2.50
- Salida: 200.000 / 1.000.000 x $25 x 0.5 = $2.50
- Total: aproximadamente $5.00 para todo el lote
Para comparar precios con modelos más baratos, consulta el desglose de precios de Gemini 3.5 Flash y el costo de la API de Xiaomi MiMo v2.5.
Almacenamiento en caché de prompts: el mayor ahorro individual
Si envías el mismo prompt del sistema, documento o base de código en cada llamada, estás pagando el precio total de entrada por tokens que el modelo ya ha visto. El almacenamiento en caché de prompts soluciona eso. Las lecturas de entrada en caché se cobran a una fracción de la tarifa de entrada normal, aproximadamente una décima parte, después de la escritura inicial en caché.
Los agentes de contexto largo son los que más ahorran. Un prompt de sistema de 50K tokens facturado a tarifa completa en cada llamada es costoso; en caché, la porción repetida no cuesta casi nada. La primera llamada escribe el caché, cada llamada posterior lo lee de forma económica.
API por lotes y salidas grandes
La API por lotes ejecuta trabajos con un descuento cuando no necesitas una respuesta en tiempo real. Envía un conjunto de solicitudes, obtén los resultados dentro de la ventana del lote, paga menos por token. También eleva el límite de salida: Opus 4.8 soporta hasta 300K tokens de salida a través de la API por lotes con el encabezado beta output-300k-2026-03-24, frente a 128K en el endpoint síncrono.
Úsala para evaluaciones, resumen masivo, etiquetado de datos y cualquier pipeline donde unos minutos de latencia no importen.
Precios de Opus a lo largo de las generaciones
Opus 4.8 mantiene el precio. La historia es cuánto bajó el precio hace dos generaciones:
| Modelo | Entrada (por 1M) | Salida (por 1M) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus bajó de $15/$75 a $5/$25 en la generación 4.5 y se ha mantenido ahí desde entonces, mientras que el modelo detrás del precio sigue mejorando. Estás obteniendo la calidad de 4.8 a la tarifa de 4.5. Para una comparación directa con los modelos insignia de otros proveedores, consulta Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Una lista de verificación para la optimización de costos
Antes de escalar Opus 4.8, revisa esta lista:
- Establece el esfuerzo por tarea. No pagues
highpor clasificación oxhighpor una búsqueda. - Almacena en caché el contexto repetido. Los prompts del sistema, documentos y bases de código deben ser almacenados en caché.
- Procesa por lotes lo no urgente. Mueve las evaluaciones y los trabajos masivos a la API por lotes.
- Limita
max_tokensde manera sensata. Esto acota el costo de salida en el peor de los casos por llamada. - Permanece en modo estándar a menos que un humano esté esperando en tiempo real.
- Observa los niveles de uso. Los límites de tasa y el gasto aumentan juntos; el cambio en los límites semanales de Claude Code es un recordatorio para seguir la cuota.
Controla tu gasto real con Apidog
El costo estimado y el costo real divergen rápidamente una vez que estás en producción, porque las respuestas reales varían en longitud y en el número de llamadas a herramientas. La forma de ser transparente es inspeccionar el objeto usage que devuelve cada respuesta de la API de Mensajes, que informa los recuentos de tokens de entrada y salida por llamada.

Apidog lo hace visible:
- Envía una solicitud real de Opus 4.8 y lee el bloque
usageen la respuesta - Compara los recuentos de tokens en los diferentes niveles de
efforten el mismo prompt para ver directamente la diferencia de costo - Guarda las solicitudes para cada carga de trabajo y vuélvelas a ejecutar a medida que tus prompts cambien
- Simula el endpoint para que puedas construir y probar sin gastar un token
Descarga Apidog, apunta una solicitud al endpoint de Mensajes y ejecuta el mismo prompt en low, high y xhigh. Los recuentos de tokens te dirán exactamente cuánto cuesta cada nivel de esfuerzo antes de implementarlo en producción.
Preguntas frecuentes
¿Cuánto cuesta Claude Opus 4.8? $5 por millón de tokens de entrada y $25 por millón de tokens de salida en modo estándar. El modo rápido cuesta $10 y $50 para una salida 2.5 veces más rápida.
¿Es Opus 4.8 más caro que Opus 4.7? No. Las tarifas por token son idénticas, por lo que actualizar de 4.7 no cambia tu factura.
¿Cuál es la diferencia entre los precios del modo estándar y el modo rápido? El modo rápido duplica la tarifa por token a cambio de una salida que se transmite aproximadamente 2.5 veces más rápido. Úsalo solo cuando la latencia sea importante para un usuario que está esperando.
¿Cómo reduzco mis costos de Opus 4.8? Disminuye el nivel de effort en tareas más simples, almacena en caché el contenido repetido del prompt, procesa por lotes los trabajos no urgentes y mantén max_tokens ajustado. Los tokens de salida son el principal impulsor del costo.
¿El almacenamiento en caché de prompts realmente ahorra dinero? Sí. Después de que la primera llamada escribe en el caché, la entrada repetida se lee a aproximadamente una décima parte de la tarifa de entrada normal. Los agentes de contexto largo son los que más ahorran.
¿Cuántos tokens de salida puede producir Opus 4.8? Hasta 128K en la API síncrona de Mensajes, y hasta 300K a través de la API por lotes con el encabezado beta output-300k-2026-03-24.
¿Dónde puedo ver el uso de tokens por llamada? En el objeto usage de cada respuesta de la API de Mensajes. Herramientas como Apidog lo hacen visible para que puedas comparar costos entre los niveles de esfuerzo.
