Pruebas de rendimiento de Claude Sonnet 5: Lo que revelan los números

Claude Sonnet 5 se lanzó el 30 de junio de 2026, y la afirmación principal de Anthropic es audaz: rendimiento agéntico cercano al de Opus 4.8 a un precio mucho más bajo. Este artículo analiza las puntuaciones de referencia reportadas en el lanzamiento, explica lo que realmente significa el patrón y muestra dónde los números dejan de ser útiles. Si desea una descripción general completa del modelo primero, comience con la guía principal de Claude Sonnet 5. Para las cifras brutas directamente de la fuente, Anthropic las publicó en la página oficial del anuncio.

Aquí está la versión corta. En tareas donde el modelo usa herramientas, Sonnet 5 se sitúa a pocos puntos de Opus 4.8. En razonamiento puro sin apoyo, la brecha se amplía a unos seis puntos. Ese único patrón explica la mayoría de las decisiones de compra, y es el hilo del que tiraremos a continuación.

Todos los números en este artículo son los puntos de referencia de lanzamiento de Anthropic, corroborados en múltiples artículos de lanzamiento. Trátelos como cifras reportadas, no como nuestras propias pruebas independientes.

La tabla de referencia

Tres puntos de referencia cuentan la historia. Aquí están las puntuaciones reportadas para Sonnet 5, su predecesor Sonnet 4.6 y el buque insignia Opus 4.8.

Referencia	Lo que mide	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Codificación agéntica en repositorios reales	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Completado de tareas de línea de comandos	80.4%	no reportado	82.7%
OSWorld-Verified	Uso de computadora, tareas GUI	81.2%	78.5%	83.4%

Saltan a la vista algunas cosas.

Sonnet 5 supera a Sonnet 4.6 en todos los puntos de referencia donde ambos fueron reportados. El salto de SWE-bench Pro de 58.1% a 63.2% es de más de cinco puntos, lo que representa una ganancia generacional real para la codificación agéntica. OSWorld-Verified se mueve de 78.5% a 81.2%.

Frente a Opus 4.8, Sonnet 5 está por detrás en 6.0 puntos en SWE-bench Pro, 2.3 puntos en Terminal-Bench 2.1 y 2.2 puntos en OSWorld-Verified. La brecha es menor en las dos tareas que más se apoyan en herramientas y el terminal.

El patrón que importa

Lea la tabla de nuevo con una pregunta en mente: ¿cuánto puede usar el modelo las herramientas para resolver el problema?

En Terminal-Bench 2.1 y OSWorld-Verified, el modelo ejecuta comandos, lee la salida y se ajusta. Recibe retroalimentación del entorno en cada paso. Sonnet 5 se sitúa entre uno y tres puntos de Opus 4.8 en ambos.

SWE-bench Pro también es agéntico, pero enfatiza un razonamiento más profundo sobre grandes bases de código, y ahí la brecha se abre a seis puntos. Cuando la tarea recompensa el razonamiento puro sobre los bucles de herramientas, Opus se adelanta.

El propio planteamiento de Anthropic lo respalda. Llaman a Sonnet 5 el modelo Sonnet más agéntico hasta la fecha, y lo posicionan cerca de Opus 4.8 en tareas agénticas y de uso de herramientas, mientras que Opus mantiene su liderazgo en razonamiento puro. Los puntos de referencia coinciden con el marketing aquí, lo cual no siempre ocurre.

Así que la lectura práctica es sencilla. Si su carga de trabajo implica herramientas en el bucle, agentes, asistentes de codificación, uso de computadora, Sonnet 5 le brinda la mayor parte de la capacidad de Opus 4.8. Si su carga de trabajo es un único y difícil paso de razonamiento sin herramientas para corregir el rumbo, Opus se gana su precio premium. Para una comparación completa que incluye precio y contexto, consulte Claude Sonnet 5 vs Opus 4.8.

El precio cambia cómo se leen estas puntuaciones

Los puntos de referencia aislados halagan al modelo más caro. Añada el precio y el panorama cambia.

Sonnet 5 se ofrece a un precio introductorio de $2 por millón de tokens de entrada y $10 por millón de tokens de salida hasta el 31 de agosto de 2026, luego pasa a las tarifas estándar de $3 / $15. Opus 4.8 cuesta $5 / $25. Así que, a tarifas estándar, Sonnet 5 cuesta el 60% de la entrada de Opus y el 60% de la salida de Opus, e incluso menos durante la ventana introductoria.

Ahora reevalúe la tabla. Una diferencia de 2.3 puntos en Terminal-Bench 2.1 cuesta mucho menos de cerrar eligiendo Opus que una diferencia de 6 puntos. Para el trabajo agéntico y con muchas herramientas, pagar la prima de Opus para recuperar dos o tres puntos a menudo no vale la pena. Ese es todo el argumento de valor para Sonnet 5, y los puntos de referencia son lo que lo hace creíble.

Un detalle que las puntuaciones puras ocultan: Sonnet 5 utiliza un nuevo tokenizador que produce aproximadamente un 30% más de tokens para el mismo texto de entrada. El precio por token no ha cambiado con respecto a Sonnet 4.6, pero el costo de una solicitud equivalente puede aumentar porque hay más tokens que facturar. La precisión del punto de referencia no dice nada al respecto. Modele su costo real con el recuento de tokens en lugar de asumir una paridad plana. El desglose completo se encuentra en la guía de precios de Claude Sonnet 5.

Lo que los puntos de referencia no incluyen

Los puntos de referencia públicos son útiles para clasificar modelos. Son débiles para predecir cómo se comportará un modelo en su trabajo específico. Destacan tres deficiencias.

Su carga de trabajo no es SWE-bench. Si escribe TypeScript contra una API privada con convenciones internas, un punto de referencia de resolución de repositorios en proyectos Python públicos es, en el mejor de los casos, una aproximación. La clasificación relativa tiende a mantenerse, pero el número absoluto no coincidirá con lo que usted ve.

El costo por tarea resuelta supera la precisión bruta. Un modelo que puntúa dos puntos menos pero cuesta un 40% menos puede resolver más tareas con el mismo presupuesto. Cuando se ejecutan agentes a gran volumen, el costo por éxito es la métrica que paga las facturas, y ninguna tabla de clasificación lo informa para sus indicaciones.

La latencia y el rendimiento no aparecen. Los puntos de referencia miden si la respuesta es correcta, no cuán rápido llega o cómo se comporta el modelo bajo pensamiento adaptativo, que está activado por defecto en Sonnet 5. Para herramientas interactivas, una respuesta correcta más lenta puede perder frente a una lo suficientemente buena más rápida.

La conclusión honesta es tratar estas puntuaciones como un filtro inicial y luego realizar su propia evaluación. La evaluación comparativa de las tareas que realmente le importan es la única prueba que refleja sus resultados.

Seguridad, brevemente

Las tablas de referencia rara vez incluyen la seguridad, pero es parte de cómo deben leerse estos números.

Anthropic informa que Sonnet 5 tiene una tasa general más baja de comportamientos indeseables que Sonnet 4.6, con menos alucinaciones y menos adulación. Es el primer modelo de nivel Sonnet con salvaguardias de ciberseguridad en tiempo real. Las solicitudes que tocan temas cibernéticos prohibidos o de alto riesgo pueden ser rechazadas, y un rechazo se devuelve como una respuesta HTTP 200 exitosa con `stop_reason: "refusal"`, no un error, así que construya para ese caso.

Sea honesto también sobre las advertencias. En la auditoría de comportamiento automatizada de Anthropic, Sonnet 5 mostró tasas de comportamiento desalineado más altas que Opus 4.8. En capacidad cibernética se sitúa por debajo de los modelos Opus, y ninguno de los modelos Sonnet pudo desarrollar un exploit funcional en absoluto, reportado como 0.0%. Una menor capacidad ahí es una característica, no una deficiencia. El detalle completo está en el centro de transparencia de Anthropic.

Reproduzca los números en sus propias tareas

El punto de referencia más valioso es el que se ejecuta con sus indicaciones. Para hacerlo de manera confiable, necesita llamar a la API de Sonnet 5 de la misma manera cada vez, guardar las solicitudes y comparar las respuestas entre ejecuciones.

Ese es un trabajo para un cliente de API. Apidog le permite construir una solicitud a la API de Anthropic Messages, guardarla en una colección reutilizable, almacenar su clave de API como una variable de entorno y ejecutar la misma llamada repetidamente con aserciones en la respuesta. Cuando desea comparar Sonnet 5 con Opus 4.8 o Sonnet 4.6 en sus propias entradas, cambia una variable, la ID del modelo, y vuelve a ejecutar la colección.

Aquí está la forma de solicitud que guardaría. El ID del modelo es la cadena exacta claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Para comparar un prompt de benchmark entre modelos (A/B testing), mantenga el cuerpo idéntico y cambie "model" entre claude-sonnet-5, claude-opus-4-8 y claude-sonnet-4-6. En Apidog, almacenaría el modelo como una variable de entorno para que una sola edición cambie cada solicitud en la ejecución. Agregue una aserción de prueba para verificar stop_reason y la longitud de la respuesta, luego ejecute la colección en CI para que su evaluación sea repetible. Si nunca ha configurado pruebas de API de esta manera, la guía de pruebas sin Postman le explica el flujo de trabajo.

Una nota de migración al programar comparaciones: Sonnet 5 no acepta temperature, top_p o top_k no predeterminados, y rechaza el antiguo campo thinking: {type: "enabled", budget_tokens: N}. Ambos devuelven un error 400. Elimine esos parámetros antes de hacer un benchmark, o su ejecución fallará antes de medir nada.

Descargue Apidog para construir la solicitud una vez y reutilizarla en cada modelo que desee puntuar.

Preguntas frecuentes

¿Cuál es la puntuación de Claude Sonnet 5 en SWE-bench Pro? Las cifras de lanzamiento de Anthropic reportan 63.2% para Sonnet 5, comparado con 58.1% para Sonnet 4.6 y 69.2% para Opus 4.8. Es una ganancia generacional de cinco puntos en codificación agéntica, y aproximadamente seis puntos por debajo del modelo insignia.

¿Es Sonnet 5 mejor que Opus 4.8? No en puntuaciones brutas. Opus 4.8 lidera todos los puntos de referencia informados. Pero Sonnet 5 se acerca entre uno y tres puntos en tareas intensivas en herramientas al 60% del precio, lo que lo convierte en la mejor opción para agentes y bucles de codificación. La comparación completa se encuentra en Claude Sonnet 5 vs Opus 4.8.

¿Estos números de referencia provienen de pruebas independientes? No. Son los propios puntos de referencia de lanzamiento de Anthropic, corroborados en múltiples artículos de lanzamiento. Trátelos como cifras reportadas y valide en su propia carga de trabajo antes de comprometerse.

¿Por qué Sonnet 5 rinde relativamente mejor en tareas de herramientas que en tareas de razonamiento? Cuando el modelo puede ejecutar comandos y leer los resultados, corrige sus propios errores paso a paso. Esa retroalimentación reduce la brecha con Opus. En un único pase de razonamiento sin herramientas, no hay nada contra lo que corregir, por lo que el razonamiento más profundo de Opus se manifiesta como una ventaja mayor.

¿Cómo hago un benchmark de Sonnet 5 con mis propios prompts? Llame a la API de Anthropic Messages con el ID de modelo claude-sonnet-5, guarde la solicitud en una herramienta como Apidog, añada aserciones y vuelva a ejecutarla en diferentes modelos cambiando el ID del modelo. Esto le dará el costo por tarea y la latencia, que las tablas de clasificación públicas nunca informan.