클로드 소네트 5 벤치마크 분석: 실제 데이터가 말하는 것

클로드 소네트 5 벤치마크 설명: SWE-bench Pro 63.2%, Terminal-Bench 80.4%, OSWorld 81.2%, 그리고 더 낮은 가격에 Opus 4.8에 얼마나 근접하는지.

Ashley Innocent

Ashley Innocent

1 July 2026

클로드 소네트 5 벤치마크 분석: 실제 데이터가 말하는 것

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

Claude Sonnet 5는 2026년 6월 30일에 출시되었으며, Anthropic의 주요 주장은 대담합니다: Opus 4.8에 근접하는 에이전트 성능을 훨씬 저렴한 가격으로 제공합니다. 이 글은 출시 시 보고된 벤치마크 점수를 살펴보고, 패턴이 실제로 무엇을 의미하는지 설명하며, 숫자가 유용성을 잃는 지점을 보여줍니다. 전체 모델 개요를 먼저 보려면, Claude Sonnet 5 핵심 가이드부터 시작하십시오. 원문에서 바로 원시 데이터를 보려면, Anthropic이 공식 발표 페이지에 게시했습니다.

요약하자면 다음과 같습니다. 모델이 도구를 사용하는 작업에서 Sonnet 5는 Opus 4.8과 몇 점 차이밖에 나지 않습니다. 아무것도 의지할 것 없는 순수한 추론에서는 그 차이가 약 6점으로 벌어집니다. 이 하나의 패턴이 대부분의 구매 결정을 설명하며, 아래에서 이 부분을 더 자세히 다룰 것입니다.

이 글의 모든 수치는 Anthropic의 출시 벤치마크이며, 여러 출시일 기사에서 확인되었습니다. 이것은 보고된 수치로 간주해야 하며, 당사의 독립적인 테스트 결과로 간주해서는 안 됩니다.

벤치마크 표

세 가지 벤치마크가 이야기를 말해줍니다. 다음은 Sonnet 5, 이전 버전인 Sonnet 4.6, 그리고 플래그십 Opus 4.8의 보고된 점수입니다.

벤치마크 측정 대상 Sonnet 5 Sonnet 4.6 Opus 4.8
SWE-bench Pro 실제 레포지토리에서의 에이전트 코딩 63.2% 58.1% 69.2%
Terminal-Bench 2.1 명령줄 작업 완료 80.4% 보고되지 않음 82.7%
OSWorld-Verified 컴퓨터 사용, GUI 작업 81.2% 78.5% 83.4%

몇 가지 특징이 눈에 뜥니다.

Sonnet 5는 두 모델 모두 보고된 모든 벤치마크에서 Sonnet 4.6을 능가합니다. SWE-bench Pro에서 58.1%에서 63.2%로 5점 이상 상승한 것은 에이전트 코딩에서 진정한 세대적 개선입니다. OSWorld-Verified는 78.5%에서 81.2%로 향상되었습니다.

Opus 4.8에 비해 Sonnet 5는 SWE-bench Pro에서 6.0점, Terminal-Bench 2.1에서 2.3점, OSWorld-Verified에서 2.2점 뒤처집니다. 가장 도구와 터미널에 의존하는 두 작업에서 그 격차가 가장 작습니다.

중요한 패턴

한 가지 질문을 염두에 두고 표를 다시 읽어보세요: 모델이 문제를 해결하기 위해 도구를 얼마나 사용할 수 있는가?

Terminal-Bench 2.1 및 OSWorld-Verified에서 모델은 명령을 실행하고, 출력을 읽고, 조정합니다. 매 단계마다 환경으로부터 피드백을 받습니다. 두 벤치마크 모두에서 Sonnet 5는 Opus 4.8과 대략 1~3점 차이밖에 나지 않습니다.

SWE-bench Pro도 에이전트적이지만, 대규모 코드베이스에 대한 심층적인 추론을 강조하며, 여기서 격차는 6점으로 벌어집니다. 작업이 도구 루프보다 순수한 추론을 보상할 때, Opus가 앞서 나갑니다.

Anthropic의 자체 설명도 이를 뒷받침합니다. 그들은 Sonnet 5를 현재까지 가장 에이전트적인 Sonnet 모델이라고 부르며, Opus가 순수한 추론에서 선두를 유지하는 반면, 에이전트 및 도구 사용 작업에서 Opus 4.8에 근접한다고 평가합니다. 벤치마크가 마케팅과 일치하는데, 이는 항상 그런 것은 아닙니다.

따라서 실제적인 해석은 간단합니다. 작업 부하에 도구(에이전트, 코딩 도우미, 컴퓨터 사용 등)가 포함된다면, Sonnet 5는 Opus 4.8의 대부분의 기능을 제공합니다. 작업 부하가 경로를 수정할 도구 없이 단일의 어려운 추론 과정이라면, Opus가 그 프리미엄을 정당화합니다. 가격과 맥락을 포함한 전체 비교를 보려면 Claude Sonnet 5 대 Opus 4.8을 참조하십시오.

가격이 이 점수들을 해석하는 방식을 바꿉니다

단독으로 보면 벤치마크는 가장 비싼 모델을 더 좋게 보이게 합니다. 가격이 추가되면 상황이 달라집니다.

Sonnet 5는 2026년 8월 31일까지 백만 입력 토큰당 2달러, 백만 출력 토큰당 10달러의 출시 기념 가격으로 운영되며, 이후 표준 가격인 3달러/15달러로 전환됩니다. Opus 4.8은 5달러/25달러입니다. 따라서 표준 요율에서 Sonnet 5는 Opus 입력의 60%, Opus 출력의 60% 비용이 들며, 출시 기념 기간 동안에는 그보다 더 저렴합니다.

이제 표를 다시 평가해 봅시다. 터미널-벤치 2.1에서 2.3점의 격차는 6점의 격차보다 Opus를 선택하여 줄일 가치가 훨씬 적습니다. 에이전트적이고 도구 의존적인 작업의 경우, 2~3점을 얻기 위해 Opus의 프리미엄을 지불하는 것은 종종 가치가 없습니다. 이것이 Sonnet 5의 전체 가치 논거이며, 벤치마크가 이를 신뢰하게 만듭니다.

순수한 점수로는 알 수 없는 한 가지 함정: Sonnet 5는 동일한 입력 텍스트에 대해 약 30% 더 많은 토큰을 생성하는 새로운 토크나이저를 사용합니다. 토큰당 가격은 Sonnet 4.6과 동일하지만, 청구할 토큰이 더 많아지기 때문에 동등한 요청의 비용이 증가할 수 있습니다. 벤치마크 정확도는 이에 대해 아무것도 말해주지 않습니다. 단순한 동등성을 가정하기보다 토큰 계산을 통해 실제 비용을 모델링하십시오. 전체 세부 정보는 Claude Sonnet 5 가격 가이드에 있습니다.

벤치마크가 놓치는 것

공개 벤치마크는 모델 순위를 매기는 데 유용합니다. 하지만 특정 작업에서 모델이 어떻게 작동하는지 예측하는 데는 취약합니다. 세 가지 차이점이 눈에 뜥니다.

여러분의 작업 부하는 SWE-bench가 아닙니다. 내부 규칙에 따라 프라이빗 API에 대해 TypeScript를 작성하는 경우, 공개 Python 프로젝트에 대한 레포지토리 해결 벤치마크는 기껏해야 대략적인 지표일 뿐입니다. 상대적인 순위는 유지되는 경향이 있지만, 절대적인 수치는 실제와 일치하지 않을 것입니다.

해결된 작업당 비용은 단순 정확도보다 중요합니다. 점수가 2점 낮지만 비용이 40% 저렴한 모델은 동일한 예산으로 더 많은 작업을 해결할 수 있습니다. 대량으로 에이전트를 실행할 때, 성공당 비용은 비용을 지불하는 지표이며, 어떤 리더보드도 여러분의 프롬프트에 대한 이를 보고하지 않습니다.

지연 시간과 처리량은 나타나지 않습니다. 벤치마크는 답변이 올바른지 여부를 측정할 뿐, 답변이 얼마나 빨리 도달하는지 또는 Sonnet 5에서 기본으로 활성화된 적응적 사고 하에서 모델이 어떻게 작동하는지는 측정하지 않습니다. 대화형 도구의 경우, 느리지만 정확한 답변이 빠르지만 충분히 좋은 답변에 뒤처질 수 있습니다.

솔직한 결론은 이 점수들을 초기 필터로 사용한 다음, 자체적인 평가를 수행하는 것입니다. 실제로 중요하게 생각하는 작업에 대한 벤치마킹만이 여러분의 결과를 반영하는 유일한 테스트입니다.

간략한 안전 정보

벤치마크 표에는 안전성이 거의 포함되지 않지만, 이 숫자들을 읽는 방식의 일부입니다.

Anthropic은 Sonnet 5가 Sonnet 4.6보다 원치 않는 행동(환각 및 아첨 현상 감소) 발생률이 전반적으로 낮다고 보고합니다. 이는 실시간 사이버 보안 보호 기능을 갖춘 최초의 Sonnet 등급 모델입니다. 금지되거나 고위험 사이버 주제에 대한 요청은 거부될 수 있으며, 거부 시 오류가 아닌 stop_reason: "refusal"과 함께 성공적인 HTTP 200 응답으로 반환되므로 해당 경우를 대비하여 구축해야 합니다.

주의 사항에 대해서도 솔직해져야 합니다. Anthropic의 자동화된 행동 감사에서 Sonnet 5는 Opus 4.8보다 더 높은 비정렬 행동(misaligned behavior) 비율을 보였습니다. 사이버 능력 측면에서는 Opus 모델보다 낮으며, 어떤 Sonnet 모델도 작동하는 익스플로잇을 전혀 개발할 수 없었고, 이는 0.0%로 보고되었습니다. 이러한 낮은 능력은 단점이 아니라 특징입니다. 전체 세부 정보는 Anthropic의 투명성 허브에 있습니다.

자신의 작업에서 수치 재현하기

가장 가치 있는 벤치마크는 여러분의 프롬프트에 대해 실행되는 것입니다. 이를 안정적으로 수행하려면 Sonnet 5 API를 항상 동일한 방식으로 호출하고, 요청을 저장하고, 여러 실행에 걸쳐 응답을 비교해야 합니다.

이는 API 클라이언트의 역할입니다. Apidog를 사용하면 Anthropic Messages API에 대한 요청을 생성하고, 재사용 가능한 컬렉션에 저장하고, API 키를 환경 변수로 저장하고, 응답에 대한 단언(assertion)을 통해 동일한 호출을 반복적으로 실행할 수 있습니다. 자신의 입력에 대해 Sonnet 5를 Opus 4.8 또는 Sonnet 4.6과 비교하고 싶을 때, 모델 ID라는 한 가지 변수만 변경하고 컬렉션을 다시 실행하면 됩니다.

저장할 요청 형태는 다음과 같습니다. 모델 ID는 정확히 claude-sonnet-5 문자열입니다.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

모델 간 벤치마크 프롬프트를 A/B 테스트하려면, 본문을 동일하게 유지하고 claude-sonnet-5, claude-opus-4-8, claude-sonnet-4-6 사이에서 "model"을 전환하세요. Apidog에서는 모델을 환경 변수로 저장하여 한 번의 편집으로 실행 내의 모든 요청을 전환할 수 있습니다. stop_reason과 응답 길이를 확인하는 테스트 단언(assertion)을 추가한 다음, CI에서 컬렉션을 실행하여 평가를 반복 가능하게 만드세요. 이러한 방식으로 API 테스트를 설정해 본 적이 없다면, Postman 없이 테스트하기 가이드에서 워크플로우를 안내합니다.

비교 스크립트를 작성할 때 한 가지 마이그레이션 참고 사항: Sonnet 5는 기본값이 아닌 temperature, top_p, top_k를 허용하지 않으며, 이전 thinking: {type: "enabled", budget_tokens: N} 필드를 거부합니다. 둘 다 400 오류를 반환합니다. 벤치마크하기 전에 이 매개변수들을 제거하세요. 그렇지 않으면 측정하기도 전에 실행이 실패할 것입니다.

요청을 한 번 만들고 점수를 매길 모든 모델에서 재사용하려면 Apidog를 다운로드하세요.

자주 묻는 질문

Claude Sonnet 5의 SWE-bench Pro 점수는 얼마인가요? Anthropic의 출시 수치에 따르면 Sonnet 5는 63.2%이며, Sonnet 4.6은 58.1%, Opus 4.8은 69.2%입니다. 이는 에이전트 코딩에서 5점의 세대적 개선이며, 플래그십 모델보다 약 6점 뒤처집니다.

Sonnet 5가 Opus 4.8보다 더 좋은가요? 순수한 점수만으로는 그렇지 않습니다. Opus 4.8은 보고된 모든 벤치마크에서 선두를 차지합니다. 하지만 Sonnet 5는 도구 의존적인 작업에서 1~3점 차이로 근접하며, 가격은 60%에 불과하여 에이전트 및 코딩 루프에 더 나은 가치를 제공합니다. 전체 비교는 Claude Sonnet 5 대 Opus 4.8에서 확인할 수 있습니다.

이 벤치마크 수치들은 독립적인 테스트에서 나온 것인가요? 아니요. 이것은 Anthropic 자체의 출시 벤치마크이며, 여러 출시일 기사에서 확인되었습니다. 이것을 보고된 수치로 간주하고, 사용하기 전에 자신의 작업 부하에서 검증하십시오.

Sonnet 5가 추론 작업보다 도구 작업에서 상대적으로 더 나은 성능을 보이는 이유는 무엇인가요? 모델이 명령을 실행하고 결과를 읽을 수 있을 때, 단계별로 자신의 실수를 수정합니다. 이러한 피드백이 Opus와의 격차를 줄입니다. 도구 없이 단일 추론 과정을 거칠 때는 수정할 대상이 없으므로, Opus의 심층적인 추론이 더 큰 격차로 나타납니다.

자신의 프롬프트로 Sonnet 5를 벤치마크하려면 어떻게 해야 하나요? 모델 ID claude-sonnet-5로 Anthropic Messages API를 호출하고, Apidog와 같은 도구에 요청을 저장하고, 단언(assertion)을 추가한 다음, 모델 ID를 교체하여 여러 모델에서 다시 실행하세요. 이를 통해 작업당 비용과 지연 시간을 알 수 있으며, 이는 공개 리더보드에서 절대 보고되지 않는 정보입니다.

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요