Claude Fable 5 벤치마크: 숫자가 말하는 것

Anthropic이 2026년 6월 9일 Claude Fable 5를 출시했을 때, 테스트한 거의 모든 벤치마크에서 이 모델이 최첨단이라고 발표했습니다. Claude Fable 5 벤치마크의 정확한 수치와 평가 결과에 대한 정보를 찾고 계셨다면, 솔직한 사전 경고를 드립니다. Anthropic의 발표는 텍스트에서 전체 수치 점수판보다는 벤치마크 *순위* (다른 첨단 모델 대비 Fable 5의 순위)를 주로 보고했으며, 주요 차트 중 일부는 복사-붙여넣기 가능한 표가 아닌 이미지로 제공되었습니다. 따라서 이 요약은 순위가 실제로 의미하는 바, Fable 5의 위치, 그리고 직접 제어하는 수치를 원할 경우 자신만의 빠른 평가를 실행하는 방법에 중점을 둡니다. 현재 첨단 모델에 대한 더 넓은 비교를 위해, Opus 4.8과 GPT-5.5, Gemini 3.5를 비교한 저희 분석은 유용한 참고 자료가 될 것입니다.

Fable 5는 claude-fable-5 모델 ID로 백만 입력 토큰당 10달러, 백만 출력 토큰당 50달러에 제공됩니다. 이는 Opus 4.8보다 기능과 가격 면에서 한 단계 위에 있으며, Anthropic은 이를 소프트웨어 엔지니어링, 지식 작업, 비전 및 과학 연구를 위한 가장 강력한 공개 Claude 모델로 포지셔닝합니다.

핵심 요약

Claude Fable 5는 FrontierCode 및 FrontierBench (모두 Cognition 제공)에서 첨단 모델 중 1위를 차지했으며, CursorBench에서는 최첨단이고 Hebbia의 Finance Benchmark에서 최고 점수를 기록했습니다. 장기적이고 자율적인 작업에서 명확한 강점을 보여줍니다. Anthropic은 이를 순위로 보고했기 때문에 정확한 공개 점수는 제한적입니다. 순위는 지표로 활용하되 최종적인 것으로 간주하지 마십시오.

주요 결과

모든 Claude Fable 5 벤치마크 논의를 아우르는 한 문장: Anthropic은 이 모델이 소프트웨어 엔지니어링, 지식 작업, 비전 및 과학 연구를 포함하여 테스트한 거의 모든 벤치마크에서 최첨단이라고 설명합니다. 이는 광범위한 주장이며, 광범위한 주장은 신중한 검토가 필요합니다.

"거의 모든 벤치마크에서 최첨단"이라는 것은 Fable 5가 Anthropic이 보고하기로 선택한 대부분의 평가에서 선두를 차지하거나 최상위 계층에 있다는 것을 의미합니다. 이는 Fable 5가 모든 테스트에서 큰 차이로 승리한다는 것을 의미하지 않으며, 독립적인 연구소에서 각 결과를 재현했다는 것을 의미하지도 않습니다. 이는 일관성을 나타냅니다. 코딩에서는 최고이지만 문서 추론에서는 평범한 모델은 이러한 문구를 얻을 수 없을 것입니다. Fable 5는 일반적으로 서로 상충되는 범주에서 최상위를 유지하는 것으로 보입니다.

이러한 광범위한 능력은 어떤 하나의 차트보다 중요합니다. 많은 모델들이 특정 벤치마크에서 급상승하고 다른 곳에서는 저조한 성능을 보입니다. 코딩, 금융, 비전 및 과학 전반에 걸쳐 최상위권을 유지하는 모델은 조작하기 더 어렵습니다. 진정한 능력이 없이는 관련 없는 네 가지 기술을 동시에 조정할 수 없기 때문입니다. Fable 5가 더 저렴한 등급에서 전환할 가치가 있는지 결정하는 경우, 순위의 폭넓은 범위가 중요하게 고려해야 할 부분입니다. 모델 자체에 대한 전체적인 내용은 Claude Fable 5란 무엇인가를 참조하십시오.

결과를 관통하는 두 번째 주제는 장기적 작업입니다. Anthropic은 Fable 5가 "장기 실행 작업에서 수백만 개의 토큰에 걸쳐 집중력을 유지"하며 이전 Claude 모델보다 더 오랫동안 자율적으로 작동한다고 말합니다. 아래의 여러 순위는 단일 정확도 테스트가 아닙니다. 이는 수천 단계에 걸쳐 계획을 흐트러지지 않고 유지할 수 있는 모델에 보상을 줍니다. 이것이 Fable 5의 보고된 우위가 가장 넓은 부분이며, 단일 숫자로 포착하기 가장 어려운 능력이기도 합니다.

코딩 벤치마크: FrontierCode 및 CursorBench

코딩은 Fable 5의 벤치마크 스토리가 가장 강력하고 구체적인 부분입니다.

Cognition (Devin 코딩 에이전트 개발팀)의 코딩 평가인 **FrontierCode**에서 Anthropic은 Fable 5가 최고 점수를 기록한 첨단 모델이며, *중간 노력* 수준에서도 그 우위를 유지한다고 보고합니다. "노력"이라는 한정사는 잠시 주목할 가치가 있습니다. 많은 첨단 모델은 더 많은 추론 컴퓨팅 (더 많은 추론 토큰, 더 많은 시도, 높은 노력 설정)을 투입하여 더 높은 정확도로 끌어올릴 수 있습니다. 중간 노력 수준에서 이미 선두를 달리고 있는 모델은 가장 비싼 구성 없이도 최고 수준에 도달하고 있는 것으로, 최대 지출에서만 나타나는 숫자보다 일상적인 사용에 더 나은 신호입니다.

**CursorBench**에서 Anthropic은 Fable 5를 최첨단으로 묘사하며, 단일 정확도 수치보다는 범위에 초점을 맞춰 결과를 설명합니다. 발표문에서 Fable 5는 이전 모델에서는 "도달하기 어려웠던 장기적인 문제의 영역을 열었다"고 언급합니다. CursorBench는 실제 코드베이스가 요구하는 다중 파일, 다단계 엔지니어링 작업에 중점을 두므로, 여기서 최첨단 순위는 독립적인 함수 작성보다는 에이전트 기반 코딩에 더 가깝습니다.

두 결과 모두 같은 방향을 가리킵니다: Fable 5는 스니펫 완성보다는 지속적인 엔지니어링을 위해 구축되었습니다. 계획을 세우고, 파일 간에 편집하고, 테스트를 실행하고, 반복하는 코딩 에이전트에서 하루를 보내는 경우, 이러한 벤치마크가 귀하의 워크플로우에 매핑됩니다. 중간 노력 수준에서 FrontierCode에서 최고를 기록하고 CursorBench를 새로운 영역으로 이끄는 모델은 몇 번의 전환 후에 지치기보다는 긴 에이전트 세션 동안 버틸 수 있어야 합니다.

지식 및 금융: 금융 벤치마크 (Hebbia)

코드 외에 가장 명확한 지식 작업 결과는 문서 중심의 금융 및 법률 작업을 위한 AI에 중점을 둔 회사인 Hebbia가 구축한 **Finance Benchmark**에서 나옵니다.

Anthropic은 Fable 5가 문서 추론, 차트, 표의 세 가지 영역에서 주로 개선을 보여주며, 이 벤치마크에서 다른 어떤 모델보다도 높은 점수를 기록했다고 보고합니다. 이러한 조합은 의미심장합니다. 금융 분석은 거의 상식적인 질문이 아닙니다. 긴 보고서를 읽고, 여러 페이지에 걸쳐 숫자를 추적하고, 차트를 설명하는 텍스트와 일치시키며, 밀집된 표에서 열을 잘못 읽지 않고 올바른 셀을 찾아내는 작업입니다. 이는 Finance Benchmark가 강조하는 정확한 기술이며, 산문에는 강하지만 구조화된 데이터에는 약한 모델들이 어려움을 겪는 부분입니다.

여기서 시각적 측면도 중요합니다. 차트와 표는 종종 이미지 또는 혼합 레이아웃이므로, 높은 Finance Benchmark 점수는 부분적으로 시각적 결과입니다. 이는 Fable 5가 비전 기능에 강하다는 Anthropic의 광범위한 주장과 일치하며, 이 모델이 깨끗한 텍스트 전용 입력보다는 지식 작업자가 다루는 지저분하고 실제적인 문서를 처리할 수 있음을 시사합니다.

개발자에게 실용적인 해석은 Fable 5가 문서 추출 파이프라인, 금융 분석 도구, 그리고 깔끔한 JSON 페이로드 대신 숫자로 가득 찬 PDF가 입력으로 들어오는 모든 워크플로우에 적합한 후보라는 것입니다. 귀하의 제품이 계약서, 명세서 또는 보고서를 읽고 수치에 대해 정확해야 한다면, 이 순위를 주목해야 합니다. 벤치마크가 귀하의 결과를 예측할 것이라고 신뢰하기 전에 귀하의 문서로 유효성을 검사하십시오.

장기적 추론: FrontierBench (Cognition)

두 번째 Cognition 평가는 **FrontierBench**이며, 여기서 자율성 스토리가 벤치마크 순위로 이어집니다. Anthropic은 Fable 5가 FrontierBench에서 최고 점수를 기록한 모델이며, 그 이유로 장기적 추론을 꼽습니다.

장기적 추론은 긴 작업에 걸쳐 목표와 계획의 일관성을 유지하는 능력입니다. 즉, 많은 단계, 많은 토큰, 그리고 흐름을 잃을 많은 가능성이 있는 작업입니다. 대부분의 벤치마크는 포함된 질문에 대한 정답에 보상을 줍니다. Anthropic의 관점에서 FrontierBench는 컨텍스트 창이 자체 중간 작업으로 채워지는 동안 작업을 계속할 수 있는 모델에 보상을 줍니다. 이는 다른 근육이며, Anthropic이 "수백만 개의 토큰에 걸쳐 집중력을 유지"와 같은 문구로 계속해서 지적하는 부분입니다.

이는 또한 외부에서 검증하기 가장 어려운 순위인데, 정확하게 측정하기 어렵기 때문입니다. 장기적 평가는 "작업을 계속한다"는 것이 무엇을 의미하는지, 부분적인 진행 상황이 어떻게 점수화되는지, 그리고 모델이 정체하여 지표를 속이는 것을 어떻게 막을지 정의해야 합니다. 따라서 FrontierBench 순위를 Fable 5가 자율적이고 장기 실행 에이전트를 위해 구축되었다는 강력한 방향성 신호로 간주하되, 장기적 점수 산정은 방법론이 연구소마다 여전히 다른 진화하는 영역임을 명심하십시오. CursorBench와 함께 고려할 때, 스토리는 일관적입니다: Fable 5의 강점은 하나의 어려운 질문에 답하는 것보다는 긴 작업에 걸쳐 무너지지 않는 것에 있습니다.

벤치마크를 넘어서는 실제 성능

벤치마크는 대리 지표입니다. Anthropic이 실제 배포에서 강조한 두 가지 결과는 어떤 리더보드보다도 더 유익하다고 볼 수 있는데, 모델이 테스트를 통과하는 것이 아니라 실제로 작업을 수행하는 것을 보여주기 때문입니다.

첫 번째는 **Stripe 코드베이스 마이그레이션**입니다. Anthropic은 Fable 5가 Stripe의 5천만 줄 Ruby 코드베이스를 단 하루 만에 마이그레이션했다고 보고합니다. 팀은 이 작업이 두 달 이상 걸릴 것이라고 추정했습니다. 이 내용을 주의 깊게 읽으십시오. 5천만 줄의 마이그레이션은 코딩 퍼즐이 아닙니다. 이는 수천 개의 파일에 걸쳐 방대하고 반복적이며 컨텍스트가 중요한 고된 작업이며, 작은 불일치가 쌓여 빌드를 망가뜨립니다. 여기서의 신호는 Fable 5가 영리하다는 것이 아닙니다. 벤치마크가 암시하는 장기적인 능력인 엄청난 규모에서 흐트러지지 않고 정확하고 일관된 편집을 유지할 수 있다는 것을 실제 프로덕션 시스템에서 보여주었다는 것입니다.

두 번째는 **Slay the Spire 테스트**입니다. Slay the Spire는 덱 빌딩 로그라이크 게임이며, Anthropic은 코딩보다는 메모리 조사를 위해 이를 사용했습니다. 영구 파일 메모리를 활성화했을 때, Fable 5는 이 게임에서 Opus 4.8보다 3배 개선된 성능을 보였습니다. 흥미로운 부분은 메커니즘입니다. 이 개선은 모델이 파일에 메모를 작성하고 실행 간에 이를 다시 읽어 들이면서 인간 플레이어처럼 전략을 축적하도록 허용함으로써 이루어졌습니다. 이는 매 세션마다 처음부터 시작하는 대신, 영구적인 메모리를 부여했을 때 의미 있게 더 나아지는 모델을 가리킵니다.

이것들이 벤치마크가 알려주지 않는 어떤 것을 알려줍니까? 두 가지입니다. 첫째, 규모 내구성입니다. 벤치마크 질문은 의도적으로 작게 설계되었으며, Stripe 결과는 표준 평가가 도달할 수 없는 규모에서의 행동을 보여줍니다. 둘째, 기억 및 도구 사용이 시너지를 발휘하는 것입니다. Slay the Spire 결과는 모델의 순수 IQ에 관한 것이 아니라, 모델이 영구적인 상태를 가진 환경에 연결되었을 때 어떻게 개선되는지에 관한 것입니다. 이 두 가지 모두 모델이 실제 시스템에 내장되었을 때만 볼 수 있는 속성이며, 이것이 또한 공급업체 간에 비교하기 어려운 이유입니다. 몇 시간 동안 실행되고 자체 메모를 유지하는 에이전트를 위해 Fable 5를 평가하는 경우, 이러한 신호가 단일 정확도 백분율보다 더 중요합니다.

이 결과들을 읽는 방법

단지 칭찬 일색인 벤치마크 요약은 유용하지 않습니다. 다음은 순위와 함께 고려해야 할 주의사항입니다.

벤치마크 소유자는 파트너입니다. FrontierCode 및 FrontierBench는 Cognition에서, Finance Benchmark는 Hebbia에서 나옵니다. 이들은 진지한 평가를 구축하는 신뢰할 수 있는 조직이며, 이들의 참여는 긍정적인 요소이지 적신호가 아닙니다. 그러나 이들은 또한 출시 서사의 파트너이며, 한 당사자가 설계한 벤치마크는 그 당사자가 중요하게 여기는 능력을 보상하는 경향이 있습니다. 그렇다고 해서 결과가 잘못된 것은 아닙니다. 하지만 정설로 받아들이기 전에 독립적인 재현을 원해야 한다는 의미입니다. MiniMax M3 대 Opus 4.7 대 GPT-5.5에 대한 저희의 분석과 같은 중립적인 비교를 통해 Anthropic 모델이 다른 프레임에서 어떻게 평가되는지 교차 참조하십시오.

"노력" 설정이 그림을 바꿉니다. FrontierCode 결과는 중간 노력 수준에서 보고되었는데, 이는 고무적입니다. 하지만 노력은 이러한 평가 전반에 걸쳐 실제적인 변수입니다. 다른 노력 수준에서 비교된 두 모델은 공정하게 비교되지 않으며, 노력 설정 없이 인용된 숫자는 불완전합니다. 온라인에서 Fable 5 점수를 볼 때는 다른 것과 비교하기 전에 어떤 노력과 몇 번의 시도로 얻어진 것인지 확인하십시오.

공개 점수는 제한적입니다. Anthropic의 발표는 순위에 중점을 두었으며, 자세한 차트는 이미지로 제공되었기 때문에 이 기사는 특정 평가에 대해 정성적인 접근을 유지합니다. 보조 매체들이 숫자로 이 간극을 메웠지만, 그 수치들은 다양하며 모두 1차 출처로 추적할 수 있는 것은 아니므로 아직 구매 결정을 좌우해서는 안 됩니다. Cognition과 Hebbia가 자체 리더보드를 게시할 때, 그들을 선호하십시오.

순위는 마진이 아닙니다. "최고 점수"는 순위를 알려줄 뿐 격차는 알려주지 않습니다. 모델은 1점 차이로 선두를 차지할 수도 있고 20점 차이로 선두를 차지할 수도 있으며, 두 가지는 10달러/50달러 가격의 업그레이드가 가치가 있는지 여부에 대해 다른 의미를 가집니다. 기본 점수 없이는 선두를 실제이지만 정량화되지 않은 것으로 취급하십시오.

이 중 어느 것도 결과를 무시할 이유는 되지 않습니다. Fable 5가 코딩, 금융, 비전 및 장기적 추론 전반에서 선두를 달리고 있으며, Stripe 및 Slay the Spire 배포 사례까지 더해져 강력하고 일관된 그림을 보여줍니다. 이는 약속하기 전에 자신의 작업 부하에서 검증해야 할 이유이며, 누가 만들었는지에 관계없이 모든 새 모델에 대한 올바른 접근 방식입니다. 모델 개요는 어떤 것을 연결하기 전에 현재 ID, 가격 및 컨텍스트 제한을 확인하는 곳입니다.

Apidog로 자신만의 벤치마크 실행하기

가장 신뢰할 수 있는 벤치마크는 귀하의 프롬프트와 "좋음"에 대한 귀하의 정의를 사용하는 벤치마크입니다. 유용한 정보를 얻기 위해 연구용 도구가 필요하지 않습니다. 고정된 테스트 프롬프트를 Fable 5 API로 보내고 응답을 Opus 4.8과 직접 측정할 수 있는 세 가지 축(출력 품질, 지연 시간, 토큰 비용)으로 비교하여 경량 DIY 평가를 구축하십시오.

요청 설계, 테스트 및 문서화를 위한 API 플랫폼인 Apidog를 사용하여 간단하게 수행하는 방법은 다음과 같습니다. Apidog에서 하나의 요청을 생성하고, 각 모델에 연결한 다음, 응답, 시간 및 토큰 사용량을 나란히 비교하는 방식입니다.

Claude 메시지 엔드포인트에 POST 요청을 설정하고 Apidog에 재사용 가능한 요청으로 저장하여 다시 입력할 필요 없이 다시 실행할 수 있습니다.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

고정된 작업을 포함하는 본문을 제공하십시오. 장난감 같은 프롬프트가 아니라 실제 작업처럼 보이는 프롬프트를 선택하십시오. 마이그레이션 스타일의 지침은 코딩 모델에 대한 좋은 스트레스 테스트입니다:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

claude-fable-5에 대해 한 번 실행하십시오. 그런 다음 요청을 복제하고 model 필드를 claude-opus-4-8로 변경한 후 동일한 프롬프트를 실행하십시오. 입력이 동일하므로 출력의 차이는 프롬프트가 아닌 모델에서 비롯됩니다.

이제 Apidog가 각 호출에 대해 표시하는 세 가지 신호를 확인하십시오:

품질. 귀하의 자체 기준에 따라 두 응답을 육안으로 검사하십시오. 테스트가 예외 사례를 다루었습니까? 리팩토링이 올바르게 유지되었습니까? 어떤 모델이 어떤 결과를 생성했는지 보기 전에 둘 다 점수를 매기십시오.
지연 시간. Apidog는 각 요청에 대한 응답 시간을 보여줍니다. 대화형 도구의 경우, 정확도는 두 배 높지만 네 배 느린 모델은 여전히 잘못된 선택일 수 있습니다.
토큰 비용. Claude 응답에는 input_tokens 및 output_tokens를 포함하는 usage 블록이 있습니다. 게시된 요금(Fable 5의 경우 백만당 10달러 및 50달러, Opus 4.8의 경우 5달러 및 25달러)을 곱하여 각 답변의 실제 비용을 얻으십시오.

실제 사용을 반영하는 5개 또는 10개의 프롬프트에 걸쳐 이를 반복하면, 공개 리더보드가 알려줄 수 없는 작은 규모의 정직한 벤치마크를 얻을 수 있습니다. 즉, Fable 5의 우위가 귀하가 지불할 의향이 있는 가격으로 *귀하의* 작업에서 나타나는지 여부입니다. Apidog를 다운로드하여 몇 분 안에 설정할 수 있습니다. 더 깊은 비용 분석을 위해, 저희의 Fable 5 가격 가이드에서 계산 방법을 설명합니다.

버튼