ผล Benchmark Claude Sonnet 5: ตัวเลขบอกความจริงอะไร

Claude Sonnet 5 เปิดตัวเมื่อวันที่ 30 มิถุนายน 2026 และคำกล่าวอ้างหลักจาก Anthropic นั้นโดดเด่น: ประสิทธิภาพการทำงานแบบ agentic ที่ใกล้เคียงกับ Opus 4.8 ในราคาที่ต่ำกว่ามาก บทความนี้จะนำเสนอคะแนนเกณฑ์มาตรฐานที่รายงานในการเปิดตัว อธิบายความหมายของรูปแบบดังกล่าว และแสดงให้เห็นว่าตัวเลขเหล่านี้หยุดมีประโยชน์ตรงไหน หากคุณต้องการภาพรวมโมเดลฉบับเต็มก่อน ให้เริ่มต้นด้วย คู่มือหลัก Claude Sonnet 5 สำหรับตัวเลขดิบโดยตรงจากแหล่งที่มา Anthropic ได้เผยแพร่ไว้ที่ หน้าประกาศอย่างเป็นทางการ

นี่คือฉบับย่อ สำหรับงานที่โมเดลใช้เครื่องมือ Sonnet 5 มีประสิทธิภาพใกล้เคียงกับ Opus 4.8 โดยห่างกันเพียงไม่กี่คะแนน สำหรับการให้เหตุผลล้วนๆ โดยไม่มีสิ่งใดมาช่วย ช่องว่างจะกว้างขึ้นเป็นประมาณหกคะแนน รูปแบบเดียวนี้อธิบายการตัดสินใจซื้อส่วนใหญ่ และเป็นประเด็นที่เราจะเจาะลึกลงไปด้านล่าง

ตัวเลขทั้งหมดในบทความนี้เป็นเกณฑ์มาตรฐานการเปิดตัวของ Anthropic ซึ่งได้รับการยืนยันจากบทความหลายฉบับในวันเปิดตัว โปรดถือว่าตัวเลขเหล่านี้เป็นข้อมูลที่รายงาน ไม่ใช่การทดสอบอิสระของเราเอง

ตารางเกณฑ์มาตรฐาน

เกณฑ์มาตรฐานสามรายการนี้บอกเล่าเรื่องราวทั้งหมด นี่คือคะแนนที่รายงานสำหรับ Sonnet 5, รุ่นก่อนหน้า Sonnet 4.6 และรุ่นเรือธง Opus 4.8

เกณฑ์มาตรฐาน	สิ่งที่วัด	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	การเขียนโค้ดแบบ Agentic ใน real repos	63.2%	58.1%	69.2%
Terminal-Bench 2.1	การทำภารกิจผ่าน Command-line	80.4%	ไม่รายงาน	82.7%
OSWorld-Verified	การใช้งานคอมพิวเตอร์, ภารกิจ GUI	81.2%	78.5%	83.4%

มีบางประเด็นที่น่าสนใจ

Sonnet 5 มีคะแนนเหนือกว่า Sonnet 4.6 ในทุกเกณฑ์มาตรฐานที่มีการรายงาน การเพิ่มขึ้นของ SWE-bench Pro จาก 58.1% เป็น 63.2% นั้นมากกว่าห้าจุด ซึ่งเป็นการเพิ่มขึ้นของรุ่นอย่างแท้จริงสำหรับการเขียนโค้ดแบบ agentic OSWorld-Verified เพิ่มขึ้นจาก 78.5% เป็น 81.2%

เมื่อเทียบกับ Opus 4.8 นั้น Sonnet 5 มีคะแนนตามหลังอยู่ 6.0 จุดใน SWE-bench Pro, 2.3 จุดใน Terminal-Bench 2.1 และ 2.2 จุดใน OSWorld-Verified ช่องว่างจะแคบที่สุดในสองภารกิจที่ต้องพึ่งพาเครื่องมือและเทอร์มินัลมากที่สุด

รูปแบบที่มีความสำคัญ

อ่านตารางอีกครั้งโดยมีคำถามหนึ่งข้อในใจ: โมเดลสามารถใช้เครื่องมือเพื่อแก้ปัญหาได้มากน้อยเพียงใด?

ใน Terminal-Bench 2.1 และ OSWorld-Verified โมเดลจะรันคำสั่ง อ่านเอาต์พุต และปรับเปลี่ยนการทำงาน มันได้รับข้อเสนอแนะจากสภาพแวดล้อมในทุกขั้นตอน Sonnet 5 มีคะแนนห่างจาก Opus 4.8 ประมาณหนึ่งถึงสามจุดในทั้งสองรายการ

SWE-bench Pro เป็นงานแบบ agentic เช่นกัน แต่เน้นการให้เหตุผลที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับฐานโค้ดขนาดใหญ่ และในกรณีนี้ช่องว่างจะกว้างขึ้นเป็นหกจุด เมื่อภารกิจให้ความสำคัญกับการให้เหตุผลล้วนๆ มากกว่าการใช้เครื่องมือ Opus จะทำคะแนนนำ

กรอบแนวคิดของ Anthropic เองก็สนับสนุนเรื่องนี้ พวกเขาเรียก Sonnet 5 ว่าเป็นโมเดล Sonnet ที่มีความสามารถแบบ agentic มากที่สุดเท่าที่เคยมีมา และวางตำแหน่งให้ใกล้เคียงกับ Opus 4.8 ในงานที่ต้องใช้ agentic และการใช้เครื่องมือ ในขณะที่ Opus ยังคงเป็นผู้นำด้านการให้เหตุผลล้วนๆ เกณฑ์มาตรฐานที่นี่สอดคล้องกับการตลาด ซึ่งไม่ใช่กรณีเสมอไป

ดังนั้น การตีความในทางปฏิบัติจึงง่าย หากเวิร์กโหลดของคุณต้องใช้เครื่องมือช่วย เช่น agents, ผู้ช่วยเขียนโค้ด, การใช้งานคอมพิวเตอร์ Sonnet 5 จะมอบความสามารถส่วนใหญ่ของ Opus 4.8 ให้คุณ หากเวิร์กโหลดของคุณเป็นงานที่ต้องใช้การให้เหตุผลที่ยากเพียงครั้งเดียวโดยไม่มีเครื่องมือช่วยในการแก้ไข Opus ก็คุ้มค่ากับราคาพรีเมียม สำหรับการเปรียบเทียบแบบละเอียด รวมถึงราคาและบริบท โปรดดูที่ Claude Sonnet 5 vs Opus 4.8

ราคาเปลี่ยนวิธีการตีความคะแนนเหล่านี้

เกณฑ์มาตรฐานที่แยกออกมาจากปัจจัยอื่น ๆ มักจะส่งผลดีต่อโมเดลที่มีราคาแพงที่สุด เมื่อเพิ่มราคาเข้าไป ภาพก็จะเปลี่ยนไป

Sonnet 5 มีราคาเปิดตัวที่ $2 ต่อล้าน input tokens และ $10 ต่อล้าน output tokens จนถึงวันที่ 31 สิงหาคม 2026 หลังจากนั้นจะเปลี่ยนเป็นราคามาตรฐานที่ $3 / $15 ส่วน Opus 4.8 มีราคาที่ $5 / $25 ดังนั้นในอัตรามาตรฐาน Sonnet 5 จะมีค่าใช้จ่าย 60% ของ input และ 60% ของ output ของ Opus และถูกกว่านั้นอีกในช่วงโปรโมชั่น

ตอนนี้ลองพิจารณาตารางอีกครั้ง ช่องว่าง 2.3 จุดใน Terminal-Bench 2.1 นั้นมีค่าใช้จ่ายในการปิดช่องว่างด้วย Opus น้อยกว่าช่องว่าง 6 จุดมาก สำหรับงานที่เน้น agentic และการใช้เครื่องมือ การจ่ายราคาพรีเมียมของ Opus เพื่อให้ได้คะแนนคืนมาสองหรือสามจุดมักจะไม่คุ้มค่า นั่นคือข้อถกเถียงด้านคุณค่าทั้งหมดของ Sonnet 5 และเกณฑ์มาตรฐานก็เป็นสิ่งที่ทำให้มันน่าเชื่อถือ

ข้อสังเกตหนึ่งที่คะแนนดิบซ่อนไว้: Sonnet 5 ใช้ tokenizer ใหม่ที่สร้างโทเค็นเพิ่มขึ้นประมาณ 30% สำหรับข้อความอินพุตเดียวกัน ราคาต่อโทเค็นยังคงไม่เปลี่ยนแปลงจาก Sonnet 4.6 แต่ค่าใช้จ่ายของคำขอที่เทียบเท่ากันอาจสูงขึ้นได้เนื่องจากมีโทเค็นที่ต้องเรียกเก็บเงินมากขึ้น ความแม่นยำของเกณฑ์มาตรฐานไม่ได้กล่าวถึงเรื่องนี้ โปรดคำนวณต้นทุนจริงของคุณด้วยการนับโทเค็นแทนที่จะสมมติว่าเท่ากันทั้งหมด รายละเอียดทั้งหมดอยู่ใน คู่มือราคา Claude Sonnet 5

สิ่งที่เกณฑ์มาตรฐานพลาดไป

เกณฑ์มาตรฐานสาธารณะมีประโยชน์สำหรับการจัดอันดับโมเดล แต่ยังอ่อนแอในการทำนายว่าโมเดลจะทำงานอย่างไรกับงานเฉพาะของคุณ มีข้อบกพร่องสามประการที่โดดเด่น

เวิร์กโหลดของคุณไม่ใช่ SWE-bench หากคุณเขียน TypeScript กับ API ส่วนตัวที่มีข้อตกลงภายในองค์กร การใช้เกณฑ์มาตรฐานการแก้ปัญหา repo ในโปรเจกต์ Python สาธารณะเป็นเพียงตัวประมาณค่าแบบหยาบเท่านั้น อันดับสัมพัทธ์มักจะคงที่ แต่ตัวเลขที่แน่นอนจะไม่ตรงกับสิ่งที่คุณเห็น

ต้นทุนต่อภารกิจที่แก้ไขได้มีความสำคัญกว่าความแม่นยำดิบๆ โมเดลที่มีคะแนนต่ำกว่าสองจุดแต่มีค่าใช้จ่ายน้อยกว่า 40% สามารถแก้ไขงานได้มากขึ้นด้วยงบประมาณเท่าเดิม เมื่อคุณเรียกใช้ agents ในปริมาณมาก ต้นทุนต่อความสำเร็จคือตัวชี้วัดที่สำคัญ และไม่มีกระดานผู้นำใดรายงานข้อมูลนี้สำหรับคำสั่งของคุณ

เวลาแฝงและปริมาณงานไม่ได้ถูกนำมาพิจารณา เกณฑ์มาตรฐานวัดว่าคำตอบถูกต้องหรือไม่ ไม่ใช่วัดว่าคำตอบมาถึงเร็วแค่ไหน หรือโมเดลทำงานอย่างไรภายใต้การคิดแบบปรับตัว ซึ่งเป็นค่าเริ่มต้นใน Sonnet 5 สำหรับเครื่องมือแบบโต้ตอบ คำตอบที่ถูกต้องแต่ช้าอาจแพ้คำตอบที่เร็วแต่ดีพอ

ข้อสรุปที่ซื่อสัตย์คือให้ถือว่าคะแนนเหล่านี้เป็นตัวกรองเริ่มต้น จากนั้นจึงทำการประเมินผลด้วยตนเอง การใช้เกณฑ์มาตรฐานกับงานที่คุณให้ความสำคัญจริงๆ เป็นการทดสอบเดียวที่สะท้อนผลลัพธ์ของคุณได้

ความปลอดภัยโดยย่อ

ตารางเกณฑ์มาตรฐานไม่ค่อยรวมถึงความปลอดภัย แต่สิ่งนี้เป็นส่วนหนึ่งของวิธีการอ่านตัวเลขเหล่านี้

Anthropic รายงานว่า Sonnet 5 มีอัตราพฤติกรรมที่ไม่พึงประสงค์โดยรวมต่ำกว่า Sonnet 4.6 โดยมีการสร้างข้อมูลเท็จ (hallucination) และการประจบสอพลอน้อยลง เป็นโมเดลระดับ Sonnet รุ่นแรกที่มีการป้องกันภัยคุกคามทางไซเบอร์แบบเรียลไทม์ คำขอที่เกี่ยวข้องกับหัวข้อไซเบอร์ที่ถูกห้ามหรือมีความเสี่ยงสูงอาจถูกปฏิเสธ และการปฏิเสธจะส่งกลับเป็น HTTP 200 response ที่สำเร็จพร้อมกับ stop_reason: "refusal" ไม่ใช่ข้อผิดพลาด ดังนั้นควรสร้างระบบรองรับกรณีนี้

โปรดซื่อสัตย์เกี่ยวกับข้อควรระวังด้วยเช่นกัน ในการตรวจสอบพฤติกรรมอัตโนมัติของ Anthropic นั้น Sonnet 5 แสดงอัตราพฤติกรรมที่ไม่สอดคล้องกันสูงกว่า Opus 4.8 ในด้านความสามารถทางไซเบอร์ มันอยู่ต่ำกว่าโมเดล Opus และไม่มีโมเดล Sonnet ใดๆ ที่สามารถพัฒนา exploit ที่ใช้งานได้เลย โดยรายงานที่ 0.0% ความสามารถที่ต่ำกว่าในจุดนั้นถือเป็นคุณสมบัติ ไม่ใช่ข้อบกพร่อง รายละเอียดทั้งหมดอยู่ใน ศูนย์ความโปร่งใสของ Anthropic

จำลองตัวเลขด้วยงานของคุณเอง

เกณฑ์มาตรฐานที่มีค่าที่สุดคือเกณฑ์ที่ใช้กับคำสั่งของคุณเอง ในการทำเช่นนั้นได้อย่างน่าเชื่อถือ คุณต้องเรียกใช้ Sonnet 5 API ด้วยวิธีเดียวกันทุกครั้ง บันทึกคำขอ และเปรียบเทียบการตอบสนองในการรันแต่ละครั้ง

นั่นเป็นงานของไคลเอนต์ API Apidog ช่วยให้คุณสร้างคำขอไปยัง Anthropic Messages API บันทึกไว้ในคอลเลกชันที่นำกลับมาใช้ใหม่ได้ จัดเก็บคีย์ API ของคุณเป็นตัวแปรสภาพแวดล้อม และเรียกใช้คำสั่งเดียวกันซ้ำๆ พร้อมกับการยืนยันการตอบกลับ เมื่อคุณต้องการเปรียบเทียบ Sonnet 5 กับ Opus 4.8 หรือ Sonnet 4.6 บนอินพุตของคุณเอง คุณเพียงแค่เปลี่ยนตัวแปรเดียว คือ model ID แล้วรันคอลเลกชันอีกครั้ง

นี่คือรูปแบบคำขอที่คุณจะบันทึก model ID คือสตริงที่ถูกต้อง claude-sonnet-5

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

ในการทำ A/B test คำสั่งเกณฑ์มาตรฐานข้ามโมเดล ให้รักษาเนื้อหาให้เหมือนเดิม และสลับค่า "model" ระหว่าง claude-sonnet-5, claude-opus-4-8 และ claude-sonnet-4-6 ใน Apidog คุณสามารถจัดเก็บโมเดลเป็นตัวแปรสภาพแวดล้อม เพื่อให้การแก้ไขเพียงครั้งเดียวสามารถเปลี่ยนคำขอทั้งหมดในการรันได้ เพิ่มการยืนยันการทดสอบเพื่อตรวจสอบ stop_reason และความยาวของการตอบกลับ จากนั้นรันคอลเลกชันใน CI เพื่อให้การประเมินของคุณสามารถทำซ้ำได้ หากคุณไม่เคยตั้งค่าการทดสอบ API ด้วยวิธีนี้ คู่มือการทดสอบโดยไม่ต้องใช้ Postman จะอธิบายขั้นตอนการทำงาน

ข้อควรทราบในการย้ายข้อมูลเมื่อคุณเขียนสคริปต์การเปรียบเทียบ: Sonnet 5 ไม่ยอมรับค่า temperature, top_p หรือ top_k ที่ไม่ใช่ค่าเริ่มต้น และจะปฏิเสธฟิลด์เก่า thinking: {type: "enabled", budget_tokens: N} ทั้งสองกรณีจะส่งคืนข้อผิดพลาด 400 ให้ลบพารามิเตอร์เหล่านั้นออกก่อนที่คุณจะทำการวัดเกณฑ์มาตรฐาน มิฉะนั้นการรันของคุณจะล้มเหลวก่อนที่จะวัดผลใดๆ

ดาวน์โหลด Apidog เพื่อสร้างคำขอเพียงครั้งเดียวและนำไปใช้ซ้ำกับทุกโมเดลที่คุณต้องการให้คะแนน

คำถามที่พบบ่อย

คะแนน SWE-bench Pro ของ Claude Sonnet 5 คือเท่าไร? ตัวเลขการเปิดตัวของ Anthropic รายงานว่า Sonnet 5 ได้ 63.2% เทียบกับ 58.1% สำหรับ Sonnet 4.6 และ 69.2% สำหรับ Opus 4.8 เป็นการเพิ่มขึ้นของรุ่นห้าจุดสำหรับการเขียนโค้ดแบบ agentic และตามหลังรุ่นเรือธงประมาณหกจุด

Sonnet 5 ดีกว่า Opus 4.8 หรือไม่? ไม่ใช่ในแง่ของคะแนนดิบ Opus 4.8 เป็นผู้นำในทุกเกณฑ์มาตรฐานที่รายงาน แต่ Sonnet 5 มีคะแนนใกล้เคียงกันโดยห่างกันเพียงหนึ่งถึงสามจุดในงานที่ต้องใช้เครื่องมือมาก โดยมีราคาเพียง 60% ซึ่งทำให้คุ้มค่ากว่าสำหรับ agents และการวนลูปการเขียนโค้ด การเปรียบเทียบฉบับเต็มอยู่ใน Claude Sonnet 5 vs Opus 4.8

ตัวเลขเกณฑ์มาตรฐานเหล่านี้มาจากการทดสอบอิสระหรือไม่? ไม่ใช่ ตัวเลขเหล่านี้เป็นเกณฑ์มาตรฐานการเปิดตัวของ Anthropic เอง ซึ่งได้รับการยืนยันจากบทความหลายฉบับในวันเปิดตัว โปรดถือว่าตัวเลขเหล่านี้เป็นข้อมูลที่รายงานและตรวจสอบยืนยันกับเวิร์กโหลดของคุณเองก่อนที่จะตัดสินใจ

เหตุใด Sonnet 5 จึงทำได้ดีกว่าในงานที่ใช้เครื่องมือเทียบกับงานการให้เหตุผล? เมื่อโมเดลสามารถรันคำสั่งและอ่านผลลัพธ์ได้ มันจะแก้ไขข้อผิดพลาดของตัวเองไปทีละขั้นตอน ข้อเสนอแนะนั้นช่วยลดช่องว่างกับ Opus ในการให้เหตุผลเพียงครั้งเดียวโดยไม่มีเครื่องมือช่วย จะไม่มีสิ่งใดให้แก้ไข ดังนั้นการให้เหตุผลที่ลึกซึ้งกว่าของ Opus จึงแสดงให้เห็นถึงความเป็นผู้นำที่กว้างกว่า

ฉันจะวัดเกณฑ์มาตรฐาน Sonnet 5 ด้วยคำสั่งของฉันเองได้อย่างไร? เรียกใช้ Anthropic Messages API ด้วย model ID claude-sonnet-5, บันทึกคำขอในเครื่องมืออย่าง Apidog, เพิ่มการยืนยัน และรันซ้ำข้ามโมเดลโดยการสลับ model ID วิธีนี้จะให้ข้อมูลต้นทุนต่อภารกิจและเวลาแฝง ซึ่งกระดานผู้นำสาธารณะไม่เคยรายงาน