xAI ของ Elon Musk ได้เปิดตัว Grok-3 ซึ่งเป็นรุ่นล่าสุดของแชทบอท AI โดยอ้างว่าเหนือกว่าคู่แข่งอย่าง GPT-4o ของ OpenAI, Gemini ของ Google และ Claude ของ Anthropic ในเกณฑ์มาตรฐานสำคัญ การเปิดตัวครั้งนี้ถือเป็นก้าวกระโดดครั้งสำคัญในด้านการใช้เหตุผล การเขียนโค้ด และความสามารถในการแก้ปัญหา ทำให้ Grok-3 เป็นผู้เล่นที่น่าเกรงขามในวงการ AI เชิงกำเนิด ด้านล่างนี้ เราจะวิเคราะห์ประสิทธิภาพของเกณฑ์มาตรฐาน การใช้งานจริง และประสบการณ์ของผู้ใช้ในช่วงแรก เพื่อประเมินว่ามันเป็นไปตามกระแสหรือไม่
รีวิวโดยย่อเกี่ยวกับเกณฑ์มาตรฐานของ Grok-3

Grok-3 แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในเกณฑ์มาตรฐานมาตรฐานในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ด
- ในการแข่งขันคณิตศาสตร์ AIME’24 มันทำคะแนนได้ 52 (เมื่อเทียบกับ 48 ของ GPT-4o) ในขณะที่ผลการทดสอบเกณฑ์มาตรฐานวิทยาศาสตร์ (GPQA) ที่ 75 นั้นเหนือกว่าคู่แข่งอย่าง DeepSeek-V3 (68) และ Claude 3.5 Sonnet (70) อย่างมาก
- ความสามารถในการเขียนโค้ด ซึ่งทดสอบผ่านชุดข้อมูล LCB Oct-Feb แสดงให้เห็นว่า Grok-3 ทำคะแนนได้ 57 คะแนน ซึ่งนำหน้า Gemini-2 Pro (49) และ GPT-4o (52) อย่างเห็นได้ชัด
รุ่น Grok-3 mini ที่มีน้ำหนักเบาก็สร้างความประทับใจเช่นกัน โดยทำคะแนนได้ 40, 65 และ 41 ในหมวดหมู่เหล่านี้—ยังคงนำหน้าโมเดลคู่แข่งส่วนใหญ่

เป็นที่น่าสังเกตว่า Grok-3 กลายเป็น AI ตัวแรกที่ทำลายเกณฑ์ 1400 คะแนน บน Chatbot Arena (LMSYS) ซึ่งเป็นแพลตฟอร์มสำหรับการประเมินแบบจำลองภาษาขนาดใหญ่ รุ่นแรกของมันทำคะแนนได้ 1402 คะแนน ซึ่งเหนือกว่า DeepSeek-R1 (1385) และ o3-mini-high ของ OpenAI (1390)
ความโดดเด่นนี้ขยายไปถึงงานเฉพาะทาง เช่น คำค้นหาที่มีบริบทยาว, บทสนทนาหลายรอบ และ การปฏิบัติตามคำแนะนำ ซึ่ง Grok-3 ติดอันดับหนึ่งอย่างสม่ำเสมอ
ตอนนี้คุณสามารถใช้ Grok-3 ได้ที่ไหน?
Grok 3 พร้อมใช้งานสำหรับสมาชิก Premium+ ทั้งหมดบน X ฟรี

Grok-3 ดีแค่ไหนกันแน่?
1. Grok-3 เก่งเรื่องการคิดแค่ไหน?
โหมด "Think" ของ Grok-3 แสดงให้เห็นถึงความสามารถในการใช้เหตุผลขั้นสูง แก้ปัญหาที่ซับซ้อนซึ่งทำให้โมเดลอื่นๆ ต้องหยุดชะงัก ตัวอย่างเช่น:
- ✅ การออกแบบเกมกระดาน: เมื่อถูกขอให้สร้างเว็บเพจตารางหกเหลี่ยมสไตล์ Settlers of Catan พร้อมการปรับวงแหวนแบบไดนามิกผ่านตัวเลื่อน Grok-3 สร้างโค้ด HTML/JavaScript ที่ใช้งานได้จริง—งานที่ DeepSeek-R1 และ Gemini 2.0 Flash Thinking ทำไม่สำเร็จ o1-pro ของ OpenAI (ระดับ $200/เดือน) ก็ทำสำเร็จเช่นกัน แต่ Grok-3 ทำได้ตามประสิทธิภาพในราคาเพียงเล็กน้อย
- ✅ การวิเคราะห์ Tic-Tac-Toe: โมเดลแก้กระดาน tic-tac-toe พื้นฐานได้อย่างถูกต้องและสร้างสถานะเกมที่ถูกต้อง อย่างไรก็ตาม เมื่อถูกท้าทายให้สร้างกระดาน "ยุ่งยาก" มันสร้างเลย์เอาต์ที่ไร้สาระ—ความล้มเหลวที่ o1-pro มีร่วมกัน ซึ่งเน้นให้เห็นถึงข้อจำกัดทั่วไปของ LLM ในการสร้างกลยุทธ์ที่เป็นนามธรรม
- ❌ ปริศนา Emoji Mystery: Grok-3 ดิ้นรนที่จะถอดรหัสข้อความที่ซ่อนอยู่ในตัวเลือกรูปแบบ Unicode แม้จะมีคำแนะนำโค้ด Rust ก็ตาม DeepSeek-R1 แก้ปัญหานี้ได้บางส่วน ซึ่งแสดงให้เห็นถึงพื้นที่สำหรับการปรับปรุงในการใช้เหตุผลเชิงเข้ารหัส
- ✅ การประมาณการคำนวณ: เมื่อประมาณการ FLOPs การฝึกอบรมของ GPT-2—งานที่ต้องมีการประมาณการจำนวนโทเค็นและการคำนวณทางคณิตศาสตร์—Grok-3 ที่มีโหมด "Think" ให้การคำนวณที่แม่นยำ (~1e21 FLOPs) GPT-4o ล้มเหลวในเรื่องนี้โดยสิ้นเชิง ในขณะที่ o1-pro ให้ผลลัพธ์ที่ไม่สอดคล้องกัน
คุณสมบัติที่โดดเด่นคือความเต็มใจของ Grok-3 ที่จะรับมือกับปัญหาที่ยังไม่ได้รับการแก้ไข ซึ่งแตกต่างจาก Claude หรือ Gemini ซึ่งปฏิเสธ สมมติฐานของ Riemann ทันทีว่าอยู่นอกเหนือขอบเขตของพวกเขา Grok-3 พยายามใช้เหตุผลทีละขั้นตอนอย่างกล้าหาญก่อนที่จะยอมรับข้อจำกัด—ลักษณะนิสัยที่ DeepSeek-R1 มีร่วมกัน
2. ทดลองใช้ Deep Research กับ Grok-3
คุณสมบัติ DeepSearch ผสมผสานการวิจัยทางเว็บเข้ากับการใช้เหตุผลแบบมีโครงสร้าง คล้ายกับ Deep Research ของ OpenAI และ DeepResearch ของ Perplexity การทดสอบในช่วงแรกเผยให้เห็น:
- ✅ เหตุการณ์ปัจจุบัน: คำค้นหาเช่น "เกิดอะไรขึ้นกับการเปิดตัว Apple ที่กำลังจะมาถึง? มีข่าวลืออะไรบ้าง?" ให้ผลลัพธ์โดยละเอียด พร้อมการอ้างอิงเกี่ยวกับแว่นตา AR และคุณสมบัติ iOS 19 ที่คาดการณ์ไว้
- ✅ คำค้นหาเฉพาะกลุ่ม: "ยาสีฟันอะไรที่ Bryan Johnson ใช้?" ให้คำตอบที่แม่นยำ (ผลิตภัณฑ์จาก Hydroxyapatite) แม้ว่าจะไม่ได้อ้างอิงแหล่งที่มาเสมอไป
- ❌ ข้อจำกัดด้านวัฒนธรรมป๊อป: "Singles Inferno Season 4 cast: พวกเขาอยู่ที่ไหนตอนนี้?" นำไปสู่ภาพหลอน รวมถึงการกล่าวอ้างเท็จเกี่ยวกับความสัมพันธ์ของนักแสดง ในทำนองเดียวกัน การสอบถามเกี่ยวกับความชอบในการแปลงคำพูดเป็นข้อความของ Simon Willison ได้ให้คำตอบที่ไม่สมบูรณ์
ในขณะที่ DeepSearch ตรงกับ Perplexity ในวงกว้าง มันตามหลังข้อเสนอของ OpenAI ในด้านความน่าเชื่อถือ URL ที่หลอนและการละเว้นการอ้างอิงตนเอง (เช่น การไม่รวม xAI จากรายการห้องปฏิบัติการ LLM หลัก) เน้นย้ำถึงความต้องการในการปรับปรุงอย่างต่อเนื่อง
3. การทดสอบ Edge Cases และคำค้นหา "Gotcha"
ประสิทธิภาพของ Grok-3 ในปริศนาแปลกๆ ที่มนุษย์ทำได้ง่ายเผยให้เห็นทั้งจุดแข็งและความแปลก:
- ✅ ความท้าทายด้านภาษาศาสตร์: มันระบุ "r" สามตัวใน "strawberry" ได้อย่างถูกต้อง แต่ในตอนแรกนับ "L" ใน "LOLLAPALOOZA" ผิด การเปิดใช้งานโหมด "Think" แก้ไขปัญหานี้ได้
- ✅ การเปรียบเทียบเชิงตัวเลข: ในตอนแรก โมเดลอ้างว่า 9.11 > 9.9—ข้อผิดพลาด LLM ทั่วไป—แต่แก้ไขตัวเองด้วยการเปิดใช้งานการใช้เหตุผล
- ✅ ปริศนาครอบครัว: แก้ปัญหา "Sally มีพี่ชาย 3 คน พี่ชายแต่ละคนมีน้องสาว 2 คน Sally มีน้องสาวกี่คน?" ทันที ซึ่งแตกต่างจาก GPT-4o ซึ่งมักจะตอบผิด
- ❌ การสร้างอารมณ์ขัน: มุกตลกเช่น "ทำไมไก่ถึงเข้าร่วมวงดนตรี? เพื่อเป็นดาวเด่น!" สะท้อนให้เห็นถึงปัญหาโหมดล่มสลายอย่างต่อเนื่อง โดยมีหรือไม่มีโหมด "Think"
- ❌ ความละเอียดอ่อนทางจริยธรรม: เมื่อถูกถามว่าการระบุเพศผิดสามารถทำได้เพื่อช่วยชีวิตหรือไม่ Grok-3 จะปฏิเสธอย่างละเอียด—ซึ่งแตกต่างจากกรอบจริยธรรมที่กระชับของ Claude
- ❌ การสร้าง SVG: คำขอสำหรับ "นกกระทุงขี่จักรยาน" SVG สร้างแขนขาและล้อที่ไม่ต่อเนื่องกัน แม้ว่าผลลัพธ์ของ Claude จะยังคงเหนือกว่าในกลุ่มนี้
สรุป: ตำแหน่งของ Grok-3 ในวงการ AI
Grok-3 แสดงถึงการเปลี่ยนแปลงครั้งใหญ่ในความเร็วในการพัฒนา AI เปิดตัวเพียง 17 เดือนหลังจากรุ่นก่อนหน้า มันตรงหรือเกินกว่าโมเดลที่ทันสมัย เช่น o1-pro ในด้านการใช้เหตุผลและการเขียนโค้ด ในขณะที่ลดราคาลง จุดเด่นที่สำคัญ ได้แก่:
- ความโดดเด่นของเกณฑ์มาตรฐาน: คะแนนที่ไม่เคยมีมาก่อนในเกณฑ์มาตรฐานคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ด ทำให้ Grok-3 เป็นผู้นำในด้านความสามารถดิบ
- ยูทิลิตี้เชิงปฏิบัติ: จุดแข็งในการประมาณการคำนวณ การสร้างโค้ด และการแก้ปัญหาที่ซับซ้อน ทำให้เป็นเครื่องมือที่มีประสิทธิภาพสำหรับนักพัฒนาและนักวิจัย
- พื้นที่สำหรับการเติบโต: ภาพหลอนใน DeepSearch และความไม่สอดคล้องกันในคำตอบด้านอารมณ์ขัน/จริยธรรมเน้นพื้นที่ที่ต้องการการปรับปรุง
ด้วย xAI ที่วางแผนจะเปิดเผย Grok-2 แบบโอเพนซอร์สและขยายความสามารถด้านเสียงและตัวแทนของ Grok-3 โมเดลนี้พร้อมที่จะปรับเปลี่ยนอุตสาหกรรมต่างๆ ตั้งแต่เกมไปจนถึงการวิจัยทางวิทยาศาสตร์ แม้ว่าจะไม่สมบูรณ์แบบ แต่การขึ้นสู่จุดสูงสุดอย่างรวดเร็วก็ส่งสัญญาณถึงยุคใหม่ของการแข่งขันใน AI เชิงกำเนิด—ยุคที่ความคล่องตัวและพลังการคำนวณจะกำหนดนิยามใหม่ของสิ่งที่เป็นไปได้