วิศวกรของ DeepSeek ได้เปิดตัว DeepSeek-V3.1-Terminus ซึ่งเป็นการปรับปรุงเพิ่มเติมจากโมเดล V3.1 ของพวกเขา โดยแก้ไขปัญหาที่ผู้ใช้รายงานพร้อมทั้งเสริมสร้างจุดแข็งหลัก เวอร์ชันนี้มุ่งเน้นไปที่การปรับปรุงเชิงปฏิบัติที่นักพัฒนาให้ความสำคัญในการใช้งานจริง เช่น ผลลัพธ์ภาษาที่สอดคล้องกันและฟังก์ชันการทำงานของเอเจนต์ที่แข็งแกร่ง ในขณะที่โมเดล AI พัฒนาไป ทีมงานเช่น DeepSeek ให้ความสำคัญกับการปรับปรุงที่เพิ่มความน่าเชื่อถือโดยไม่ต้องรื้อโครงสร้างพื้นฐาน ด้วยเหตุนี้ DeepSeek-V3.1-Terminus จึงกลายเป็นเครื่องมือที่ได้รับการขัดเกลาสำหรับงานต่างๆ ตั้งแต่การสร้างโค้ดไปจนถึงการให้เหตุผลที่ซับซ้อน
การเปิดตัวครั้งนี้ตอกย้ำความมุ่งมั่นของ DeepSeek ในการสร้างสรรค์นวัตกรรมโอเพนซอร์ส ปัจจุบันโมเดลนี้อยู่บน Hugging Face ทำให้สามารถเข้าถึงเพื่อทดลองใช้งานได้ทันที วิศวกรได้พัฒนาต่อยอดจากฐาน V3.1 โดยแนะนำการปรับปรุงเล็กน้อยที่ช่วยเพิ่มประสิทธิภาพในการทดสอบมาตรฐานต่างๆ ผลที่ได้คือ ผู้ใช้จะประสบปัญหาลดลง เช่น การตอบกลับที่ปะปนระหว่างภาษาจีนและอังกฤษ หรือตัวอักษรที่ไม่สอดคล้องกัน ซึ่งเคยเป็นอุปสรรคต่อการโต้ตอบที่ราบรื่นในอดีต
ทำความเข้าใจสถาปัตยกรรมของ DeepSeek-V3.1-Terminus
สถาปนิกของ DeepSeek ออกแบบ DeepSeek-V3.1-Terminus ด้วยเฟรมเวิร์ก Mixture of Experts (MoE) แบบไฮบริด ซึ่งสะท้อนโครงสร้างของรุ่นก่อนหน้า DeepSeek-V3. แนวทางนี้รวมส่วนประกอบแบบหนาแน่นและแบบเบาบางเข้าด้วยกัน ทำให้โมเดลสามารถเปิดใช้งานผู้เชี่ยวชาญที่เกี่ยวข้องสำหรับงานเฉพาะเท่านั้น ด้วยเหตุนี้ จึงบรรลุประสิทธิภาพสูง โดยประมวลผลคำค้นหาด้วยค่าใช้จ่ายในการคำนวณที่ลดลงเมื่อเทียบกับโมเดลแบบหนาแน่นเต็มรูปแบบ

โดยหลักแล้ว โมเดลนี้มีพารามิเตอร์ 6.85 แสนล้านตัว กระจายอยู่ในโมดูลผู้เชี่ยวชาญ วิศวกรใช้ประเภทเทนเซอร์ BF16, F8_E4M3 และ F32 สำหรับพารามิเตอร์เหล่านี้ เพื่อเพิ่มประสิทธิภาพทั้งความแม่นยำและความเร็ว อย่างไรก็ตาม ปัญหาที่สังเกตได้คือการฉายภาพผลลัพธ์ self-attention ไม่ได้ปฏิบัติตามรูปแบบมาตราส่วน UE8M0 FP8 อย่างสมบูรณ์ ซึ่ง DeepSeek วางแผนที่จะแก้ไขในการปรับปรุงครั้งต่อไป ข้อบกพร่องเล็กน้อยนี้ไม่ได้ลดทอนฟังก์ชันการทำงานโดยรวมลงอย่างมีนัยสำคัญ แต่เน้นย้ำถึงลักษณะการพัฒนาโมเดลที่เป็นแบบวนซ้ำ
ยิ่งไปกว่านั้น DeepSeek-V3.1-Terminus ยังรองรับทั้งโหมดการคิด (thinking mode) และโหมดไม่คิด (non-thinking mode) ในโหมดการคิด โมเดลจะใช้การให้เหตุผลแบบหลายขั้นตอน โดยอาศัยตรรกะภายในเพื่อจัดการกับปัญหาที่ซับซ้อน ในทางตรงกันข้าม โหมดไม่คิดจะให้ความสำคัญกับการตอบสนองอย่างรวดเร็วสำหรับคำถามที่ไม่ซับซ้อน การทำงานแบบสองโหมดนี้มาจากการฝึกอบรมเพิ่มเติมบนจุดตรวจสอบ V3.1-Base ที่ขยายออกไป ซึ่งรวมวิธีการขยายบริบทแบบยาวสองขั้นตอน นักพัฒนาได้รวบรวมเอกสารยาวเพิ่มเติมเพื่อเสริมชุดข้อมูล ขยายระยะการฝึกอบรมเพื่อการจัดการบริบทที่ดีขึ้น
การปรับปรุงที่สำคัญใน DeepSeek-V3.1-Terminus เหนือเวอร์ชันก่อนหน้า
วิศวกรของ DeepSeek ได้ปรับปรุง DeepSeek-V3.1-Terminus โดยนำข้อเสนอแนะจากการเปิดตัว V3.1 มาแก้ไข ซึ่งส่งผลให้เกิดการปรับปรุงที่เห็นได้ชัดเจน โดยหลักแล้ว พวกเขาลดความไม่สอดคล้องกันของภาษา ขจัดปัญหาการปะปนระหว่างภาษาจีนและอังกฤษบ่อยครั้ง รวมถึงตัวอักษรที่ผิดปกติซึ่งเคยสร้างปัญหาในผลลัพธ์ก่อนหน้า การเปลี่ยนแปลงนี้ช่วยให้มั่นใจได้ถึงการตอบสนองที่สะอาดและเป็นมืออาชีพมากขึ้น โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีหลายภาษา
นอกจากนี้ การอัปเกรดเอเจนต์ยังโดดเด่นในฐานะความก้าวหน้าครั้งสำคัญ Code Agents สามารถจัดการงานการเขียนโปรแกรมได้อย่างแม่นยำยิ่งขึ้น ในขณะที่ Search Agents ปรับปรุงประสิทธิภาพการดึงข้อมูล การปรับปรุงเหล่านี้เกิดจากข้อมูลการฝึกอบรมที่ละเอียดขึ้นและเทมเพลตที่อัปเดต ทำให้โมเดลสามารถผสานรวมเครื่องมือได้อย่างราบรื่นยิ่งขึ้น

การเปรียบเทียบมาตรฐานแสดงให้เห็นถึงการปรับปรุงเหล่านี้ในเชิงปริมาณ ตัวอย่างเช่น ในโหมดการให้เหตุผลโดยไม่ใช้เครื่องมือ คะแนน MMLU-Pro เพิ่มขึ้นจาก 84.8 เป็น 85.0 และ GPQA-Diamond ปรับปรุงจาก 80.1 เป็น 80.7 Humanity's Last Exam มีการกระโดดที่สำคัญจาก 15.9 เป็น 21.7 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งขึ้นในการประเมินที่ท้าทาย LiveCodeBench ยังคงมีเสถียรภาพเกือบเท่าเดิมที่ 74.9 โดยมีการผันผวนเล็กน้อยใน Codeforces และ Aider-Polyglot
เมื่อเปลี่ยนไปใช้การใช้เครื่องมือแบบเอเจนต์ โมเดลก็ยังคงโดดเด่นยิ่งขึ้น BrowseComp เพิ่มขึ้นจาก 30.0 เป็น 38.5 และ SimpleQA เพิ่มขึ้นจาก 93.4 เป็น 96.8 SWE Verified ก้าวหน้าไปที่ 68.4 จาก 66.0, SWE-bench Multilingual ไปที่ 57.8 จาก 54.5 และ Terminal-bench ไปที่ 36.7 จาก 31.3 แม้ว่า BrowseComp-zh จะลดลงเล็กน้อย แต่แนวโน้มโดยรวมบ่งชี้ถึงความน่าเชื่อถือที่เหนือกว่า
ยิ่งไปกว่านั้น DeepSeek-V3.1-Terminus ยังบรรลุผลเหล่านี้โดยไม่ลดทอนความเร็ว มันตอบสนองได้เร็วกว่าคู่แข่งบางราย ในขณะที่ยังคงรักษาคุณภาพเทียบเท่ากับ DeepSeek-R1 ในการทดสอบมาตรฐานที่ยากลำบาก ความสมดุลนี้เกิดจากการฝึกอบรมเพิ่มเติมที่ได้รับการปรับปรุง ซึ่งรวมข้อมูลบริบทแบบยาวเพื่อการสรุปผลที่ดีขึ้น
การทดสอบมาตรฐานประสิทธิภาพและการประเมินสำหรับ DeepSeek-V3.1-Terminus
ผู้ประเมินได้ประเมิน DeepSeek-V3.1-Terminus ในเกณฑ์มาตรฐานที่หลากหลาย เผยให้เห็นจุดแข็งในการให้เหตุผลและการผสานรวมเครื่องมือ ในการให้เหตุผลแบบไม่ใช้เครื่องมือ โมเดลได้คะแนน 85.0 ใน MMLU-Pro ซึ่งแสดงให้เห็นถึงการเก็บรักษาความรู้ในวงกว้าง GPQA-Diamond ทำคะแนนได้ 80.7 ซึ่งบ่งชี้ถึงความเชี่ยวชาญในคำถามระดับบัณฑิตศึกษา
ยิ่งไปกว่านั้น Humanity's Last Exam ที่ 21.7 ยังเน้นย้ำถึงการจัดการหัวข้อที่ซับซ้อนได้ดีขึ้น การทดสอบมาตรฐานการเขียนโค้ด เช่น LiveCodeBench (74.9) และ Aider-Polyglot (76.1) แสดงให้เห็นถึงประโยชน์ในทางปฏิบัติ แม้ว่า Codeforces จะลดลงเหลือ 2046 ซึ่งชี้ให้เห็นถึงพื้นที่ที่ต้องปรับแต่งเพิ่มเติม
เมื่อเปลี่ยนไปสู่สถานการณ์แบบเอเจนต์ คะแนน 38.5 ของ BrowseComp สะท้อนถึงความสามารถในการนำทางเว็บที่ได้รับการปรับปรุง คะแนนเกือบสมบูรณ์แบบ 96.8 ของ SimpleQA ตอกย้ำความแม่นยำในการแก้ไขคำค้นหา ชุด SWE-bench รวมถึง Verified (68.4) และ Multilingual (57.8) ยืนยันความสามารถด้านวิศวกรรมซอฟต์แวร์ Terminal-bench ที่ 36.7 แสดงให้เห็นถึงความสามารถในการโต้ตอบกับบรรทัดคำสั่ง
เมื่อเปรียบเทียบกันแล้ว DeepSeek-V3.1-Terminus มีประสิทธิภาพเหนือกว่า V3.1 ในเกือบทุกตัวชี้วัด โดยได้เปรียบด้านต้นทุนถึง 68 เท่า โดยมีการแลกเปลี่ยนประสิทธิภาพเพียงเล็กน้อย มันทัดเทียมกับโมเดลแบบปิดในด้านประสิทธิภาพ ทำให้เหมาะสำหรับการใช้งานทางธุรกิจ
การผสานรวม DeepSeek-V3.1-Terminus กับ API และเครื่องมืออย่าง Apidog
นักพัฒนาสามารถผสานรวม DeepSeek-V3.1-Terminus ผ่าน API ที่เข้ากันได้กับ OpenAI ซึ่งช่วยให้การนำไปใช้งานง่ายขึ้น พวกเขาระบุ 'deepseek-chat' สำหรับโหมดไม่คิด หรือ 'deepseek-reasoner' สำหรับโหมดคิด

ในการเริ่มต้น ผู้ใช้จะสร้าง API key บนแพลตฟอร์ม DeepSeek ด้วย Apidog พวกเขาสามารถตั้งค่าสภาพแวดล้อมโดยการป้อน Base URL (https://api.deepseek.com) และจัดเก็บคีย์เป็นตัวแปร การตั้งค่านี้ช่วยอำนวยความสะดวกในการทดสอบการเติมข้อความแชทและการเรียกใช้ฟังก์ชัน
ยิ่งไปกว่านั้น Apidog ยังรองรับการดีบัก ทำให้นักพัฒนาสามารถตรวจสอบการตอบสนองได้อย่างมีประสิทธิภาพ สำหรับการเรียกใช้ฟังก์ชัน พวกเขากำหนดเครื่องมือในคำขอ ทำให้โมเดลสามารถเรียกใช้ฟังก์ชันภายนอกได้อย่างไดนามิก
ราคายังคงแข่งขันได้ที่ 1.68 ดอลลาร์ต่อล้านโทเค็นที่ส่งออก ซึ่งส่งเสริมการใช้งานอย่างแพร่หลาย การผสานรวมขยายไปถึงเฟรมเวิร์กเช่น Geneplore AI หรือ AI/ML API ซึ่งรองรับระบบหลายเอเจนต์
การเปรียบเทียบกับโมเดล AI คู่แข่ง
DeepSeek-V3.1-Terminus แข่งขันได้อย่างมีประสิทธิภาพกับโมเดลอย่าง DeepSeek-R1 โดยมีคุณภาพในการให้เหตุผลที่ทัดเทียมกันแต่ตอบสนองได้เร็วกว่า มันเหนือกว่า V3.1 ในการใช้เครื่องมือ โดย BrowseComp เพิ่มขึ้น 8.5 คะแนน
เมื่อเทียบกับตัวเลือกที่เป็นกรรมสิทธิ์ มันนำเสนอการเข้าถึงแบบโอเพนซอร์สและประสิทธิภาพด้านต้นทุน ตัวอย่างเช่น มันมีประสิทธิภาพใกล้เคียงกับระดับ Sonnet ในการทดสอบมาตรฐาน
ยิ่งไปกว่านั้น โหมดไฮบริดของมันยังให้ความหลากหลายที่ไม่มีในคู่แข่งบางราย ดังนั้นจึงดึงดูดนักพัฒนาที่คำนึงถึงงบประมาณที่กำลังมองหาคุณสมบัติที่แข็งแกร่ง
กลยุทธ์การปรับใช้สำหรับ DeepSeek-V3.1-Terminus
วิศวกรปรับใช้โมเดลในเครื่องโดยใช้ DeepSeek-V3 repo สำหรับคลาวด์ แพลตฟอร์มอย่าง AWS Bedrock เป็นผู้โฮสต์
โค้ดการอนุมานที่ได้รับการปรับปรุงใน repository ช่วยในการตั้งค่า ดังนั้น ความสามารถในการปรับขนาดจึงเหมาะกับสภาพแวดล้อมที่หลากหลาย
คุณสมบัติขั้นสูง: การเรียกใช้ฟังก์ชันและการผสานรวมเครื่องมือ
นักพัฒนาใช้การเรียกใช้ฟังก์ชันโดยการกำหนด schema ในคำขอ API ซึ่งช่วยให้เกิดการโต้ตอบแบบไดนามิก เช่น การสอบถามฐานข้อมูล
Apidog ช่วยในการทดสอบคุณสมบัติเหล่านี้ เพื่อให้มั่นใจถึงการผสานรวมที่แข็งแกร่ง
การวิเคราะห์ต้นทุนและเคล็ดลับการเพิ่มประสิทธิภาพ
ด้วยต้นทุนต่อโทเค็นที่ต่ำ DeepSeek-V3.1-Terminus มอบคุณค่า เพิ่มประสิทธิภาพโดยการเลือกโหมดอย่างชาญฉลาด—ใช้โหมดไม่คิดสำหรับงานง่ายๆ
ตรวจสอบการใช้งานผ่าน Apidog เพื่อจัดการค่าใช้จ่ายได้อย่างมีประสิทธิภาพ
ข้อเสนอแนะจากผู้ใช้และการตอบรับจากชุมชน
ผู้ใช้ต่างชื่นชมการเปิดตัว โดยสังเกตเห็นถึงความเสถียรที่เพิ่มขึ้น บางคนคาดหวัง V4 ซึ่งสะท้อนถึงความคาดหวังที่สูง
ฟอรัมอย่าง Reddit เต็มไปด้วยการสนทนาเกี่ยวกับจุดแข็งของเอเจนต์
บทสรุป: การนำ DeepSeek-V3.1-Terminus มาใช้ในการพัฒนา AI
DeepSeek-V3.1-Terminus ปรับปรุงความสามารถของ AI โดยนำเสนอเครื่องมือที่ทรงพลังและมีประสิทธิภาพแก่นักพัฒนา การปรับปรุงในส่วนของเอเจนต์และภาษาเปิดทางสำหรับการประยุกต์ใช้ที่เป็นนวัตกรรมใหม่ เมื่อทีมงานนำไปใช้ โมเดลก็จะยังคงพัฒนาต่อไป โดยได้รับแรงผลักดันจากข้อมูลจากชุมชน