Moonshot AI ได้เปิดตัว Kimi-Dev-72B ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่ทรงพลัง ซึ่งออกแบบมาสำหรับงานด้านวิศวกรรมซอฟต์แวร์ โมเดลนี้มีอัตราการแก้ไขปัญหา (resolve rate) สูงถึง 60.4% บน SWE-bench Verified ซึ่งเป็นระดับที่ล้ำสมัยและเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ สำหรับนักพัฒนาและนักวิจัย Kimi-Dev-72B นำเสนอเครื่องมือที่แข็งแกร่งเพื่อปรับปรุงการเขียนโค้ด การแก้ไขปัญหา และการทำให้กระบวนการพัฒนาซอฟต์แวร์เป็นอัตโนมัติ
Kimi-Dev-72B คืออะไร?
Kimi-Dev-72B เป็น LLM สำหรับการเขียนโค้ดที่มีพารามิเตอร์ 7.2 หมื่นล้านตัว พัฒนาโดย Moonshot AI ซึ่งเป็นบริษัทในกรุงปักกิ่งที่มุ่งเน้นการพัฒนาปัญญาประดิษฐ์ผ่านนวัตกรรมโอเพนซอร์ส แตกต่างจาก LLM ทั่วไป Kimi-Dev-72B เชี่ยวชาญในงานด้านวิศวกรรมซอฟต์แวร์ เช่น การแก้ไขข้อบกพร่อง (bug fixing) การสร้างโค้ด และการสร้าง unit test Moonshot AI ได้เผยแพร่โมเดลนี้ภายใต้ MIT License ทำให้สามารถเข้าถึงได้ฟรีบนแพลตฟอร์มอย่าง Hugging Face และ GitHub ด้วยเหตุนี้ นักพัฒนาทั่วโลกจึงสามารถดาวน์โหลด นำไปใช้งาน และมีส่วนร่วมในการพัฒนาโมเดลนี้ได้ ซึ่งส่งเสริมระบบนิเวศการทำงานร่วมกัน

โมเดลนี้ใช้สถาปัตยกรรมแบบ transformer ซึ่งได้รับการปรับปรุงให้เหมาะสมผ่านการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning - RL) ขนาดใหญ่ และการฝึกฝนกลางทาง (mid-training) ด้วยข้อมูลคุณภาพสูงจากโลกจริงประมาณ 1.5 แสนล้านโทเค็น รวมถึง GitHub issues และ pull request commits แนวทางนี้ช่วยให้ Kimi-Dev-72B มีความโดดเด่นในสถานการณ์การเขียนโค้ดจริง และสอดคล้องกับมาตรฐานอุตสาหกรรม ตัวอย่างเช่น ความสามารถในการแก้ไข repository ในสภาพแวดล้อม Docker ได้ด้วยตนเอง และตรวจสอบความถูกต้องของโซลูชันเทียบกับชุดทดสอบเต็มรูปแบบ ทำให้โมเดลนี้แตกต่างจากคู่แข่ง
สถาปัตยกรรมทางเทคนิคของ Kimi-Dev-72B
การออกแบบแบบคู่: BugFixer และ TestWriter
หัวใจหลักของ Kimi-Dev-72B คือเฟรมเวิร์กแบบสองส่วนประกอบ: BugFixer และ TestWriter ส่วนประกอบเหล่านี้ทำงานร่วมกันเพื่อแก้ไขปัญหาทางวิศวกรรมซอฟต์แวร์ BugFixer จะระบุและแก้ไขปัญหาโค้ด ในขณะที่ TestWriter จะสร้าง unit test เพื่อตรวจสอบความถูกต้องของการแก้ไข ส่วนประกอบทั้งสองปฏิบัติตามกระบวนการสองขั้นตอน: การระบุตำแหน่งไฟล์ (File Localization) และการแก้ไขโค้ด (Code Edits) ในระหว่างขั้นตอน File Localization โมเดลจะระบุไฟล์ที่เกี่ยวข้องใน repository ต่อมา ในขั้นตอน Code Edits โมเดลจะทำการเปลี่ยนแปลงที่แม่นยำ ไม่ว่าจะเป็นการแก้ไขข้อบกพร่องหรือการเพิ่มฟังก์ชันทดสอบ
การออกแบบแบบคู่นี้ช่วยเพิ่มประสิทธิภาพ ตัวอย่างเช่น BugFixer ช่วยให้มั่นใจว่าการแก้ไขผ่าน unit test ในขณะที่ TestWriter สร้างการทดสอบที่ทำให้เกิด assertion error สำหรับข้อบกพร่อง และผ่านเมื่อมีการแก้ไข ด้วยการรวมบทบาทเหล่านี้เข้าด้วยกัน Kimi-Dev-72B จึงมีประสิทธิภาพที่แข็งแกร่งในงานเขียนโค้ดที่ซับซ้อน เช่น การแก้ไข GitHub issues โดยมีการแทรกแซงจากมนุษย์น้อยที่สุด
การฝึกฝนกลางทางและกลยุทธ์ข้อมูล
ในการสร้าง Kimi-Dev-72B นั้น Moonshot AI เริ่มต้นด้วยโมเดลพื้นฐาน Qwen 2.5-72B และปรับปรุงให้ดีขึ้นผ่านการฝึกฝนกลางทางด้วยชุดข้อมูลที่คัดสรรมาอย่างดี ชุดข้อมูลนี้ประกอบด้วย GitHub issues และ pull requests นับล้านรายการ ทำให้โมเดลสามารถเรียนรู้วิธีที่นักพัฒนาซอฟต์แวร์ใช้ในการแก้ไขปัญหาการเขียนโค้ด การทำความสะอาดข้อมูลอย่างเข้มงวดช่วยให้มั่นใจได้ว่าไม่มีการทับซ้อนกับ repository ใน SWE-bench Verified ซึ่งรักษาความสมบูรณ์ของการประเมิน
ขั้นตอนการฝึกฝนกลางทาง ซึ่งเกี่ยวข้องกับโทเค็นประมาณ 1.5 แสนล้านโทเค็น ช่วยเสริมความรู้เดิมของ Kimi-Dev-72B เกี่ยวกับการแก้ไขข้อบกพร่องและการสร้าง unit test นอกจากนี้ การปรับจูนแบบมีผู้ดูแล (Supervised Fine-Tuning - SFT) ช่วยปรับปรุงความสามารถในการระบุตำแหน่งไฟล์ ทำให้โมเดลสามารถสำรวจ codebase ขนาดใหญ่ได้อย่างแม่นยำ แนวทางที่ขับเคลื่อนด้วยข้อมูลนี้เป็นพื้นฐานของความสามารถของโมเดลในการจัดการงานวิศวกรรมซอฟต์แวร์ในโลกจริงได้อย่างมีประสิทธิภาพ
การเรียนรู้แบบเสริมกำลังและ Test-Time Self-Play
ประสิทธิภาพของ Kimi-Dev-72B ได้รับประโยชน์อย่างมากจากการเรียนรู้แบบเสริมกำลังขนาดใหญ่ ในระหว่างการฝึกฝน RL โมเดลจะจัดการกับงานแก้ไขปัญหาหลายพันรายการ โดยได้รับรางวัลก็ต่อเมื่อชุดทดสอบทั้งหมดผ่านเท่านั้น กระบวนการที่เข้มงวดนี้ช่วยให้มั่นใจได้ว่าการแก้ไขที่สร้างขึ้นนั้นถูกต้องและแข็งแกร่ง นอกจากนี้ Kimi-Dev-72B ยังใช้กลไก test-time self-play ซึ่ง BugFixer และ TestWriter ทำงานร่วมกันเพื่อสร้างผู้สมัครแก้ไข (patch candidates) ได้สูงสุด 40 รายการ และผู้สมัครทดสอบ (test candidates) ได้สูงสุด 40 รายการต่อปัญหา แนวทางแบบวนซ้ำนี้ช่วยเพิ่มความแม่นยำ เนื่องจากโมเดลจะปรับปรุงผลลัพธ์ของตนเองผ่านการประเมินตนเอง
ไปป์ไลน์ RL ใช้ประโยชน์จากโครงสร้างพื้นฐาน agent ภายในที่ปรับขนาดได้ของ Moonshot AI ซึ่งช่วยให้การฝึกฝนมีประสิทธิภาพในงานที่หลากหลาย ด้วยเหตุนี้ Kimi-Dev-72B จึงมีอัตราการแก้ไขปัญหาถึง 60.4% บน SWE-bench Verified ซึ่งแซงหน้าผู้นำโอเพนซอร์สรายก่อนหน้า และใกล้เคียงกับประสิทธิภาพของโมเดลแบบปิด (closed-source) เช่น Gemini 2.5 Pro

ตัวชี้วัดประสิทธิภาพและผลการทดสอบมาตรฐาน
Kimi-Dev-72B สร้างมาตรฐานใหม่สำหรับ LLM การเขียนโค้ดแบบโอเพนซอร์ส บน SWE-bench Verified ซึ่งเป็นกรอบการประเมินที่เข้มงวดสำหรับงานวิศวกรรมซอฟต์แวร์ โมเดลนี้มีอัตราการแก้ไขปัญหาถึง 60.4% ซึ่งเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ และตามหลังเพียงโมเดลแบบปิดระดับสูงเท่านั้น ตัวชี้วัดนี้สะท้อนถึงความสามารถของโมเดลในการแก้ไขปัญหาการเขียนโค้ดในโลกจริง เช่น ข้อบกพร่องใน open-source repository ด้วยความแม่นยำสูง

เพื่อเปรียบเทียบ โพสต์บน X เน้นย้ำถึงความโดดเด่นของ Kimi-Dev-72B โดยระบุว่ามีความสามารถในการ "มีประสิทธิภาพเหนือกว่าโมเดลที่มีขนาดใหญ่กว่า 10 เท่า" และให้ผลลัพธ์ "ตามหลัง Gemini 2.5 Pro เพียงเล็กน้อย" อย่างไรก็ตาม การทดลองบางอย่างในชุมชน เช่น การใช้ OpenHands รายงานความแม่นยำที่ต่ำกว่า (17%) เนื่องจากความแตกต่างระหว่าง agentic และ agentless evaluation harnesses ความคลาดเคลื่อนนี้เน้นย้ำถึงความสำคัญของสภาพแวดล้อมการทดสอบที่เป็นมาตรฐานเพื่อให้แน่ใจว่าตัวชี้วัดประสิทธิภาพมีความสอดคล้องกัน
การใช้งานจริงของ Kimi-Dev-72B
การทำให้การพัฒนาซอฟต์แวร์เป็นอัตโนมัติ
Kimi-Dev-72B มีความโดดเด่นในการทำให้งานพัฒนาซอฟต์แวร์ที่ทำซ้ำๆ เป็นอัตโนมัติ ตัวอย่างเช่น สามารถสร้างโค้ด Python ที่สะอาดและมีเอกสารประกอบอย่างดีสำหรับข้อกำหนดที่ซับซ้อน เช่น การสร้างคลาสสำหรับ Aircraft ที่มีคุณสมบัติต่างๆ เช่น หมายเลขหาง (tail number) ประเภทเครื่องบิน (aircraft type) ความเร็วเดินทาง (cruising speed) และระยะบินสูงสุด (max range) โมเดลนี้มีการรวม type hints และ docstrings ซึ่งเป็นไปตามแนวทางปฏิบัติที่ดีที่สุดสำหรับคุณภาพโค้ด ความสามารถนี้ช่วยลดเวลาในการพัฒนาและลดข้อผิดพลาด ทำให้มีคุณค่าสำหรับทั้งนักพัฒนาซอฟต์แวร์มือใหม่และผู้มีประสบการณ์
นอกจากนี้ Kimi-Dev-72B ยังสามารถแก้ไข repository ในสภาพแวดล้อม Docker ได้ด้วยตนเอง ทำให้มั่นใจได้ถึงความเข้ากันได้กับเวิร์กโฟลว์ในโลกจริง ด้วยการตรวจสอบความถูกต้องของการแก้ไขเทียบกับชุดทดสอบเต็มรูปแบบ ทำให้รับประกันโซลูชันที่แข็งแกร่ง ทำให้เป็นเครื่องมือที่เชื่อถือได้สำหรับไปป์ไลน์ continuous integration and deployment (CI/CD)
การเพิ่มประสิทธิภาพการทำงานของนักพัฒนา
นักพัฒนาสามารถใช้ประโยชน์จาก Kimi-Dev-72B เพื่อปรับปรุงกระบวนการดีบักและทดสอบ ส่วนประกอบ TestWriter จะสร้าง unit test ที่สอดคล้องกับข้อกำหนดของโครงการ ซึ่งช่วยลดความพยายามด้วยตนเองที่จำเป็นเพื่อให้แน่ใจว่าโค้ดมีความน่าเชื่อถือ นอกจากนี้ ความสามารถของโมเดลในการประมวลผล codebase ขนาดใหญ่และระบุตำแหน่งไฟล์ยังช่วยเพิ่มประโยชน์ในการใช้งานในโครงการขนาดใหญ่ ซึ่งการสำรวจด้วยตนเองอาจใช้เวลานาน
ตัวอย่างเช่น นักพัฒนาที่ทำงานในโครงการ Python สามารถใช้ Kimi-Dev-72B เพื่อระบุและแก้ไขข้อบกพร่องในโมดูลที่เฉพาะเจาะจง โมเดลไม่เพียงแต่แนะนำไฟล์ที่ถูกต้อง แต่ยังให้การแก้ไขโค้ดที่แม่นยำ พร้อมด้วยความคิดเห็นอธิบาย คุณสมบัตินี้มีประโยชน์อย่างยิ่งสำหรับผู้มีส่วนร่วมในโอเพนซอร์สที่ต้องการแก้ไขปัญหาใน repository ที่ไม่คุ้นเคย
การสนับสนุนการวิจัยและนวัตกรรม
ในฐานะโมเดลโอเพนซอร์ส Kimi-Dev-72B สนับสนุนการมีส่วนร่วมของชุมชน ซึ่งส่งเสริมนวัตกรรมในการพัฒนาซอฟต์แวร์ที่ขับเคลื่อนด้วย AI นักวิจัยสามารถเข้าถึงน้ำหนัก (weights) ซอร์สโค้ด และรายงานทางเทคนิค (กำลังจะมีขึ้น) ของโมเดลได้บน Hugging Face และ GitHub ความโปร่งใสนี้ช่วยให้สามารถทดลองกับเทคนิคการฝึกฝนใหม่ๆ วิธีการปรับจูน และการใช้งาน เช่น การผสานรวม Kimi-Dev-72B เข้ากับ IDE หรือเครื่องมือ CI/CD เฉพาะทาง
นอกจากนี้ ความมุ่งมั่นของ Moonshot AI ต่อวิทยาศาสตร์แบบเปิดยังสอดคล้องกับเป้าหมายของชุมชน AI ในวงกว้าง ด้วยการเผยแพร่ Kimi-Dev-72B ภายใต้ MIT License บริษัทเชิญชวนนักพัฒนาและนักวิจัยให้ต่อยอดจากพื้นฐานนี้ ซึ่งอาจนำไปสู่ความก้าวหน้าในด้านต่างๆ เช่น การตรวจสอบโค้ดอัตโนมัติ และ AI-assisted pair programming
เริ่มต้นใช้งาน Kimi-Dev-72B
การติดตั้งและตั้งค่า
การนำ Kimi-Dev-72B ไปใช้งานนั้นตรงไปตรงมา ต้องขอบคุณที่มีให้ใช้งานบน Hugging Face และ GitHub ด้านล่างนี้คือคำแนะนำทีละขั้นตอนในการตั้งค่าโมเดลในเครื่องของคุณ:
โคลน Repository:
git clone https://github.com/MoonshotAI/Kimi-Dev.git
cd Kimi-Dev
สร้าง Virtual Environment:
conda create -n kimidev python=3.12
conda activate kimidev
ติดตั้ง Dependencies:
pip install -e .
pip install vllm --extra-index-url https://download.pytorch.org/whl/cu128
ดาวน์โหลดข้อมูลที่ประมวลผลแล้ว (ไม่บังคับ สำหรับงาน SWE-bench):
ดาวน์โหลดไฟล์ swebench_repo_structure.zip
จาก GitHub repository และแตกไฟล์เพื่อปรับปรุงกระบวนการประมวลผล repository
โหลดโมเดล:
ใช้โค้ด Python ต่อไปนี้เพื่อโหลด Kimi-Dev-72B และสร้างการตอบสนอง:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "moonshotai/Kimi-Dev-72B"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Write a Python function to calculate Fibonacci numbers."
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
การตั้งค่านี้ช่วยให้นักพัฒนาสามารถผสานรวม Kimi-Dev-72B เข้ากับเวิร์กโฟลว์ของตนได้ ไม่ว่าจะเป็นการสร้างโค้ด การดีบัก หรือการทดสอบ
การผสานรวม API กับ Apidog
เพื่อเพิ่มศักยภาพของ Kimi-Dev-72B ให้สูงสุด นักพัฒนาสามารถผสานรวมเข้ากับเวิร์กโฟลว์ที่ขับเคลื่อนด้วย API โดยใช้เครื่องมืออย่าง Apidog Apidog ช่วยให้การทดสอบ API การจัดทำเอกสาร และการตรวจสอบง่ายขึ้น ทำให้สามารถโต้ตอบกับความสามารถของ Kimi-Dev-72B ได้อย่างราบรื่น ตัวอย่างเช่น คุณสามารถสร้าง API endpoint เพื่อส่งคำถามเกี่ยวกับการเขียนโค้ดไปยังโมเดล และรับโค้ดที่สร้างขึ้นหรือการแก้ไขข้อบกพร่องแบบเรียลไทม์

ความท้าทายและข้อจำกัด
แม้ว่า Kimi-Dev-72B จะมีความโดดเด่นในหลายด้าน แต่ก็มีข้อจำกัด ประสิทธิภาพของโมเดลอาจแตกต่างกันไปขึ้นอยู่กับ evaluation harness ดังที่ระบุไว้ในความคิดเห็นของชุมชนบน X เฟรมเวิร์กแบบ Agentic ซึ่งเกี่ยวข้องกับการโต้ตอบแบบวนซ้ำ อาจให้ผลลัพธ์ที่แตกต่างกันเมื่อเทียบกับการตั้งค่าแบบ agentless ซึ่งเน้นย้ำถึงความจำเป็นในการใช้โปรโตคอลการทดสอบที่เป็นมาตรฐาน
นอกจากนี้ ขนาดพารามิเตอร์ 7.2 หมื่นล้านตัวของ Kimi-Dev-72B ต้องใช้ทรัพยากรคอมพิวเตอร์จำนวนมาก ซึ่งอาจจำกัดการเข้าถึงสำหรับนักพัฒนาที่มีฮาร์ดแวร์จำกัด Moonshot AI วางแผนที่จะแก้ไขปัญหานี้โดยการเพิ่มประสิทธิภาพเวอร์ชันในอนาคตเพื่อให้มีประสิทธิภาพมากขึ้น ซึ่งอาจทำได้ผ่านเทคนิค quantization เช่น Q4 หรือ FP8 ตามที่แนะนำในการอภิปรายของชุมชน
สรุป
Kimi-Dev-72B แสดงถึงความก้าวหน้าอย่างมีนัยสำคัญใน LLM การเขียนโค้ดแบบโอเพนซอร์ส อัตราการแก้ไขปัญหา 60.4% บน SWE-bench Verified ควบคู่ไปกับเฟรมเวิร์ก BugFixer และ TestWriter ที่เป็นนวัตกรรมใหม่ ทำให้โมเดลนี้เป็นเครื่องมือที่ทรงพลังสำหรับนักพัฒนาและนักวิจัย ด้วยการทำให้งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อนเป็นอัตโนมัติ การเพิ่มประสิทธิภาพการทำงาน และการส่งเสริมความร่วมมือในชุมชน Kimi-Dev-72B ปูทางไปสู่ยุคใหม่ของการพัฒนาที่ขับเคลื่อนด้วย AI
หากต้องการเริ่มต้นใช้งาน ดาวน์โหลด Kimi-Dev-72B จาก Hugging Face หรือ GitHub และสำรวจความสามารถของโมเดล สำหรับการผสานรวม API ที่ราบรื่น ลองใช้ Apidog เพื่อปรับปรุงเวิร์กโฟลว์ของคุณ ในขณะที่ Moonshot AI ยังคงสร้างสรรค์นวัตกรรมอย่างต่อเนื่อง Kimi-Dev-72B เป็นข้อพิสูจน์ถึงศักยภาพของ AI แบบโอเพนซอร์สในการเปลี่ยนแปลงการพัฒนาซอฟต์แวร์
