โลกของ Large Language Models (LLMs) ได้เติบโตขึ้นอย่างรวดเร็ว มักจะสร้างภาพของซูเปอร์คอมพิวเตอร์ขนาดใหญ่ที่ทำงานบนคลาวด์เพื่อผลิตข้อความออกมา แต่จะเป็นอย่างไรหากคุณสามารถควบคุมพลัง AI ที่สำคัญได้บนคอมพิวเตอร์ส่วนตัวของคุณเอง โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ตตลอดเวลาหรือเสียค่าสมัครบริการคลาวด์ราคาแพง? ความเป็นจริงที่น่าตื่นเต้นคือคุณทำได้ ต้องขอบคุณความก้าวหน้าในเทคนิคการปรับปรุงประสิทธิภาพ ทำให้เกิด "small local LLMs" สายพันธุ์ใหม่ขึ้นมา ซึ่งมอบความสามารถที่น่าทึ่ง ในขณะที่ยังสามารถทำงานได้ภายใต้ข้อจำกัดด้านหน่วยความจำของฮาร์ดแวร์สำหรับผู้บริโภคทั่วไป โดยเฉพาะอย่างยิ่ง ต้องการ RAM หรือ VRAM น้อยกว่า 8GB
ต้องการแพลตฟอร์มแบบครบวงจรสำหรับทีมพัฒนาของคุณเพื่อทำงานร่วมกันด้วยประสิทธิภาพสูงสุดใช่ไหม?
Apidog ตอบสนองความต้องการทั้งหมดของคุณ และแทนที่ Postman ในราคาที่เข้าถึงได้ง่ายกว่ามาก!
มาพูดถึง Quantization ของ LLM ก่อน
เพื่อใช้ประโยชน์จาก small local LLMs ได้อย่างมีประสิทธิภาพ การทำความเข้าใจแนวคิดทางเทคนิคที่สำคัญเป็นสิ่งจำเป็น การทำงานร่วมกันระหว่างส่วนประกอบฮาร์ดแวร์และเทคนิคการปรับปรุงประสิทธิภาพของโมเดลเป็นตัวกำหนดประสิทธิภาพและการเข้าถึง
จุดที่ผู้ใช้ใหม่มักสับสนคือความแตกต่างระหว่าง VRAM (Video RAM) และ system RAM VRAM เป็นหน่วยความจำพิเศษความเร็วสูงที่อยู่บนการ์ดจอ (GPU) โดยตรง มันถูกออกแบบมาโดยเฉพาะสำหรับงานประมวลผลแบบขนานที่รวดเร็วซึ่ง GPU ทำได้ดีเยี่ยม เช่น การเรนเดอร์กราฟิก หรือการคำนวณเมทริกซ์ขนาดใหญ่ที่เป็นหัวใจหลักของการอนุมานของ LLM ในทางตรงกันข้าม system RAM ทั่วไปจะช้ากว่า แต่โดยทั่วไปมีปริมาณมากกว่า ทำหน้าที่เป็นหน่วยความจำหลักสำหรับหน่วยประมวลผลกลาง (CPU) ของคอมพิวเตอร์และแอปพลิเคชันทั่วไป เพื่อให้ LLM ทำงานได้อย่างมีประสิทธิภาพ พารามิเตอร์ (weights) และการคำนวณระหว่างกลาง (activations) ของโมเดล ควรจะอยู่ใน VRAM ที่รวดเร็วทั้งหมด เพื่อให้ GPU สามารถเข้าถึงได้ทันทีและประมวลผลข้อมูลได้อย่างรวดเร็ว หากส่วนประกอบของโมเดลถูกบังคับให้อยู่ใน system RAM ที่ช้ากว่า กระบวนการอนุมานจะถูกขัดขวางอย่างมาก ทำให้เวลาตอบสนองช้าลงมาก
เทคโนโลยีที่เป็นหัวใจสำคัญที่ทำให้สามารถรันโมเดลภาษาขนาดใหญ่บนฮาร์ดแวร์สำหรับผู้บริโภคทั่วไปได้คือ quantization

กระบวนการนี้ช่วยลดปริมาณการใช้หน่วยความจำของ LLMs ลงอย่างมาก โดยการแทนค่าพารามิเตอร์ของโมเดลด้วยบิตที่น้อยลง เช่น การใช้จำนวนเต็ม 4 บิต หรือ 8 บิต แทนที่จะใช้ความแม่นยำแบบ floating-point 16 บิต หรือ 32 บิต ตามมาตรฐาน เทคนิคนี้ทำให้โมเดลที่มีพารามิเตอร์ 7 พันล้านตัว ซึ่งโดยทั่วไปอาจต้องการหน่วยความจำประมาณ 14GB ในรูปแบบ FP16 (ความแม่นยำเต็ม) สามารถทำงานได้โดยใช้หน่วยความจำเพียง 4-5GB โดยใช้ quantization แบบ 4 บิต การลดหน่วยความจำและภาระการคำนวณนี้ช่วยแก้ปัญหาอุปสรรคด้านต้นทุนฮาร์ดแวร์ที่สูงและการใช้พลังงาน ทำให้ความสามารถ AI ขั้นสูงสามารถเข้าถึงได้บนอุปกรณ์สำหรับผู้บริโภคทั่วไป
รูปแบบ GGUF ได้กลายเป็นมาตรฐานสำหรับการจัดเก็บและโหลดโมเดลแบบ quantized ที่ทำงานในเครื่อง โดยมีความเข้ากันได้กับ inference engines ต่างๆ ภายในระบบนิเวศของ GGUF มีประเภทของ quantization ที่แตกต่างกัน ซึ่งแต่ละประเภทมีการแลกเปลี่ยนที่แตกต่างกันระหว่างขนาดไฟล์ คุณภาพ และความเร็วในการอนุมาน สำหรับกรณีการใช้งานทั่วไปหลายอย่าง Q4_K_M มักจะถูกแนะนำ เนื่องจากเป็นการประนีประนอมที่สมดุลระหว่างคุณภาพและประสิทธิภาพด้านหน่วยความจำ แม้ว่า quantization จะมีประสิทธิภาพสูง แต่การลดบิตลงไปในระดับที่ต่ำมาก เช่น Q2_K หรือ IQ3_XS อาจนำไปสู่การลดลงของคุณภาพโมเดลที่สังเกตเห็นได้
สิ่งสำคัญที่ควรทราบคือ ความต้องการ VRAM หรือ RAM ที่แท้จริงสำหรับการรัน LLM นั้นสูงกว่าขนาดไฟล์ของโมเดลที่ถูก quantized เล็กน้อย เนื่องจากต้องใช้หน่วยความจำเพิ่มเติมในการจัดเก็บข้อมูลอินพุต (prompts และ context) และผลการคำนวณระหว่างกลาง (activations) โดยทั่วไป ค่าใช้จ่ายเพิ่มเติมนี้สามารถประมาณได้ที่ประมาณ 1.2 เท่าของขนาดพื้นฐานของโมเดล
เริ่มต้นใช้งาน Local LLMs และ Ollama
ระบบนิเวศสำหรับการรัน local LLMs มีความสมบูรณ์มากขึ้นอย่างเห็นได้ชัด โดยนำเสนอเครื่องมือที่หลากหลายซึ่งปรับให้เข้ากับความต้องการของผู้ใช้และความเชี่ยวชาญทางเทคนิคที่แตกต่างกัน แพลตฟอร์มเด่นสองแห่งมีความโดดเด่นในด้านความง่ายในการใช้งานและความสามารถที่แข็งแกร่ง

Ollama เป็นเครื่องมือที่ทรงพลังและมุ่งเน้นนักพัฒนา ออกแบบมาสำหรับการรัน LLMs ในเครื่องด้วยความเรียบง่ายและมีประสิทธิภาพ อินเทอร์เฟซหลักคือ command-line interface (CLI) ซึ่งช่วยให้ตั้งค่าและจัดการโมเดลได้อย่างตรงไปตรงมา Ollama โดดเด่นในด้านการบรรจุโมเดลในตัวและคุณสมบัติ "Modelfile" ซึ่งช่วยให้ผู้ใช้สามารถปรับแต่งโมเดลและรวมเข้ากับสคริปต์และแอปพลิเคชันต่างๆ ได้อย่างราบรื่น แพลตฟอร์มนี้มีน้ำหนักเบาและปรับปรุงประสิทธิภาพ ทำให้เหมาะสำหรับการติดตั้งที่รวดเร็วและทำซ้ำได้ในสภาพแวดล้อมการพัฒนาหรือเวิร์กโฟลว์อัตโนมัติ

สำหรับผู้ใช้ที่ชอบอินเทอร์เฟซแบบกราฟิก (GUI) LM Studio มักเป็นตัวเลือกหลัก มันนำเสนอแอปพลิเคชันบนเดสก์ท็อปที่ใช้งานง่าย พร้อมการออกแบบที่สะอาดตา อินเทอร์เฟซการแชทในตัว และระบบที่ใช้งานง่ายสำหรับการเรียกดูและดาวน์โหลดโมเดลในรูปแบบ GGUF โดยตรงจาก Hugging Face LM Studio ช่วยให้การจัดการโมเดลง่ายขึ้น ทำให้ผู้ใช้สามารถสลับระหว่าง LLMs ต่างๆ และปรับพารามิเตอร์ได้โดยตรงจากอินเทอร์เฟซผู้ใช้ การตอบสนองทางภาพที่ทันท่วงทีนี้มีประโยชน์อย่างยิ่งสำหรับผู้เริ่มต้นและผู้ใช้ที่ไม่ใช่ด้านเทคนิค ช่วยให้สามารถทดลองและทดสอบ prompt ได้อย่างรวดเร็วโดยไม่ต้องมีความรู้เรื่อง command-line
เครื่องมือที่ใช้งานง่ายหลายอย่าง รวมถึง LM Studio มักจะใช้ Llama.cpp เป็น inference engine พื้นฐาน Llama.cpp เป็น inference engine ประสิทธิภาพสูงที่เขียนด้วยภาษา C++ ซึ่งส่วนใหญ่ใช้รูปแบบ GGUF และรองรับการเร่งความเร็วทั้งบน CPU และ GPU
ส่วนที่เลือกต่อไปนี้เน้น small LLMs ที่มีความสามารถสูงสิบตัวที่สามารถรันในเครื่องบนระบบที่มี VRAM น้อยกว่า 8GB โดยนำเสนอความสมดุลระหว่างประสิทธิภาพ ความหลากหลาย และความมีประสิทธิภาพ ปริมาณการใช้หน่วยความจำที่ระบุไว้เน้นที่เวอร์ชัน GGUF ที่ถูก quantized ซึ่งได้รับการปรับให้เหมาะสมสำหรับฮาร์ดแวร์สำหรับผู้บริโภค
Small LLM ที่คุณสามารถสำรวจได้
Llama 3.1 8B (Quantized)
ollama run llama3.1:8b
Llama 3.1 8B ของ Meta เป็นโมเดลโอเพนซอร์สที่ได้รับการยกย่องอย่างสูง เป็นที่รู้จักในด้านประสิทธิภาพทั่วไปที่แข็งแกร่งและประสิทธิภาพด้านต้นทุนที่น่าประทับใจ เป็นส่วนหนึ่งของตระกูล Llama 3.1 ซึ่งได้รับประโยชน์จากการปรับปรุงข้อมูลการฝึกอบรมและเทคนิคการปรับปรุงประสิทธิภาพอย่างมาก รวมถึงการเพิ่มข้อมูลการฝึกอบรมขึ้นเจ็ดเท่า (มากกว่า 15 ล้านล้านโทเค็น) เมื่อเทียบกับรุ่นก่อนหน้า

แม้ว่าโมเดล 8B แบบเต็มมักจะต้องใช้ VRAM มากกว่า แต่เวอร์ชันที่ถูก quantized ในระดับที่ต่ำกว่าได้รับการออกแบบมาให้ทำงานได้ภายในขีดจำกัด VRAM/RAM 8GB ตัวอย่างเช่น quantization แบบ Q2_K มีขนาดไฟล์ 3.18 GB และต้องการหน่วยความจำประมาณ 7.20 GB ในทำนองเดียวกัน Q3_K_M (ไฟล์ 4.02 GB, หน่วยความจำที่ต้องการ 7.98 GB) เป็นตัวเลือกที่ใช้ได้สำหรับระบบที่มีหน่วยความจำจำกัด
Llama 3.1 8B มีความเป็นเลิศในด้านประสิทธิภาพ AI สำหรับการสนทนา ซึ่งวัดโดย AlpacaEval 2.0 Win Rate แสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการสร้างโค้ด (HumanEval Pass@1) การสรุปข้อความ (CNN/DailyMail Rouge-L-Sum สำหรับการประมวลผลรีวิวสินค้าและอีเมล) และงาน Retrieval-Augmented Generation (RAG) (MS Marco Rouge-L-Sum สำหรับการตอบคำถามที่แม่นยำและการสรุปผลการค้นหาด้วยภาษาธรรมชาติ) นอกจากนี้ยังมีประสิทธิภาพในการสร้างเอาต์พุตที่มีโครงสร้างจากข้อความ เช่น การดึงแนวคิดออกมาเป็น JSON payload และสำหรับการให้ภาพรวมของโค้ดสั้นๆ ประสิทธิภาพของมันทำให้เหมาะสำหรับการประมวลผลแบบกลุ่ม (batch processing) และเวิร์กโฟลว์แบบ agentic
Mistral 7B (Quantized)
ollama run mistral:7b
Mistral 7B เป็นโมเดล transformer แบบ dense ที่ได้รับการยกย่องอย่างกว้างขวางในด้านประสิทธิภาพ ความเร็ว และการใช้ VRAM ที่น้อย มันได้รวมเอาเทคนิคสถาปัตยกรรมขั้นสูง เช่น Grouped-Query Attention (GQA) และ Sliding Window Attention (SWA) เพื่อเพิ่มประสิทธิภาพ

โมเดลนี้ได้รับการปรับปรุงประสิทธิภาพอย่างสูงสำหรับสภาพแวดล้อมที่มี VRAM ต่ำ เวอร์ชันที่ถูก quantized เช่น Q4_K_M (ไฟล์ 4.37 GB, หน่วยความจำที่ต้องการ 6.87 GB) และ Q5_K_M (ไฟล์ 5.13 GB, หน่วยความจำที่ต้องการ 7.63 GB) สามารถทำงานได้สบายภายในงบประมาณ VRAM 8GB Mistral 7B เป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมาน AI ที่รวดเร็วและทำงานได้ด้วยตัวเอง รวมถึงแอปพลิเคชันแบบเรียลไทม์ที่ความหน่วงต่ำมีความสำคัญอย่างยิ่ง แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในด้านความรู้ทั่วไปและงานการให้เหตุผลแบบมีโครงสร้าง การใช้ VRAM ที่น้อยทำให้เหมาะสำหรับการติดตั้งบนอุปกรณ์ปลายทาง (edge device) มีประสิทธิภาพสำหรับการแชทแบบหลายรอบ และสามารถใช้ในโซลูชัน AI chatbot สำหรับการสอบถามทั่วไป ใบอนุญาต Apache 2.0 ของมันเป็นที่น่าพอใจอย่างยิ่งสำหรับกรณีการใช้งานเชิงพาณิชย์
Gemma 3:4b (Quantized)
ollama run gemma3:4b
โมเดล Gemma 3:4B parameter เป็นสมาชิกของตระกูล Gemma จาก Google DeepMind ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อประสิทธิภาพและสมรรถนะที่ทันสมัยในแพ็คเกจที่มีน้ำหนักเบา ปริมาณการใช้หน่วยความจำน้อยมาก ทำให้สามารถเข้าถึงได้ง่ายสำหรับฮาร์ดแวร์ที่หลากหลาย

ตัวอย่างเช่น quantization แบบ Q4_K_M มีขนาดไฟล์ 1.71 GB และแนะนำสำหรับระบบที่มี VRAM 4GB การใช้หน่วยความจำที่น้อยนี้ทำให้เป็นตัวเลือกที่เหมาะสมอย่างยิ่งสำหรับการสร้างต้นแบบและการติดตั้งอย่างรวดเร็วบนฮาร์ดแวร์ระดับล่างมาก รวมถึงอุปกรณ์พกพา Gemma 3:4B เหมาะสำหรับงานสร้างข้อความพื้นฐาน การตอบคำถาม และการสรุปข้อความ สามารถมีประสิทธิภาพสำหรับการดึงข้อมูลอย่างรวดเร็วและแอปพลิเคชัน Optical Character Recognition (OCR) แม้จะมีขนาดเล็ก แต่ Gemma 3:4B ก็แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง
Gemma 7B (Quantized)
ollama run gemma:7b
ในฐานะพี่น้องที่ใหญ่กว่าในตระกูล Gemma โมเดล 7B นำเสนอความสามารถที่เพิ่มขึ้น ในขณะที่ยังคงสามารถทำงานบนฮาร์ดแวร์สำหรับผู้บริโภคทั่วไปได้ มันแบ่งปันส่วนประกอบทางเทคนิคและโครงสร้างพื้นฐานกับโมเดล Gemini ที่ใหญ่กว่าของ Google ทำให้สามารถบรรลุประสิทธิภาพสูงได้โดยตรงบนแล็ปท็อปหรือคอมพิวเตอร์เดสก์ท็อปของนักพัฒนา

เวอร์ชันที่ถูก quantized ของ Gemma 7B เช่น Q5_K_M (ไฟล์ 6.14 GB) และ Q6_K (ไฟล์ 7.01 GB) สามารถทำงานได้สบายภายในขีดจำกัด VRAM 8GB โดยทั่วไปแล้วต้องการ system RAM อย่างน้อย 8GB เพื่อประสิทธิภาพสูงสุด Gemma 7B เป็นโมเดลที่หลากหลาย สามารถจัดการงานประมวลผลภาษาธรรมชาติได้หลากหลาย รวมถึงการสร้างข้อความ การตอบคำถาม การสรุปข้อความ และการให้เหตุผล แสดงให้เห็นถึงความสามารถในการสร้างและตีความโค้ด รวมถึงการจัดการคำถามทางคณิตศาสตร์ สถาปัตยกรรมของมันที่แบ่งปันกับโมเดล Gemini ที่ใหญ่กว่า ทำให้สามารถทำงานได้ประสิทธิภาพสูงบนแล็ปท็อปหรือคอมพิวเตอร์เดสก์ท็อปของนักพัฒนา ทำให้เป็นเครื่องมือที่มีคุณค่าสำหรับการสร้างเนื้อหา AI สำหรับการสนทนา และการสำรวจความรู้
Phi-3 Mini (3.8B, Quantized)
ollama run phi3
Phi-3 Mini ของ Microsoft เป็นโมเดลที่เบาและทันสมัย โดดเด่นด้วยประสิทธิภาพที่ยอดเยี่ยมและการมุ่งเน้นที่ความสามารถในการให้เหตุผลที่มีคุณภาพสูงและหนาแน่น โมเดลนี้ท้าทายแนวคิดดั้งเดิมที่ว่ามีเพียง LLMs ที่ใหญ่กว่าเท่านั้นที่สามารถจัดการงานที่ซับซ้อนได้อย่างมีประสิทธิภาพ Phi-3 Mini มีประสิทธิภาพด้านหน่วยความจำที่น่าทึ่ง ตัวอย่างเช่น quantization แบบ Q8_0 มีขนาดไฟล์ 4.06 GB และต้องการหน่วยความจำประมาณ 7.48 GB ซึ่งอยู่ในขีดจำกัด 8GB ได้อย่างสบาย

แม้แต่เวอร์ชัน FP16 (ความแม่นยำเต็ม) ก็มีขนาดไฟล์ 7.64 GB แม้ว่าจะต้องการหน่วยความจำ 10.82 GB Phi-3 Mini มีความเป็นเลิศในการทำความเข้าใจภาษา การให้เหตุผลเชิงตรรกะ การเขียนโค้ด และการแก้ปัญหาทางคณิตศาสตร์ ขนาดและการออกแบบที่กะทัดรัดทำให้เหมาะสำหรับสภาพแวดล้อมที่มีข้อจำกัดด้านหน่วยความจำ/การประมวลผล และสถานการณ์ที่ต้องการความหน่วงต่ำ รวมถึงการติดตั้งบนอุปกรณ์พกพา เหมาะอย่างยิ่งสำหรับ prompts ที่ส่งในรูปแบบการแชท และสามารถทำหน้าที่เป็นองค์ประกอบพื้นฐานสำหรับคุณสมบัติที่ขับเคลื่อนด้วย AI เชิงสร้างสรรค์
DeepSeek R1 7B/8B (Quantized)
ollama run deepseek-r1:7b
โมเดล DeepSeek รวมถึงรุ่น 7B และ 8B เป็นที่รู้จักในด้านความสามารถในการให้เหตุผลที่แข็งแกร่งและประสิทธิภาพในการคำนวณ รุ่น DeepSeek-R1-0528-Qwen3-8B ได้รับการเน้นย้ำว่าเป็นโมเดลการให้เหตุผลที่ดีที่สุดในขนาด 8B โดยได้รับการกลั่นมาจากโมเดลที่ใหญ่กว่าเพื่อให้ได้ประสิทธิภาพสูง quantization แบบ Q4_K_M ของ DeepSeek R1 7B มีขนาดไฟล์ 4.22 GB และต้องการหน่วยความจำประมาณ 6.72 GB

โมเดล DeepSeek R1 8B มีขนาดโมเดลทั่วไป 4.9 GB พร้อม VRAM ที่แนะนำ 6GB การกำหนดค่าเหล่านี้สามารถทำงานได้สบายภายในข้อจำกัด 8GB โมเดล DeepSeek มีความแข็งแกร่งในการทำความเข้าใจภาษาธรรมชาติ การสร้างข้อความ การตอบคำถาม และมีความเป็นเลิศเป็นพิเศษในการให้เหตุผลและการสร้างโค้ด การใช้ทรัพยากรการคำนวณที่ค่อนข้างต่ำทำให้เป็นตัวเลือกที่น่าสนใจสำหรับธุรกิจขนาดเล็กและขนาดกลาง (SMBs) และนักพัฒนาที่ต้องการติดตั้งโซลูชัน AI โดยไม่ต้องเสียค่าใช้จ่ายคลาวด์จำนวนมาก เหมาะสำหรับระบบสนับสนุนลูกค้าอัจฉริยะ การวิเคราะห์ข้อมูลขั้นสูง และการสร้างเนื้อหาอัตโนมัติ
Qwen 1.5/2.5 7B (Quantized)
ollama run qwen:7b
ซีรีส์ Qwen จาก Alibaba นำเสนอโมเดลที่หลากหลาย โดยรุ่น 7B ทำหน้าที่เป็นตัวหลักที่สมดุลสำหรับแอปพลิเคชัน AI ทั่วไป Qwen 1.5 ซึ่งถือเป็นเวอร์ชันเบต้าของ Qwen2 ให้การสนับสนุนหลายภาษาและความยาวบริบทที่เสถียร 32K โทเค็น

สำหรับปริมาณการใช้หน่วยความจำ quantization แบบ Q5_K_M ของ Qwen 1.5 7B มีขนาดไฟล์ 5.53 GB Qwen2.5 7B มีขนาดโมเดลทั่วไป 4.7 GB พร้อม VRAM ที่แนะนำ 6GB โมเดลเหล่านี้อยู่ในขีดจำกัด VRAM 8GB ได้อย่างสบาย โมเดล Qwen 7B มีความหลากหลาย เหมาะสำหรับ AI สำหรับการสนทนา การสร้างเนื้อหา งานการให้เหตุผลพื้นฐาน และการแปลภาษา โดยเฉพาะอย่างยิ่งโมเดล Qwen 7B Chat แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในการทำความเข้าใจภาษาจีนและอังกฤษ การเขียนโค้ด และคณิตศาสตร์ และรองรับ ReAct Prompting สำหรับการใช้งานเครื่องมือ ประสิทธิภาพของมันทำให้เหมาะสำหรับแชทบอทสนับสนุนลูกค้าและความช่วยเหลือด้านการเขียนโปรแกรมพื้นฐาน
Deepseek-coder-v2 6.7B (Quantized)
ollama run deepseek-coder-v2:6.7b
Deepseek-coder-v2 6.7B เป็นโมเดลเฉพาะทางจาก DeepSeek ที่ออกแบบมาอย่างพิถีพิถันสำหรับงานที่เกี่ยวข้องกับการเขียนโค้ดโดยเฉพาะ รุ่นที่ได้รับการ fine-tune นี้มีเป้าหมายเพื่อเพิ่มความสามารถในการสร้างและทำความเข้าใจโค้ดอย่างมีนัยสำคัญ ด้วยขนาดโมเดล 3.8 GB และ VRAM ที่แนะนำ 6GB จึงสามารถทำงานได้สบายภายในข้อจำกัด 8GB ทำให้เข้าถึงได้ง่ายสำหรับนักพัฒนาที่มีฮาร์ดแวร์จำกัด กรณีการใช้งานหลักได้แก่ การเติมโค้ดให้สมบูรณ์ การสร้างโค้ดสั้นๆ และการตีความโค้ดที่มีอยู่ สำหรับนักพัฒนาและโปรแกรมเมอร์ที่ทำงานกับ VRAM ที่จำกัด Deepseek-coder-v2 6.7B นำเสนอความสามารถเฉพาะทางที่สูง ทำให้เป็นตัวเลือกอันดับต้นๆ สำหรับความช่วยเหลือด้านการเขียนโค้ดในเครื่อง
BitNet b1.58 2B4T
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
BitNet b1.58 2B4T ของ Microsoft แสดงถึงโมเดลโอเพนซอร์สที่ปฏิวัติวงการ โดยใช้รูปแบบน้ำหนัก 1.58 บิต ซึ่งนำไปสู่การลดการใช้หน่วยความจำและพลังงานลงอย่างมาก ในขณะที่ยังคงรักษาประสิทธิภาพที่แข่งขันได้ ประสิทธิภาพด้านหน่วยความจำที่ไม่มีใครเทียบได้ ซึ่งต้องการหน่วยความจำที่ไม่ใช่แบบฝังเพียง 0.4 GB ทำให้เหมาะอย่างยิ่งสำหรับสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากรอย่างมาก รวมถึงอุปกรณ์ Edge AI เช่น สมาร์ทโฟน แล็ปท็อป และอุปกรณ์ IoT และสำหรับการอนุมานแบบ CPU-only ที่มีประสิทธิภาพ

มันนำความสามารถของ LLM ประสิทธิภาพสูงมาสู่อุปกรณ์ที่ขาดการสนับสนุน GPU โดยเฉพาะ ทำให้สามารถแปลภาษาบนอุปกรณ์ แนะนำเนื้อหา และผู้ช่วยเสียงบนมือถือที่มีความสามารถมากขึ้นโดยไม่ต้องเชื่อมต่อคลาวด์ตลอดเวลา แม้ว่าอาจจะแสดงความแม่นยำน้อยกว่าเมื่อเทียบกับโมเดลที่ใหญ่กว่ามาก แต่ประสิทธิภาพของมันเมื่อเทียบกับขนาดนั้นน่าทึ่ง ประสิทธิภาพด้านหน่วยความจำที่ไม่มีใครเทียบได้และความสามารถในการทำงานได้อย่างมีประสิทธิภาพบน CPU ทำให้เป็นตัวเปลี่ยนเกมในด้านการเข้าถึงและความยั่งยืนในวงการ AI
Orca-Mini 7B (Quantized)
ollama run orca-mini:7b
Orca-Mini 7B เป็นโมเดลวัตถุประสงค์ทั่วไปที่สร้างขึ้นบนสถาปัตยกรรม Llama และ Llama 2 ซึ่งได้รับการฝึกอบรมด้วยชุดข้อมูลสไตล์ Orca มีให้เลือกหลายขนาด โดยรุ่น 7B พิสูจน์แล้วว่าเป็นตัวเลือกที่เหมาะสมสำหรับฮาร์ดแวร์ระดับเริ่มต้น โมเดล orca-mini:7b มีขนาดไฟล์ 3.8 GB เวอร์ชันที่ถูก quantized เช่น Q4_K_M (ไฟล์ 4.08 GB, หน่วยความจำที่ต้องการ 6.58 GB) และ Q5_K_M (ไฟล์ 4.78 GB, หน่วยความจำที่ต้องการ 7.28 GB) สามารถทำงานได้ภายในข้อจำกัด 8GB โดยทั่วไปแล้วต้องการ system RAM อย่างน้อย 8GB เพื่อการทำงานที่เหมาะสม Orca-Mini 7B เหมาะสำหรับงานสร้างข้อความทั่วไป การตอบคำถาม และงานสนทนา แสดงให้เห็นถึงความสามารถในการทำตามคำสั่งที่แข็งแกร่ง และสามารถนำไปใช้ในการสร้าง AI agents ได้อย่างมีประสิทธิภาพ รุ่น Mistral-7B-OpenOrca ที่ได้รับการ fine-tune ซึ่งอิงจากการวิจัยของ Orca แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการสร้างข้อความและโค้ด การตอบคำถาม และการสนทนา
สรุป
โมเดลที่เน้นในรายงานนี้ ซึ่งรวมถึง Llama 3 8B, Mistral 7B, Gemma 2B และ 7B, Phi-3 Mini, DeepSeek R1 7B/8B, Qwen 1.5/2.5 7B, Deepseek-coder-v2 6.7B, BitNet b1.58 2B4T และ Orca-Mini 7B เป็นตัวแทนแนวหน้าของการเข้าถึงนี้ แต่ละโมเดลนำเสนอการผสมผสานที่เป็นเอกลักษณ์ของความสามารถ ประสิทธิภาพด้านหน่วยความจำ และกรณีการใช้งานที่เหมาะสม ทำให้เหมาะสำหรับงานที่หลากหลาย ตั้งแต่การสนทนาทั่วไปและการเขียนเชิงสร้างสรรค์ ไปจนถึงความช่วยเหลือด้านการเขียนโค้ดเฉพาะทางและการให้เหตุผลที่ซับซ้อน
ประสิทธิภาพของโมเดลเหล่านี้บนระบบที่มี VRAM จำกัด ส่วนใหญ่มาจากการใช้เทคนิค quantization ขั้นสูง ซึ่งช่วยลดปริมาณการใช้หน่วยความจำลงอย่างมากโดยไม่ทำให้คุณภาพลดลงอย่างรุนแรง ความก้าวหน้าอย่างต่อเนื่องในด้านประสิทธิภาพของโมเดลและการมุ่งเน้นที่การติดตั้ง Edge AI ที่เพิ่มขึ้น บ่งชี้ถึงอนาคตที่ความสามารถ AI ที่ซับซ้อนจะถูกรวมเข้ากับอุปกรณ์ในชีวิตประจำวันได้อย่างราบรื่น ขอแนะนำให้ผู้ใช้ทดลองใช้โมเดลที่แนะนำ เนื่องจากตัวเลือก "ที่ดีที่สุด" นั้นขึ้นอยู่กับความชอบส่วนบุคคลและขึ้นอยู่กับการกำหนดค่าฮาร์ดแวร์เฉพาะและความต้องการของแอปพลิเคชัน ชุมชนโอเพนซอร์สที่มีชีวิตชีวายังคงมีส่วนร่วมในภูมิทัศน์ที่กำลังพัฒนานี้ ทำให้มั่นใจได้ถึงอนาคตที่เปลี่ยนแปลงและสร้างสรรค์สำหรับ local LLMs
ต้องการแพลตฟอร์มแบบครบวงจรสำหรับทีมพัฒนาของคุณเพื่อทำงานร่วมกันด้วยประสิทธิภาพสูงสุดใช่ไหม?
Apidog ตอบสนองความต้องการทั้งหมดของคุณ และแทนที่ Postman ในราคาที่เข้าถึงได้ง่ายกว่ามาก!