สรุปโดยย่อ
- โมเดล LLM ในเครื่อง (local LLM) ที่ "ดีที่สุด" ในปี 2026 ขึ้นอยู่กับงบประมาณ VRAM, เป้าหมายความหน่วง และกรณีการใช้งานของคุณ (การเขียนโค้ด, การให้เหตุผล, หลายภาษา หรือวิสัยทัศน์)
- สำหรับ GPU ขนาด 24 GB, Qwen 3.6 32B และ DeepSeek V4 Flash เป็นสองโมเดลที่แข็งแกร่งที่สุดและใช้งานได้หลากหลาย
- สำหรับ 8 GB และต่ำกว่า, Gemma 4 9B และ Llama 5.1 8B คือตัวเลือกที่ดี
- สำหรับการให้เหตุผลหรือการเขียนโค้ดโดยเฉพาะ, DeepSeek V4 Pro แบบ quantized หรือ GLM 5 เป็นผู้นำในลีดเดอร์บอร์ดแบบเปิด
- ใช้ Ollama หรือ LM Studio เพื่อเรียกใช้งานโมเดลเหล่านี้ด้วยเอนด์พอยต์ HTTP ที่เข้ากันได้กับ OpenAI จากนั้นทดสอบกับโมเดลเหล่านี้ด้วย Apidog ในแบบเดียวกับที่คุณใช้กับโมเดลที่โฮสต์ไว้
- ดาวน์โหลด Apidog เพื่อจำลอง, เล่นซ้ำ และวัดประสิทธิภาพการรับส่งข้อมูลของโมเดลในเครื่อง โดยไม่ต้องใช้โทเค็นเดียวจากงบประมาณ LLM ที่โฮสต์ไว้ของคุณ
คู่มือนี้จะช่วยลดความซับซ้อนดังกล่าว เราจัดอันดับเจ็ดโมเดล LLM ในเครื่องที่คุ้มค่าแก่การติดตั้งในปี 2026 พร้อมจับคู่แต่ละโมเดลกับฮาร์ดแวร์ที่จำเป็น และแสดงวิธีทดสอบราวกับว่าเป็น API ที่โฮสต์ไว้ โดยใช้ Apidog เป็นส่วนรับคำขอและเล่นซ้ำ หากคุณเคยศึกษาโมเดลใดโมเดลหนึ่งอย่างละเอียดแล้ว โปรดดู คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง และ ภาพรวม DeepSeek V4 ของเราสำหรับข้อมูลเชิงลึกเพิ่มเติม
ทำไม LLM ในเครื่องจึงกลับมามีความสำคัญอีกครั้งในปี 2026
เมื่อสามปีที่แล้ว "LLM ในเครื่อง" หมายถึงคุณภาพที่ลดลง ซึ่งไม่เป็นความจริงอีกต่อไปแล้ว โมเดลแบบ open-weight ได้เทียบเท่ากับระบบคลาส GPT-4 ที่โฮสต์ไว้ตลอดปี 2024 และแซงหน้าในด้านต้นทุนต่อโทเค็นภายในกลางปี 2025 วันนี้ช่องว่างในการวัดประสิทธิภาพส่วนใหญ่เป็นเพียงเลขหลักเดียวเปอร์เซ็นต์ในการให้เหตุผลและการเขียนโค้ด และเป็นศูนย์ในการดึงข้อมูล, การจัดหมวดหมู่ และการเรียกใช้เครื่องมือ
อีกการเปลี่ยนแปลงหนึ่งคือฮาร์ดแวร์ GPU สำหรับผู้บริโภคขนาด 24 GB สามารถรันโมเดลพารามิเตอร์ 32B ได้ด้วยการควอนไทซ์ 4 บิตคุณภาพระดับโปรดักชันพร้อมปริมาณงาน 30 โทเค็นต่อวินาที Mac Studio ที่มีหน่วยความจำรวม 64 GB สามารถรัน DeepSeek V4 Flash ได้ด้วยความเร็วที่ใช้งานได้จริง สำหรับทีมที่กังวลเกี่ยวกับการจัดเก็บข้อมูล, การถูกผูกมัดกับผู้ขาย หรือค่าใช้จ่ายการอนุมานที่สูงถึงหกหลัก การใช้งานในเครื่องไม่ใช่แค่ของเล่นสำหรับการวิจัยอีกต่อไปแล้ว
สิ่งที่เคยเป็นเรื่องยาก "โมเดลดีพอหรือไม่" ตอนนี้มีคำตอบแล้ว สิ่งที่ยากคือการทดสอบเอนด์พอยต์ในเครื่องในแบบเดียวกับที่คุณทดสอบเอนด์พอยต์ที่โฮสต์ไว้ เพื่อให้โค้ดของคุณสามารถสลับไปมาระหว่างกันได้โดยไม่มีปัญหา นั่นคือจุดที่เครื่องมือ API มีบทบาทสำคัญ ซึ่งเราจะกล่าวถึงในภายหลัง
เราเลือกสี่โมเดลนี้ได้อย่างไร
รายการสั้นๆ นี้ไม่ใช่การคัดลอกจากลีดเดอร์บอร์ด เกณฑ์คือ:
- Open weights พร้อมใบอนุญาตที่อนุญาต (MIT, Apache 2.0 หรือใบอนุญาตชุมชนที่อนุญาตให้ใช้งานในโปรดักชัน)
- การดูแลรักษาอย่างต่อเนื่องในปี 2026 โดยมีการอัปเดตอย่างน้อยหนึ่งครั้งในสามเดือนที่ผ่านมา
- เส้นทางการให้บริการที่เข้ากันได้กับ OpenAI ผ่าน Ollama, vLLM หรือ LM Studio
- ความแข็งแกร่งในโลกจริงในด้านใดด้านหนึ่งเป็นอย่างน้อย: การให้เหตุผลทั่วไป, โค้ด, หลายภาษา, วิสัยทัศน์ หรือบริบทที่ยาว
- ข้อจำกัดด้านฮาร์ดแวร์ที่เหมาะสม (GPU ราคา 1,500 ดอลลาร์ควรสามารถรันอะไรบางอย่างที่ใช้งานได้)
เราได้รันพร้อมต์แปดรายการเดียวกันผ่านทุกโมเดลบน 4090 และ Mac Studio M3 Ultra, ให้คะแนนเอาต์พุต และตรวจสอบกับ LMSYS arena และ Hugging Face Open LLM Leaderboard ตามความเหมาะสม
เจ็ดโมเดล LLM ในเครื่องที่คุ้มค่าแก่การรันในปี 2026
1. DeepSeek V4 Pro (open-weight, quantized)
เรือธงของการเปิดตัว DeepSeek V4 มีให้ใช้งานในรูปแบบ 4-bit GGUF และ AWQ บน Hugging Face โมเดลเต็มมีพารามิเตอร์ 1.6T โดยมี 49B ที่ใช้งานอยู่ ซึ่งทำให้มันอยู่ในกลุ่มศูนย์ข้อมูลอย่างชัดเจน เมื่อควอนไทซ์ลงมาเป็น Q4 มันจะพอดีกับ GPU H100 ขนาด 80 GB สองตัว หรือ Mac Studio M3 Ultra เพียงเครื่องเดียวที่มีหน่วยความจำรวม 192 GB
สำหรับเราส่วนใหญ่ DeepSeek V4 Pro ในเครื่องยังคงเป็นความทะเยอทะยาน เหตุผลที่มันอยู่ในรายการคือเรื่องราวการกลั่นกรอง: การปรับจูนขนาดเล็กจะสืบทอดพฤติกรรมการให้เหตุผลส่วนใหญ่ของมัน โมเดลเต็มบนเอนด์พอยต์ที่เข้ากันได้กับ OpenAI มีเอกสารอธิบายใน วิธีใช้ DeepSeek V4 API หากคุณต้องการเช่า weights เดียวกัน
ดีที่สุดสำหรับ: เอเจนต์ที่เน้นการให้เหตุผล, ทุกคนที่มี Mac Studio M3 Ultra หรือ H100 สองตัว ฮาร์ดแวร์: หน่วยความจำรวม 192 GB หรือ GPU 2x 80 GB หาได้ที่ไหน: DeepSeek V4 Pro GGUF บน Hugging Face
2. DeepSeek V4 Flash
V4 รุ่นที่เล็กกว่า: รวม 284B, ใช้งาน 13B เมื่อควอนไทซ์ 4 บิต มันจะพอดีกับ VRAM 24 GB พร้อมพื้นที่สำหรับหน้าต่างบริบท 64K ปริมาณงานบน 4090 โดยเฉลี่ย 28 โทเค็นต่อวินาทีในการสร้างข้อความขนาดยาว

V4 Flash เป็นโมเดลที่ทีมส่วนใหญ่จะรันในเครื่องจริงๆ คุณภาพการให้เหตุผลอยู่ในระดับ 5 เปอร์เซ็นต์ของ V4 Pro จากพร้อมต์ที่เราทดสอบ การเขียนโค้ดตามหลังเล็กน้อย คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง จะอธิบายการตั้งค่า Ollama อย่างละเอียด
ดีที่สุดสำหรับ: เอเจนต์ในเครื่องที่ใช้งานทั่วไป, ผู้ช่วยเขียนโค้ด, ตัวสร้าง RAG ฮาร์ดแวร์: VRAM 24 GB ที่ Q4, 16 GB ที่ Q3 (พร้อมคุณภาพลดลง) หาได้ที่ไหน: ollama pull deepseek-v4-flash หรือ Hugging Face GGUF
3. Qwen 3.6
ตระกูล Qwen ของ Alibaba เป็นตระกูล open-weight ที่เสถียรที่สุดมาเป็นเวลาสองปีติดต่อกัน Qwen 3.6 ที่ Q4 พอดีกับ 24 GB และมีประสิทธิภาพเหนือกว่า Llama 3 70B รุ่นเก่าในการวัดประสิทธิภาพการให้เหตุผลและการเรียกใช้เครื่องมือส่วนใหญ่ การรองรับหลายภาษาเป็นจุดเด่น: Qwen จัดการภาษาจีน, ญี่ปุ่น, เกาหลี และอาหรับด้วยคุณภาพใกล้เคียงกับภาษาแม่ ในขณะที่โมเดลตะวันตกส่วนใหญ่ล้มเหลว

หากผลิตภัณฑ์ของคุณจัดส่งนอกสหรัฐอเมริกา และคุณต้องการโมเดลเดียวที่สามารถจัดการการให้เหตุผลและหลายภาษาได้ Qwen 3.6 32B คือตัวเลือกที่ดี การเรียกใช้เครื่องมือมีเอกสารอธิบายไว้อย่างดีและตรงกับรูปแบบของ OpenAI
ดีที่สุดสำหรับ: ผลิตภัณฑ์หลายภาษา, เอาต์พุตที่มีโครงสร้าง, การเรียกใช้เครื่องมือ, ต้นทุนที่สมดุล ฮาร์ดแวร์: VRAM 24 GB ที่ Q4 หาได้ที่ไหน: ollama pull qwen3.6:32b หรือ Qwen 3.6 บน Hugging Face
4. GLM 5.1
ตระกูล GLM ของ Zhipu AI พัฒนาไปอย่างเงียบๆ และดีมาก GLM 5.1 ได้คะแนนติดอันดับสามในการวัดประสิทธิภาพการเรียกใช้เครื่องมือในบรรดาโมเดลแบบเปิด เป็นรองเพียง DeepSeek V4 การเขียนโค้ดเป็นจุดอ่อนที่สุด การให้เหตุผล, การจัดหมวดหมู่ และการดึงข้อมูลที่มีโครงสร้างเป็นจุดแข็งที่สุด

GLM 5.1 เป็นตัวเลือกที่ชาญฉลาดหากปริมาณงานของคุณเน้นการเรียกใช้เครื่องมือ: เวิร์กโฟลว์ของเอเจนต์, การดึงข้อมูลที่มีโครงสร้าง, การทำตามคำสั่งบน JSON schemas การให้บริการในเครื่องมีความเสถียรผ่าน Ollama และ vLLM
ดีที่สุดสำหรับ: เอเจนต์ที่เรียกใช้เครื่องมือ, การดึงข้อมูลที่มีโครงสร้าง, ไปป์ไลน์โหมด JSON
การให้บริการราวกับว่าเป็น API ที่โฮสต์ไว้
สิ่งที่ไม่มีใครพูดถึงในกระทู้ r/LocalLLaMA: เมื่อคุณรันโมเดลได้แล้ว ส่วนที่เหลือของสแต็กของคุณยังคงต้องการเอนด์พอยต์ HTTP คุณจะใช้เวลามากขึ้นในการเชื่อมต่อรูปแบบคำขอมากกว่าการเลือกโมเดล
เส้นทางการให้บริการสามเส้นทางที่สำคัญในปี 2026
Ollama เป็นวิธีที่ง่ายที่สุด: ollama serve เปิดเผยเอนด์พอยต์ที่เข้ากันได้กับ OpenAI ที่ http://localhost:11434/v1 เป็นการแทนที่ https://api.openai.com/v1 แบบตรงตัว; เพียงแค่เปลี่ยน Base URL คุณก็เสร็จแล้ว
vLLM เป็นตัวเลือกสำหรับโปรดักชัน มันทำงานได้เร็วขึ้น รองรับการประมวลผลแบบต่อเนื่อง (continuous batching) และเปิดเผยรูปแบบที่เข้ากันได้กับ OpenAI แบบเดียวกันที่ :8000/v1 ใช้สิ่งนี้เมื่อความหน่วงและปริมาณงานมีความสำคัญ
LM Studio เป็นตัวเลือก GUI มีประโยชน์สำหรับนักพัฒนาแต่ละคน; มันยังเปิดเผยเอนด์พอยต์ HTTP เมื่อคุณเปิดใช้งานเซิร์ฟเวอร์ในเครื่องในการตั้งค่า
ทั้งสามพูดรูปแบบ OpenAI Chat Completions ซึ่งหมายความว่าโค้ดไคลเอ็นต์เดียวกันที่เรียกใช้ GPT-5.5 ก็สามารถเรียกใช้โมเดลในเครื่องของคุณได้โดยการเปลี่ยน Base URL เราได้อธิบายรูปแบบนี้โดยละเอียดใน วิธีใช้ DeepSeek V4 ฟรี
การเรียกใช้ Python ขั้นต่ำกับโมเดลใดๆ ในเจ็ดโมเดล:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # any string; Ollama ignores it
base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(
model="qwen3.6:32b",
messages=[
{"role": "user", "content": "Summarize the differences between MoE and dense models in three bullets."}
],
temperature=0.3,
)
print(resp.choices[0].message.content)
สลับ qwen3.6:32b เป็น deepseek-v4-flash, llama5.1:8b หรือแท็ก Ollama อื่นๆ รูปแบบการเรียกจะเหมือนกัน
การทดสอบโมเดลในเครื่องด้วย Apidog
นี่คือส่วนที่สำคัญสำหรับการใช้งานในโปรดักชัน ความแตกต่างที่ใหญ่ที่สุดระหว่างโมเดลที่โฮสต์ไว้กับโมเดลในเครื่องไม่ใช่คุณภาพ แต่เป็นความสามารถในการดีบักของคุณ

เมื่อ OpenAI ล่ม คุณอ่านหน้าสถานะของพวกเขาแล้วรอ เมื่อ Ollama ล่ม คุณต้องแก้ไขข้อบกพร่องเอง คุณต้องตรวจสอบคำขอแบบดิบ (raw request), เล่นซ้ำด้วยพารามิเตอร์ที่แตกต่างกัน, เปรียบเทียบเอาต์พุตแบบสตรีมมิ่งระหว่างโมเดลสองเวอร์ชัน และวัดปริมาณงานในฮาร์ดแวร์ต่างๆ การใช้ Curl จะน่าเบื่ออย่างรวดเร็ว
Apidog ปฏิบัติต่อเอนด์พอยต์ Ollama หรือ vLLM ของคุณเหมือน API อื่นๆ ห้าสิ่งที่คุณทำได้ด้วย:
บันทึกคำขอมาตรฐาน (canonical requests) สร้างชุดคำขอสำหรับแต่ละโมเดลด้วยพร้อมต์, อุณหภูมิ, max_tokens และคำจำกัดความเครื่องมือที่สมจริง ทีมของคุณเล่นซ้ำสิ่งเหล่านี้หลังจากการเปลี่ยนโมเดลแต่ละครั้งเพื่อยืนยันพฤติกรรม
เปรียบเทียบเอาต์พุตระหว่างโมเดล การเปรียบเทียบการตอบกลับของ Apidog จะเน้นความแตกต่างระดับโทเค็นเมื่อคุณเล่นซ้ำพร้อมต์เดียวกันกับ Qwen, DeepSeek และ Llama ตรวจจับการถดถอยได้ภายในไม่กี่วินาที
จำลองเอนด์พอยต์ในขณะที่ CI ทำงาน เมื่อ CI pipelines เรียกใช้โมเดลในเครื่อง คุณไม่ต้องการให้มันเรียกใช้กระบวนการขนาด 24 GB จริงๆ Apidog จำลองเอนด์พอยต์ด้วยสตรีม JSON ที่สมจริง ดังนั้นการทดสอบหน่วยจะผ่านโดยไม่ต้องเข้าถึง GPU
วัดปริมาณงานโทเค็น มุมมองประสิทธิภาพในตัวบันทึกความหน่วง, เวลาในการสร้างโทเค็นแรก และโทเค็นต่อวินาทีในการรันต่างๆ เปรียบเทียบการควอนไทซ์ Q4 กับ Q5 ได้อย่างรวดเร็ว
จัดทำเอกสาร API ในเครื่องสำหรับเพื่อนร่วมทีม โปรเจกต์ Apidog ส่งออก OpenAPI 3.1 ดังนั้นเพื่อนร่วมทีมที่เข้าร่วมโปรเจกต์จะได้รับสัญญาที่แน่นอนสำหรับ "ฉันจะเรียกใช้ Qwen ภายในของเราได้อย่างไร" เราครอบคลุมเวิร์กโฟลว์เดียวกันนี้ใน Apidog เป็นทางเลือก Postman ที่ดีที่สุด
ข้อผิดพลาดทั่วไปในการรัน LLM ในเครื่อง
สิ่งเหล่านี้ทำให้เกือบทุกทีมสะดุดในเดือนแรก
- เลือกโมเดลที่ใหญ่ที่สุดที่ GPU ใส่ได้ โมเดล 32B ที่ Q3 มักจะแย่กว่าโมเดล 14B ที่ Q5 คุณภาพการควอนไทซ์มีความสำคัญมากกว่าจำนวนพารามิเตอร์เมื่อคุณเกิน 4 บิต
- ลืมว่าความยาวบริบทส่งผลต่อ VRAM บริบท 32K โทเค็นบนโมเดล 32B ต้องการประมาณ 4 GB ของ KV cache ที่ Q4 สำรองไว้ก่อนที่คุณจะโหลด
- รัน fine-tune จากการอัปโหลด Hugging Face แบบสุ่ม ยึดติดกับ model card ดั้งเดิม หรือ fine-tune ที่เป็นที่รู้จักจากผู้เขียนที่มีผลงานที่น่าเชื่อถือ fine-tune ที่เป็นอันตรายเป็นความเสี่ยงที่แท้จริง
- ข้ามเลเยอร์การจำลอง (mock layer) โมเดลในเครื่องอาจล่มได้ ไดรเวอร์อาจขัดข้อง กระบวนการอาจถูก OOM-killed GPU อาจชะลอตัว การรัน CI ที่เรียกใช้โมเดลโดยตรงจะกลายเป็นไม่เสถียร จำลองเอนด์พอยต์ใน Apidog และการทดสอบของคุณจะไม่ต้องพึ่งพาความสมบูรณ์ของฮาร์ดแวร์อีกต่อไป
- ละเลยความแตกต่างของรูปแบบการเรียกใช้เครื่องมือ Llama 5.1, Qwen 3.6 และ DeepSeek V4 ล้วนรองรับการเรียกใช้เครื่องมือ แต่สร้างรูปแบบ JSON ที่แตกต่างกันเล็กน้อย ทดสอบแต่ละอันก่อนที่จะสลับโมเดลในการผลิต
กรณีการใช้งานจริง
สตาร์ทอัพที่รันเอเจนต์บริการลูกค้าได้ย้ายจาก GPT-5.5 ไปยัง Qwen 3.6 32B บน 4090 ตัวเดียว ความหน่วงยังคงต่ำกว่า 800 ms ค่าใช้จ่ายการอนุมานรายเดือนลดลงจาก 9,400 ดอลลาร์เป็น 0 ดอลลาร์ และทีมใช้ Apidog mocks เพื่อรักษาความแน่นอนของ CI
นักพัฒนาอิสระที่สร้างผู้ช่วยเสียงรัน Gemma 4 9B บน M2 Pro ที่มีหน่วยความจำรวม 16 GB ผู้ร่างการคาดการณ์แบบหลายโทเค็นให้พวกเขา 60 โทเค็นต่อวินาที เร็วพอที่ผู้ช่วยจะรู้สึกเหมือนเป็นธรรมชาติ
ทีมวิจัยฟินเทครัน DeepSeek V4 Flash บน 4090 สองตัวสำหรับการสรุปเอกสารกำกับดูแลแบบแบตช์ทุกคืน ค่าใช้จ่ายต่อการสรุปคือค่าไฟฟ้า บวกกับเวลาที่ใช้ในการบำรุงรักษาเครื่อง
บทสรุป
LLM ในเครื่องที่ดีที่สุดในปี 2026 คือตัวที่เหมาะสมกับ VRAM, งบประมาณความหน่วง และมาตรฐานคุณภาพที่ผลิตภัณฑ์ของคุณต้องการ ทีมส่วนใหญ่จะเลือก Qwen 3.6 32B หรือ DeepSeek V4 Flash สำหรับการ์ด 24 GB, Llama 5.1 8B หรือ Gemma 4 9B สำหรับฮาร์ดแวร์ขนาดเล็ก และ GLM 5 เมื่อการเรียกใช้เครื่องมือเป็นปริมาณงาน
ห้าประเด็นสำคัญ:
- คุณภาพในเครื่องเทียบเท่ากับโมเดลที่โฮสต์สำหรับงานส่วนใหญ่; คำถามคือความเหมาะสมของฮาร์ดแวร์ ไม่ใช่ความสามารถ
- Ollama บวกกับไคลเอ็นต์ที่เข้ากันได้กับ OpenAI เป็นวิธีที่เร็วที่สุดในการให้บริการ HTTP ของโมเดล
- คุณภาพการควอนไทซ์ (Q4, Q5) มีความสำคัญมากกว่าจำนวนพารามิเตอร์ทั้งหมด
- ปฏิบัติต่อเอนด์พอยต์ในเครื่องเหมือน API โปรดักชันอื่นๆ: บันทึกคำขอ, จำลองสำหรับ CI, วัดประสิทธิภาพ, จัดทำเอกสาร
- Apidog เป็นเครื่องมือที่สะอาดที่สุดในการทำงานนั้นและแบ่งปันกับเพื่อนร่วมทีม
ขั้นตอนต่อไป: เลือกโมเดลที่ตรงกับฮาร์ดแวร์ของคุณ, รัน ollama pull <ชื่อ>, และชี้ Apidog ไปที่ http://localhost:11434/v1 คุณจะสามารถวัดประสิทธิภาพและเล่นซ้ำได้ภายในหนึ่งชั่วโมง
คำถามที่พบบ่อย
LLM ในเครื่องที่ดีที่สุดสำหรับ GPU 24 GB ในปี 2026 คืออะไร?
สำหรับปริมาณงานส่วนใหญ่คือ Qwen 3.6 32B ที่ Q4 หรือ DeepSeek V4 Flash ที่ Q4 เลือก Qwen สำหรับงานหลายภาษาหรือเน้นเครื่องมือ; เลือก DeepSeek V4 Flash สำหรับการให้เหตุผลและการเขียนโค้ด ทั้งสองมีเอกสารอธิบายใน คู่มือ DeepSeek V4 ในเครื่อง ของเรา
ฉันสามารถรัน LLM ในเครื่องบน Mac ได้หรือไม่?
ได้ Apple silicon ที่มีหน่วยความจำรวม 16 GB ขึ้นไปสามารถรัน Llama 5.1 8B และ Gemma 4 9B ได้อย่างสะดวกสบาย M3 Ultra ที่มี 192 GB รัน DeepSeek V4 Pro ที่ Q4 ใช้ Ollama หรือ LM Studio
ฉันจะทดสอบ LLM ในเครื่องในแบบเดียวกับที่ฉันทดสอบ OpenAI ได้อย่างไร?
ชี้ไคลเอ็นต์ที่เข้ากันได้กับ OpenAI ของคุณ (และโปรเจกต์ Apidog ของคุณ) ไปที่ URL การให้บริการในเครื่อง Ollama เปิดเผย http://localhost:11434/v1, vLLM เปิดเผย :8000/v1 รูปแบบคำขอเดียวกัน แต่ Base URL แตกต่างกัน
คุณภาพของ LLM ในเครื่องเทียบเท่ากับโมเดลที่โฮสต์ไว้จริงหรือ?
ในการให้เหตุผล, การเขียนโค้ด, การจัดหมวดหมู่, การดึงข้อมูล และการเรียกใช้เครื่องมือ: ใช่ โดยมีความแตกต่างกันไม่เกินหลักเดียวเปอร์เซ็นต์สำหรับโมเดลแบบเปิดชั้นนำ ในด้านวิสัยทัศน์, การตอบคำถามเอกสารบริบทขนาดยาว และการเขียนเชิงสร้างสรรค์: โมเดลที่โฮสต์ไว้ยังคงเป็นผู้นำอย่างเห็นได้ชัด
แล้วเรื่องค่าใช้จ่ายล่ะ?
GPU 4090 รัน DeepSeek V4 Flash โดยมีค่าใช้จ่ายเท่ากับค่าไฟฟ้า (ประมาณ 30 ดอลลาร์ต่อเดือนในการใช้งานทั่วไป) โมเดลที่โฮสต์ไว้ในปริมาณเดียวกันมีค่าใช้จ่ายหลายร้อยถึงหลายพันดอลลาร์ต่อเดือน จุดคุ้มทุนมักจะอยู่ที่ประมาณ 5 ล้านโทเค็นต่อเดือน
ฉันจะสลับแอปพลิเคชันโปรดักชันระหว่างโมเดลที่โฮสต์ไว้กับโมเดลในเครื่องได้อย่างไร?
ยังคงใช้ไคลเอ็นต์ OpenAI; เปลี่ยน Base URL และชื่อโมเดล ทดสอบการสลับด้วยเครื่องมือเล่นซ้ำเพื่อให้ความแตกต่างของพฤติกรรมปรากฏขึ้นก่อนที่ผู้ใช้จะเห็น เราครอบคลุมสิ่งนี้ใน การทดสอบ API โดยไม่ต้องใช้ Postman
ฉันจะดูตารางคะแนนล่าสุดได้ที่ไหน?
Hugging Face Open LLM Leaderboard และ LMSYS Chatbot Arena อัปเดตเป็นประจำ ตรวจสอบทั้งสองอย่างเนื่องจากมีการวัดสิ่งที่แตกต่างกัน
