TL;DR
- LLM cục bộ "tốt nhất" vào năm 2026 phụ thuộc vào ngân sách VRAM, mục tiêu độ trễ và trường hợp sử dụng của bạn (lập trình, suy luận, đa ngôn ngữ hoặc thị giác).
- Đối với GPU 24 GB, Qwen 3.6 32B và DeepSeek V4 Flash là hai lựa chọn toàn diện mạnh nhất.
- Đối với 8 GB trở xuống, Gemma 4 9B và Llama 5.1 8B là những lựa chọn hàng đầu.
- Để suy luận hoặc lập trình thuần túy, DeepSeek V4 Pro đã được lượng tử hóa hoặc GLM 5 dẫn đầu bảng xếp hạng mở.
- Sử dụng Ollama hoặc LM Studio để triển khai bất kỳ mô hình nào trong số này với một điểm cuối HTTP tương thích OpenAI, sau đó kiểm tra chúng bằng Apidog giống như cách bạn kiểm tra một mô hình được lưu trữ.
- Tải xuống Apidog để mô phỏng, phát lại và đo hiệu năng lưu lượng truy cập mô hình cục bộ mà không tốn một token nào từ ngân sách LLM được lưu trữ của bạn.
Hướng dẫn này sẽ gạt bỏ những ồn ào đó. Chúng tôi xếp hạng bảy LLM cục bộ đáng giá dung lượng ổ đĩa của bạn vào năm 2026, ghép nối từng mô hình với phần cứng thực sự cần thiết và chỉ cho bạn cách kiểm tra chúng như thể chúng là một API được lưu trữ, sử dụng Apidog làm giao diện gửi yêu cầu và phát lại. Nếu bạn đã tìm hiểu sâu về một mô hình, hãy xem hướng dẫn cài đặt DeepSeek V4 cục bộ và tổng quan DeepSeek V4 của chúng tôi để biết thêm chi tiết.
Tại sao LLM cục bộ lại quan trọng trở lại vào năm 2026
Ba năm trước, "LLM cục bộ" có nghĩa là chất lượng bị ảnh hưởng. Điều đó không còn đúng nữa. Các mô hình mã nguồn mở đã bắt kịp các hệ thống cấp GPT-4 được lưu trữ trong suốt năm 2024, và vượt lên về chi phí mỗi token vào giữa năm 2025. Hiện nay, khoảng cách trên hầu hết các điểm chuẩn chỉ là phần trăm một chữ số đối với suy luận và lập trình, và bằng không đối với trích xuất, phân loại và gọi công cụ.
Thay đổi khác là về phần cứng. Một GPU tiêu dùng 24 GB có thể chạy mô hình 32B tham số với lượng tử hóa 4-bit chất lượng sản xuất và thông lượng 30 token mỗi giây. Một chiếc Mac Studio với 64 GB bộ nhớ hợp nhất có thể chạy DeepSeek V4 Flash ở tốc độ có thể sử dụng được. Đối với các nhóm lo lắng về chủ quyền dữ liệu, sự phụ thuộc vào nhà cung cấp, hoặc hóa đơn suy luận lên đến sáu con số, mô hình cục bộ không còn là một món đồ chơi nghiên cứu.
Điều từng khó khăn, "liệu mô hình có đủ tốt không?", giờ đã được trả lời. Điều khó khăn là kiểm tra điểm cuối cục bộ giống như cách bạn kiểm tra điểm cuối được lưu trữ, để mã của bạn có thể chuyển đổi giữa chúng mà không gặp bất ngờ. Đó là lúc các công cụ API phát huy tác dụng; chúng ta sẽ đề cập đến điều này sau.
Cách chúng tôi chọn bốn mô hình này
Danh sách rút gọn này không phải là một bản sao từ bảng xếp hạng. Các tiêu chí:
- Mô hình mã nguồn mở với giấy phép tự do (MIT, Apache 2.0, hoặc giấy phép cộng đồng cho phép sử dụng trong sản xuất)
- Được bảo trì tích cực vào năm 2026 với ít nhất một bản cập nhật trong ba tháng gần nhất
- Một đường dẫn triển khai tương thích OpenAI thông qua Ollama, vLLM hoặc LM Studio
- Sức mạnh thực tế trên ít nhất một trong các lĩnh vực: suy luận tổng quát, mã, đa ngôn ngữ, thị giác hoặc ngữ cảnh dài
- Yêu cầu phần cứng hợp lý (một GPU $1.500 nên chạy được thứ gì đó có thể sử dụng)
Chúng tôi đã chạy cùng tám lời nhắc qua mọi mô hình trên 4090 và Mac Studio M3 Ultra, chấm điểm đầu ra và đối chiếu với sân đấu LMSYS và Bảng xếp hạng LLM mở của Hugging Face khi thích hợp.
Bảy LLM cục bộ đáng giá để chạy vào năm 2026
1. DeepSeek V4 Pro (mã nguồn mở, đã lượng tử hóa)
Phiên bản chủ lực của DeepSeek V4, có sẵn dưới dạng GGUF 4-bit và AWQ trên Hugging Face. Mô hình đầy đủ có 1.6T tham số với 49B hoạt động, đặt nó vững chắc trong lãnh địa trung tâm dữ liệu; khi được lượng tử hóa xuống Q4, nó phù hợp trên một cặp H100 80 GB, hoặc một chiếc Mac Studio M3 Ultra với 192 GB bộ nhớ hợp nhất.
Đối với hầu hết chúng ta, V4 Pro cục bộ là một mục tiêu xa vời. Lý do nó có trong danh sách là câu chuyện chắt lọc: các mô hình tinh chỉnh nhỏ hơn kế thừa rất nhiều hành vi suy luận của nó. Mô hình đầy đủ trên một điểm cuối tương thích OpenAI được ghi lại trong cách sử dụng API DeepSeek V4 nếu bạn muốn thuê cùng các trọng số.
Tốt nhất cho: các tác nhân yêu cầu suy luận cao, bất kỳ ai có Mac Studio M3 Ultra hoặc hai H100. Phần cứng: 192 GB bộ nhớ hợp nhất hoặc 2x GPU 80 GB. Nơi tải: DeepSeek V4 Pro GGUF trên Hugging Face.
2. DeepSeek V4 Flash
Biến thể V4 nhỏ hơn: tổng cộng 284B, 13B hoạt động. Với lượng tử hóa 4-bit, nó vừa vặn trong 24 GB VRAM với không gian cho một cửa sổ ngữ cảnh 64K. Thông lượng trên một 4090 đạt trung bình 28 token mỗi giây đối với việc tạo nội dung dài.

V4 Flash là mô hình mà hầu hết các nhóm sẽ thực sự chạy cục bộ. Chất lượng suy luận nằm trong phạm vi 5 phần trăm so với V4 Pro trên các lời nhắc mà chúng tôi đã kiểm tra; khả năng lập trình kém hơn một chút. Hướng dẫn cài đặt DeepSeek V4 cục bộ sẽ hướng dẫn bạn thiết lập Ollama từ đầu đến cuối.
Tốt nhất cho: tác nhân cục bộ đa năng, trợ lý lập trình, trình tạo RAG. Phần cứng: 24 GB VRAM ở Q4, 16 GB ở Q3 (với giảm chất lượng). Nơi tải: ollama pull deepseek-v4-flash hoặc GGUF trên Hugging Face.
3. Qwen 3.6
Dòng Qwen của Alibaba đã là dòng mô hình mã nguồn mở ổn định nhất trong hai năm liên tiếp. Qwen 3.6 ở Q4 vừa vặn trong 24 GB và vượt trội hơn Llama 3 70B cũ hơn trên hầu hết các điểm chuẩn suy luận và gọi công cụ. Hỗ trợ đa ngôn ngữ là một điểm nổi bật: Qwen xử lý tiếng Trung, Nhật, Hàn và Ả Rập với chất lượng gần như bản xứ, nơi hầu hết các mô hình phương Tây gặp khó khăn.

Nếu sản phẩm của bạn được phát hành bên ngoài Hoa Kỳ và bạn cần một mô hình duy nhất xử lý suy luận cộng với đa ngôn ngữ mạnh mẽ, Qwen 3.6 32B là lựa chọn hàng đầu. Việc gọi công cụ được tài liệu hóa rõ ràng và phù hợp với định dạng của OpenAI.
Tốt nhất cho: sản phẩm đa ngôn ngữ, đầu ra có cấu trúc, gọi công cụ, chi phí cân bằng. Phần cứng: 24 GB VRAM ở Q4. Nơi tải: ollama pull qwen3.6:32b hoặc Qwen 3.6 trên Hugging Face.
4. GLM 5.1
Dòng GLM của Zhipu AI đã trở nên tốt một cách thầm lặng. GLM 5.1 đạt điểm trong top ba về điểm chuẩn gọi công cụ trong số các mô hình mở, chỉ đứng sau DeepSeek V4. Lập trình là điểm yếu nhất của nó; suy luận, phân loại và trích xuất có cấu trúc là điểm mạnh nhất.

GLM 5.1 là một lựa chọn thông minh nếu khối lượng công việc của bạn chủ yếu là gọi công cụ: quy trình làm việc của tác nhân, trích xuất dữ liệu có cấu trúc, tuân thủ hướng dẫn trên các lược đồ JSON. Việc triển khai cục bộ rất vững chắc thông qua Ollama và vLLM.
Tốt nhất cho: các tác nhân gọi công cụ, trích xuất có cấu trúc, các pipeline chế độ JSON.
Triển khai chúng như một API được lưu trữ
Điều mà không ai trên chủ đề r/LocalLLaMA đề cập: một khi bạn có một mô hình đang chạy, phần còn lại của ngăn xếp của bạn vẫn mong đợi một điểm cuối HTTP. Bạn sẽ dành nhiều thời gian hơn để định hình yêu cầu so với việc chọn mô hình.
Ba đường dẫn triển khai quan trọng vào năm 2026.
Ollama là dễ nhất: ollama serve hiển thị một điểm cuối tương thích OpenAI tại http://localhost:11434/v1. Thay thế trực tiếp cho https://api.openai.com/v1; thay đổi URL cơ sở là xong.
vLLM là tùy chọn sản xuất. Nó chạy nhanh hơn, hỗ trợ phân lô liên tục và hiển thị cùng định dạng tương thích OpenAI trên :8000/v1. Sử dụng cái này khi độ trễ và thông lượng quan trọng.
LM Studio là tùy chọn GUI. Hữu ích cho các nhà phát triển cá nhân; nó cũng hiển thị một điểm cuối HTTP khi bạn bật máy chủ cục bộ trong cài đặt.
Cả ba đều tuân theo định dạng Chat Completions của OpenAI, có nghĩa là cùng một mã máy khách gọi GPT-5.5 cũng có thể gọi mô hình cục bộ của bạn chỉ bằng cách thay đổi URL cơ sở. Chúng tôi đã trình bày chi tiết mẫu này trong cách sử dụng DeepSeek V4 miễn phí.
Một lệnh gọi Python tối thiểu đối với bất kỳ mô hình nào trong số bảy mô hình:
from openai import OpenAI
client = OpenAI(
api_key="ollama", # any string; Ollama ignores it
base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(
model="qwen3.6:32b",
messages=[
{"role": "user", "content": "Summarize the differences between MoE and dense models in three bullets."}
],
temperature=0.3,
)
print(resp.choices[0].message.content)
Hoán đổi qwen3.6:32b bằng deepseek-v4-flash, llama5.1:8b, hoặc bất kỳ thẻ Ollama nào khác và định dạng gọi là giống hệt nhau.
Kiểm tra mô hình cục bộ với Apidog
Đây là phần quan trọng đối với môi trường sản xuất. Sự khác biệt lớn nhất giữa mô hình được lưu trữ và mô hình cục bộ không phải là chất lượng; mà là khả năng gỡ lỗi của bạn.

Khi OpenAI gặp sự cố, bạn đọc trang trạng thái của họ và chờ đợi. Khi Ollama gặp sự cố, bạn là người phải xử lý lỗi đó. Bạn cần kiểm tra yêu cầu thô, phát lại nó với các tham số khác nhau, so sánh đầu ra streaming giữa hai phiên bản mô hình và đo hiệu năng thông lượng trên các phần cứng khác nhau. Sử dụng Curl sẽ nhanh chóng trở nên lỗi thời.
Apidog xem điểm cuối Ollama hoặc vLLM của bạn như bất kỳ API nào khác. Năm điều bạn có thể làm với nó:
Lưu các yêu cầu chuẩn. Xây dựng một bộ sưu tập yêu cầu cho mỗi mô hình với các lời nhắc, nhiệt độ, max_tokens và định nghĩa công cụ thực tế. Nhóm của bạn phát lại chúng sau mỗi lần thay đổi mô hình để xác nhận hành vi.
So sánh đầu ra giữa các mô hình. Tính năng so sánh phản hồi của Apidog làm nổi bật sự khác biệt cấp độ token khi bạn phát lại cùng một lời nhắc với Qwen, DeepSeek và Llama. Phát hiện các lỗi hồi quy trong vài giây.
Giả lập điểm cuối khi CI chạy. Khi các pipeline CI gọi mô hình cục bộ, bạn không muốn chúng thực sự khởi động một quy trình 24 GB. Apidog giả lập điểm cuối với các luồng JSON thực tế, do đó các bài kiểm tra đơn vị vượt qua mà không cần truy cập GPU.
Đo hiệu năng thông lượng token. Chế độ xem hiệu suất tích hợp ghi lại độ trễ, thời gian đến token đầu tiên và số token mỗi giây qua các lần chạy. So sánh lượng tử hóa Q4 và Q5 một cách nhanh chóng.
Tài liệu hóa API cục bộ cho đồng đội. Các dự án Apidog xuất ra OpenAPI 3.1, vì vậy một đồng đội tham gia dự án sẽ nhận được một hợp đồng chính xác về "làm thế nào để gọi Qwen nội bộ của chúng ta?". Chúng tôi đề cập đến quy trình làm việc tương tự trong Apidog như một giải pháp thay thế Postman.
Những lỗi thường gặp khi chạy LLM cục bộ
Những lỗi này làm vấp ngã hầu hết mọi đội trong tháng đầu tiên.
Chọn mô hình lớn nhất mà GPU có thể chứa. Một mô hình 32B ở Q3 thường tệ hơn một mô hình 14B ở Q5. Chất lượng lượng tử hóa quan trọng hơn số lượng tham số một khi bạn vượt quá 4 bit.
Quên rằng độ dài ngữ cảnh tỷ lệ với VRAM. Một ngữ cảnh 32K token trên mô hình 32B cần khoảng 4 GB bộ đệm KV ở Q4. Hãy dành chỗ cho nó trước khi tải.
Chạy các mô hình tinh chỉnh từ các bản tải lên ngẫu nhiên trên Hugging Face. Hãy tuân thủ thẻ mô hình gốc hoặc các mô hình tinh chỉnh nổi tiếng từ các tác giả có uy tín. Một mô hình tinh chỉnh bị "đầu độc" là một rủi ro thực sự.
Bỏ qua lớp giả lập. Các mô hình cục bộ có thể gặp sự cố. Trình điều khiển gặp lỗi, các tiến trình bị OOM-killed (hết bộ nhớ), GPU bị điều tiết. Các lần chạy CI trực tiếp gọi mô hình sẽ trở nên không ổn định. Giả lập điểm cuối trong Apidog và các bài kiểm tra của bạn sẽ không còn phụ thuộc vào tình trạng phần cứng.
Bỏ qua sự khác biệt về định dạng gọi công cụ. Llama 5.1, Qwen 3.6 và DeepSeek V4 đều hỗ trợ gọi công cụ nhưng tạo ra các định dạng JSON hơi khác nhau. Hãy kiểm tra từng loại trước khi thay đổi mô hình trong môi trường sản xuất.
Các trường hợp sử dụng thực tế
Một công ty khởi nghiệp vận hành tác nhân hỗ trợ khách hàng đã chuyển từ GPT-5.5 sang Qwen 3.6 32B trên một chiếc 4090 duy nhất. Độ trễ duy trì dưới 800 ms, hóa đơn suy luận hàng tháng giảm từ 9.400 đô la xuống 0 đô la, và nhóm sử dụng tính năng giả lập của Apidog để giữ cho CI mang tính xác định.
Một nhà phát triển độc lập xây dựng trợ lý giọng nói chạy Gemma 4 9B trên một chiếc M2 Pro với 16 GB bộ nhớ hợp nhất. Các bản nháp dự đoán đa token mang lại 60 token mỗi giây, đủ nhanh để trợ lý có cảm giác tự nhiên.
Một nhóm nghiên cứu công nghệ tài chính chạy DeepSeek V4 Flash trên hai chiếc 4090 để tóm tắt hàng loạt các hồ sơ quy định vào ban đêm. Chi phí cho mỗi bản tóm tắt là tiền điện, cộng với thời gian bảo trì thiết bị.
Kết luận
LLM cục bộ tốt nhất vào năm 2026 là mô hình phù hợp với VRAM, ngân sách độ trễ và tiêu chuẩn chất lượng mà sản phẩm của bạn yêu cầu. Hầu hết các nhóm sẽ chọn Qwen 3.6 32B hoặc DeepSeek V4 Flash cho các card 24 GB, Llama 5.1 8B hoặc Gemma 4 9B cho phần cứng nhỏ hơn, và GLM 5 khi khối lượng công việc là gọi công cụ.
Năm điểm chính:
- Chất lượng cục bộ ngang bằng với lưu trữ trên hầu hết các tác vụ; vấn đề là sự phù hợp của phần cứng, chứ không phải khả năng.
- Ollama cộng với một máy khách tương thích OpenAI là cách nhanh nhất để triển khai một mô hình phục vụ HTTP.
- Chất lượng lượng tử hóa (Q4, Q5) quan trọng hơn số lượng tham số tuyệt đối.
- Xử lý điểm cuối cục bộ như bất kỳ API sản xuất nào: lưu yêu cầu, giả lập cho CI, đo hiệu năng, tài liệu hóa.
- Apidog là nơi tốt nhất để thực hiện công việc đó và chia sẻ nó với đồng đội.
Bước tiếp theo: chọn mô hình phù hợp với phần cứng của bạn, chạy ollama pull <name>, và trỏ Apidog đến http://localhost:11434/v1. Bạn sẽ có thể đo hiệu năng và phát lại trong vòng một giờ.
FAQ
LLM cục bộ tốt nhất cho GPU 24 GB vào năm 2026 là gì?
Đối với hầu hết các khối lượng công việc, Qwen 3.6 32B ở Q4 hoặc DeepSeek V4 Flash ở Q4. Chọn Qwen cho các tác vụ đa ngôn ngữ hoặc nặng về công cụ; chọn DeepSeek V4 Flash cho suy luận và lập trình. Cả hai đều được tài liệu hóa trong hướng dẫn cài đặt DeepSeek V4 cục bộ của chúng tôi.
Tôi có thể chạy LLM cục bộ trên máy Mac không?
Có. Apple silicon với 16 GB bộ nhớ hợp nhất trở lên chạy Llama 5.1 8B và Gemma 4 9B một cách thoải mái. M3 Ultra với 192 GB chạy DeepSeek V4 Pro ở Q4. Sử dụng Ollama hoặc LM Studio.
Làm cách nào để kiểm tra LLM cục bộ giống như cách tôi kiểm tra OpenAI?
Trỏ máy khách tương thích OpenAI của bạn (và dự án Apidog của bạn) đến URL phục vụ cục bộ. Ollama hiển thị http://localhost:11434/v1, vLLM hiển thị :8000/v1. Cùng một định dạng yêu cầu, URL cơ sở khác nhau.
Chất lượng LLM cục bộ thực sự ngang bằng với mô hình được lưu trữ không?
Về suy luận, lập trình, phân loại, trích xuất và gọi công cụ: có, trong phạm vi phần trăm một chữ số đối với các mô hình mở hàng đầu. Về thị giác, hỏi đáp tài liệu ngữ cảnh dài và viết sáng tạo: mô hình được lưu trữ vẫn dẫn đầu với một khoảng cách đáng kể.
Chi phí thì sao?
Một GPU 4090 chạy DeepSeek V4 Flash với chi phí tiền điện (khoảng 30 đô la mỗi tháng với mức sử dụng thông thường). Một dịch vụ lưu trữ tương đương với cùng khối lượng sẽ tốn hàng trăm đến hàng nghìn đô la mỗi tháng. Điểm hòa vốn thường là khoảng 5 triệu token mỗi tháng.
Làm cách nào để chuyển đổi một ứng dụng sản xuất giữa mô hình được lưu trữ và mô hình cục bộ?
Giữ nguyên máy khách OpenAI; thay đổi URL cơ sở và tên mô hình. Kiểm tra việc chuyển đổi bằng các công cụ phát lại để các khác biệt về hành vi được phát hiện trước khi người dùng nhìn thấy chúng. Chúng tôi đề cập đến điều này trong kiểm thử API không cần Postman.
Tôi có thể xem bảng xếp hạng mới nhất ở đâu?
Bảng xếp hạng LLM mở của Hugging Face và sân đấu Chatbot LMSYS được cập nhật thường xuyên. Hãy tham khảo cả hai, vì chúng đo lường những điều khác nhau.
