Thế giới Mô hình Ngôn ngữ Lớn (LLM) đã bùng nổ, thường gợi lên hình ảnh những siêu máy tính khổng lồ dựa trên đám mây xử lý văn bản. Nhưng điều gì sẽ xảy ra nếu bạn có thể khai thác sức mạnh AI đáng kể ngay trên máy tính cá nhân của mình, mà không cần kết nối internet liên tục hoặc các gói đăng ký đám mây đắt đỏ? Thực tế thú vị là bạn có thể. Nhờ những tiến bộ trong kỹ thuật tối ưu hóa, một loại "LLM cục bộ nhỏ" mới đã xuất hiện, mang lại khả năng đáng chú ý trong khi vẫn nằm gọn trong giới hạn bộ nhớ của phần cứng tiêu dùng – cụ thể là yêu cầu dưới 8GB RAM hoặc VRAM.
Muốn một nền tảng Tích hợp, Tất cả trong Một cho Đội ngũ Phát triển của bạn làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi yêu cầu của bạn, và thay thế Postman với mức giá phải chăng hơn nhiều!
Hãy nói về LLM Lượng tử hóa trước tiên
Để tận dụng hiệu quả các LLM cục bộ nhỏ, việc hiểu biết nền tảng về các khái niệm kỹ thuật chính là điều cần thiết. Sự tương tác giữa các thành phần phần cứng và kỹ thuật tối ưu hóa mô hình quyết định hiệu suất và khả năng truy cập.
Một điểm gây nhầm lẫn phổ biến đối với người dùng mới là sự khác biệt giữa VRAM (Bộ nhớ Video RAM) và RAM hệ thống. VRAM là bộ nhớ chuyên dụng, tốc độ cao nằm trực tiếp trên card đồ họa (GPU) của bạn. Nó được thiết kế đặc biệt cho các tác vụ xử lý song song, nhanh chóng mà GPU vượt trội, chẳng hạn như kết xuất đồ họa hoặc thực hiện các phép nhân ma trận khổng lồ đóng vai trò trung tâm trong suy luận LLM. Ngược lại, RAM hệ thống thông thường chậm hơn nhưng thường dồi dào hơn, đóng vai trò là bộ nhớ chính cho bộ xử lý trung tâm (CPU) của máy tính và các ứng dụng chung. Để hoạt động LLM hiệu quả, các tham số (trọng số) của mô hình và các phép tính trung gian (kích hoạt) lý tưởng nhất là nằm hoàn toàn trong VRAM nhanh, cho phép GPU truy cập chúng ngay lập tức và xử lý thông tin nhanh chóng. Nếu các thành phần của mô hình buộc phải nằm trong RAM hệ thống chậm hơn, quá trình suy luận sẽ bị cản trở đáng kể, dẫn đến thời gian phản hồi chậm hơn nhiều.
Công nghệ nền tảng giúp chạy các mô hình ngôn ngữ lớn khả thi trên phần cứng tiêu dùng là lượng tử hóa.

Quá trình này giảm đáng kể dung lượng bộ nhớ cần thiết của LLM bằng cách biểu diễn trọng số mô hình với ít bit hơn, ví dụ: sử dụng số nguyên 4-bit hoặc 8-bit thay vì độ chính xác dấu phẩy động 16-bit hoặc 32-bit tiêu chuẩn. Kỹ thuật này cho phép một mô hình 7 tỷ tham số, thường yêu cầu khoảng 14GB ở FP16 (độ chính xác đầy đủ), có thể chạy chỉ với 4-5GB bằng cách sử dụng lượng tử hóa 4-bit. Việc giảm bộ nhớ và tải tính toán này trực tiếp giải quyết các rào cản về chi phí phần cứng cao và tiêu thụ năng lượng, giúp các khả năng AI tiên tiến có thể truy cập được trên các thiết bị tiêu dùng tiêu chuẩn.
Định dạng GGUF đã nổi lên như tiêu chuẩn để lưu trữ và tải các mô hình cục bộ đã được lượng tử hóa, mang lại khả năng tương thích rộng rãi trên nhiều công cụ suy luận khác nhau. Trong hệ sinh thái GGUF, tồn tại các loại lượng tử hóa khác nhau, mỗi loại mang lại sự đánh đổi riêng biệt giữa kích thước tệp, chất lượng và tốc độ suy luận. Đối với nhiều trường hợp sử dụng chung, Q4_K_M thường được khuyến nghị vì nó đạt được sự cân bằng giữa chất lượng và hiệu quả bộ nhớ. Mặc dù lượng tử hóa rất hiệu quả, việc đẩy xuống tốc độ bit rất thấp, chẳng hạn như Q2_K hoặc IQ3_XS, có thể dẫn đến sự suy giảm đáng chú ý về chất lượng mô hình.
Cũng cần lưu ý rằng yêu cầu VRAM hoặc RAM thực tế để chạy một LLM hơi cao hơn kích thước tệp đã được lượng tử hóa của mô hình. Điều này là do cần thêm bộ nhớ để lưu trữ dữ liệu đầu vào (lời nhắc và ngữ cảnh) và kết quả tính toán trung gian (kích hoạt). Thông thường, chi phí phụ này có thể được ước tính là khoảng 1,2 lần kích thước cơ sở của mô hình.
Bắt đầu với LLM cục bộ và Ollama
Hệ sinh thái để chạy các LLM cục bộ đã trưởng thành đáng kể, cung cấp nhiều công cụ phù hợp với các sở thích và trình độ kỹ thuật khác nhau của người dùng. Hai nền tảng nổi bật nhờ tính dễ sử dụng và khả năng mạnh mẽ của chúng.

Ollama là một công cụ mạnh mẽ và tập trung vào nhà phát triển, được thiết kế để chạy LLM cục bộ một cách đơn giản và hiệu quả. Giao diện chính của nó là giao diện dòng lệnh (CLI), cho phép thiết lập và quản lý mô hình dễ dàng. Ollama vượt trội ở khả năng đóng gói mô hình tích hợp và tính năng "Modelfile", cho phép người dùng tùy chỉnh mô hình và tích hợp chúng một cách liền mạch vào các tập lệnh và nhiều ứng dụng khác nhau. Nền tảng này nhẹ và được tối ưu hóa hiệu suất, lý tưởng cho việc triển khai nhanh chóng, lặp lại trong môi trường phát triển hoặc quy trình làm việc tự động.

Đối với những người dùng thích giao diện đồ họa (GUI), LM Studio thường là lựa chọn hàng đầu. Nó cung cấp một ứng dụng máy tính để bàn trực quan với thiết kế gọn gàng, giao diện trò chuyện tích hợp và hệ thống thân thiện với người dùng để duyệt và tải xuống các mô hình định dạng GGUF trực tiếp từ Hugging Face. LM Studio đơn giản hóa việc quản lý mô hình, cho phép người dùng dễ dàng chuyển đổi giữa các LLM khác nhau và điều chỉnh các tham số trực tiếp từ giao diện người dùng. Phản hồi trực quan tức thì này đặc biệt có lợi cho người mới bắt đầu và người dùng không chuyên về kỹ thuật, tạo điều kiện thử nghiệm nhanh chóng và kiểm tra lời nhắc mà không yêu cầu kiến thức về dòng lệnh.
Nhiều công cụ thân thiện với người dùng, bao gồm cả LM Studio, thường sử dụng Llama.cpp làm công cụ suy luận cơ bản của chúng. Llama.cpp là một công cụ suy luận hiệu suất cao được viết bằng C++ chủ yếu sử dụng định dạng GGUF và hỗ trợ tăng tốc trên cả CPU và GPU.
Phần lựa chọn sau đây nêu bật mười LLM nhỏ có khả năng cao có thể chạy cục bộ trên các hệ thống có ít hơn 8GB VRAM, mang lại sự cân bằng giữa hiệu suất, tính linh hoạt và hiệu quả. Dung lượng bộ nhớ được cung cấp tập trung vào các phiên bản GGUF đã được lượng tử hóa, được tối ưu hóa cho phần cứng tiêu dùng.
Các LLM nhỏ bạn có thể khám phá
Llama 3.1 8B (Đã lượng tử hóa)
ollama run llama3.1:8b
Llama 3.1 8B của Meta là một mô hình mã nguồn mở được đánh giá cao, được công nhận về hiệu suất tổng thể mạnh mẽ và hiệu quả chi phí ấn tượng. Nó là một phần của dòng Llama 3.1, đã được hưởng lợi từ những cải tiến đáng kể trong dữ liệu đào tạo và kỹ thuật tối ưu hóa, bao gồm việc tăng gấp bảy lần dữ liệu đào tạo (hơn 15 nghìn tỷ token) so với các phiên bản trước.

Mặc dù mô hình 8B đầy đủ thường yêu cầu nhiều VRAM hơn, các phiên bản đã được lượng tử hóa thấp hơn của nó được thiết kế để phù hợp với giới hạn VRAM/RAM 8GB. Ví dụ, lượng tử hóa Q2_K có kích thước tệp là 3,18 GB và yêu cầu khoảng 7,20 GB bộ nhớ. Tương tự, Q3_K_M (tệp 4,02 GB, yêu cầu 7,98 GB bộ nhớ) là một lựa chọn khả thi cho các hệ thống có bộ nhớ hạn chế.
Llama 3.1 8B vượt trội về hiệu suất AI đàm thoại, được đo bằng Tỷ lệ thắng AlpacaEval 2.0. Nó thể hiện khả năng mạnh mẽ trong tạo mã (HumanEval Pass@1), tóm tắt văn bản (CNN/DailyMail Rouge-L-Sum để xử lý đánh giá sản phẩm và email) và các tác vụ Tạo sinh tăng cường truy xuất (RAG) (MS Marco Rouge-L-Sum để trả lời câu hỏi chính xác và tóm tắt tìm kiếm ngôn ngữ tự nhiên). Nó cũng hiệu quả trong việc tạo đầu ra có cấu trúc từ văn bản, chẳng hạn như trích xuất các khái niệm thành tải trọng JSON, và cung cấp tổng quan về các đoạn mã ngắn. Hiệu quả của nó làm cho nó phù hợp với xử lý hàng loạt và quy trình làm việc dựa trên tác nhân.
Mistral 7B (Đã lượng tử hóa)
ollama run mistral:7b
Mistral 7B là một mô hình transformer mật độ đầy đủ, được ca ngợi rộng rãi về hiệu quả, tốc độ và dung lượng VRAM nhỏ gọn. Nó kết hợp các kỹ thuật kiến trúc tiên tiến như Grouped-Query Attention (GQA) và Sliding Window Attention (SWA) để nâng cao hiệu suất.

Mô hình này được tối ưu hóa cao cho môi trường VRAM thấp. Các phiên bản đã được lượng tử hóa như Q4_K_M (tệp 4,37 GB, yêu cầu 6,87 GB bộ nhớ) và Q5_K_M (tệp 5,13 GB, yêu cầu 7,63 GB bộ nhớ) nằm gọn trong ngân sách VRAM 8GB. Mistral 7B là lựa chọn tuyệt vời cho suy luận AI nhanh, độc lập và các ứng dụng thời gian thực, nơi độ trễ thấp là rất quan trọng. Nó thể hiện hiệu suất mạnh mẽ trong các tác vụ kiến thức chung và suy luận có cấu trúc. Dung lượng VRAM nhỏ gọn của nó làm cho nó phù hợp để triển khai trên các thiết bị biên. Nó hiệu quả cho trò chuyện đa lượt và có thể được sử dụng trong các giải pháp chatbot AI cho các yêu cầu chung. Giấy phép Apache 2.0 của nó đặc biệt thuận lợi cho các trường hợp sử dụng thương mại.
Gemma 3:4b (Đã lượng tử hóa)
ollama run gemma3:4b
Mô hình Gemma 3:4B tham số là một thành viên trong dòng Gemma của Google DeepMind, được thiết kế đặc biệt để đạt hiệu quả và hiệu suất tiên tiến trong một gói nhẹ. Dung lượng bộ nhớ của nó đặc biệt nhỏ, giúp nó dễ dàng truy cập trên nhiều loại phần cứng.

Chẳng hạn, lượng tử hóa Q4_K_M có kích thước tệp là 1,71 GB và được khuyến nghị cho các hệ thống có 4GB VRAM. Việc sử dụng bộ nhớ tối thiểu này làm cho nó trở thành ứng cử viên lý tưởng cho việc tạo mẫu nhanh và triển khai trên phần cứng rất thấp cấp, bao gồm cả thiết bị di động. Gemma 3:4B rất phù hợp cho các tác vụ tạo văn bản cơ bản, trả lời câu hỏi và tóm tắt. Nó có thể hiệu quả cho việc truy xuất thông tin nhanh chóng và các ứng dụng Nhận dạng ký tự quang học (OCR). Mặc dù kích thước nhỏ, Gemma 3:4B vẫn thể hiện hiệu suất mạnh mẽ.
Gemma 7B (Đã lượng tử hóa)
ollama run gemma:7b
Là phiên bản lớn hơn trong dòng Gemma, mô hình 7B mang lại khả năng nâng cao trong khi vẫn có thể chạy trên phần cứng tiêu dùng. Nó chia sẻ các thành phần kỹ thuật và hạ tầng với các mô hình Gemini lớn hơn của Google, cho phép nó đạt hiệu suất cao trực tiếp trên máy tính xách tay hoặc máy tính để bàn của nhà phát triển.

Các phiên bản đã được lượng tử hóa của Gemma 7B, chẳng hạn như Q5_K_M (tệp 6,14 GB) và Q6_K (tệp 7,01 GB), nằm gọn trong giới hạn VRAM 8GB. Nó thường yêu cầu ít nhất 8GB RAM hệ thống để đạt hiệu suất tối ưu. Gemma 7B là một mô hình đa năng, có khả năng xử lý nhiều loại tác vụ xử lý ngôn ngữ tự nhiên, bao gồm tạo văn bản, trả lời câu hỏi, tóm tắt và suy luận. Nó thể hiện khả năng trong tạo và giải thích mã, cũng như giải quyết các truy vấn toán học. Kiến trúc của nó, được chia sẻ với các mô hình Gemini lớn hơn, cho phép hiệu suất cao trên máy tính xách tay hoặc máy tính để bàn của nhà phát triển, biến nó thành một công cụ có giá trị cho việc tạo nội dung, AI đàm thoại và khám phá kiến thức.
Phi-3 Mini (3.8B, Đã lượng tử hóa)
ollama run phi3
Phi-3 Mini của Microsoft là một mô hình nhẹ, tiên tiến, nổi bật nhờ hiệu quả đặc biệt và tập trung mạnh mẽ vào các thuộc tính chất lượng cao, giàu suy luận. Mô hình này thách thức quan niệm thông thường rằng chỉ có các LLM lớn hơn mới có thể xử lý hiệu quả các tác vụ phức tạp. Phi-3 Mini có hiệu quả bộ nhớ đáng kể. Ví dụ, lượng tử hóa Q8_0 có kích thước tệp là 4,06 GB và yêu cầu khoảng 7,48 GB bộ nhớ, nằm gọn trong giới hạn 8GB.

Ngay cả phiên bản FP16 (độ chính xác đầy đủ) của nó cũng có kích thước tệp là 7,64 GB, mặc dù yêu cầu 10,82 GB bộ nhớ. Phi-3 Mini xuất sắc trong hiểu ngôn ngữ, suy luận logic, viết mã và giải quyết vấn đề toán học. Kích thước nhỏ gọn và thiết kế của nó làm cho nó phù hợp với môi trường bị hạn chế bộ nhớ/tính toán và các tình huống bị giới hạn độ trễ, bao gồm triển khai trên thiết bị di động. Nó đặc biệt phù hợp với các lời nhắc được đưa ra ở định dạng trò chuyện và có thể đóng vai trò là khối xây dựng cho các tính năng được hỗ trợ bởi AI tạo sinh.
DeepSeek R1 7B/8B (Đã lượng tử hóa)
ollama run deepseek-r1:7b
Các mô hình DeepSeek, bao gồm các biến thể 7B và 8B, được công nhận về khả năng suy luận mạnh mẽ và hiệu quả tính toán. Biến thể DeepSeek-R1-0528-Qwen3-8B đã được nhấn mạnh là có lẽ là mô hình suy luận tốt nhất ở kích thước 8B, đã được chưng cất từ một mô hình lớn hơn để đạt hiệu suất cao. Lượng tử hóa DeepSeek R1 7B Q4_K_M có kích thước tệp là 4,22 GB và yêu cầu khoảng 6,72 GB bộ nhớ.

Mô hình DeepSeek R1 8B có kích thước mô hình chung là 4,9 GB, với VRAM khuyến nghị là 6GB. Các cấu hình này nằm gọn trong giới hạn 8GB. Các mô hình DeepSeek mạnh mẽ trong hiểu ngôn ngữ tự nhiên, tạo văn bản, trả lời câu hỏi, và đặc biệt xuất sắc trong suy luận và tạo mã. Dung lượng tính toán tương đối thấp của chúng làm cho chúng trở thành một lựa chọn hấp dẫn cho các doanh nghiệp nhỏ và vừa (SMB) và các nhà phát triển tìm cách triển khai các giải pháp AI mà không phải chịu chi phí đám mây khổng lồ, phù hợp với các hệ thống hỗ trợ khách hàng thông minh, phân tích dữ liệu nâng cao và tạo nội dung tự động.
Qwen 1.5/2.5 7B (Đã lượng tử hóa)
ollama run qwen:7b
Dòng Qwen từ Alibaba cung cấp nhiều loại mô hình đa dạng, với các biến thể 7B đóng vai trò là một nền tảng cân bằng cho các ứng dụng AI đa mục đích. Qwen 1.5, được coi là phiên bản beta của Qwen2, cung cấp hỗ trợ đa ngôn ngữ và độ dài ngữ cảnh ổn định là 32K token.

Về dung lượng bộ nhớ, lượng tử hóa Qwen 1.5 7B Q5_K_M có kích thước tệp là 5,53 GB. Qwen2.5 7B có kích thước mô hình chung là 4,7 GB, với VRAM khuyến nghị là 6GB. Các mô hình này nằm gọn trong giới hạn VRAM 8GB. Các mô hình Qwen 7B rất linh hoạt, phù hợp cho AI đàm thoại, tạo nội dung, các tác vụ suy luận cơ bản và dịch ngôn ngữ. Cụ thể, mô hình Qwen 7B Chat thể hiện hiệu suất mạnh mẽ trong hiểu tiếng Trung và tiếng Anh, viết mã và toán học, đồng thời hỗ trợ ReAct Prompting để sử dụng công cụ. Hiệu quả của nó làm cho nó phù hợp với chatbot hỗ trợ khách hàng và hỗ trợ lập trình cơ bản.
Deepseek-coder-v2 6.7B (Đã lượng tử hóa)
ollama run deepseek-coder-v2:6.7b
Deepseek-coder-v2 6.7B là một mô hình chuyên biệt từ DeepSeek, được thiết kế tỉ mỉ cho các tác vụ cụ thể về mã hóa. Biến thể đã được tinh chỉnh này nhằm mục đích nâng cao đáng kể khả năng tạo và hiểu mã. Với kích thước mô hình là 3,8 GB và VRAM khuyến nghị là 6GB, nó nằm gọn trong giới hạn 8GB, giúp các nhà phát triển có phần cứng hạn chế dễ dàng truy cập. Các trường hợp sử dụng chính của nó bao gồm hoàn thành mã, tạo các đoạn mã và giải thích mã hiện có. Đối với các nhà phát triển và lập trình viên hoạt động với VRAM hạn chế, Deepseek-coder-v2 6.7B cung cấp các khả năng chuyên biệt cao, biến nó thành lựa chọn hàng đầu để hỗ trợ mã hóa cục bộ.
BitNet b1.58 2B4T
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
BitNet b1.58 2B4T của Microsoft đại diện cho một mô hình mã nguồn mở mang tính cách mạng sử dụng định dạng trọng số 1.58-bit, dẫn đến giảm đáng kể bộ nhớ và tiêu thụ năng lượng trong khi vẫn duy trì hiệu suất cạnh tranh. Hiệu quả bộ nhớ vô song của nó, chỉ yêu cầu 0,4 GB bộ nhớ không nhúng, làm cho nó lý tưởng cho các môi trường cực kỳ hạn chế tài nguyên, bao gồm các thiết bị AI biên như điện thoại thông minh, máy tính xách tay và thiết bị IoT, cũng như cho suy luận chỉ bằng CPU hiệu quả.

Nó mang khả năng LLM hiệu suất cao đến các thiết bị thiếu hỗ trợ GPU chuyên dụng, cho phép dịch trên thiết bị, đề xuất nội dung và trợ lý giọng nói di động có khả năng hơn mà không cần kết nối đám mây liên tục. Mặc dù nó có thể thể hiện độ chính xác thấp hơn một chút so với các mô hình lớn hơn nhiều, hiệu suất của nó so với kích thước là đáng chú ý. Hiệu quả bộ nhớ vô song và khả năng chạy hiệu quả trên CPU của nó định vị nó như một yếu tố thay đổi cuộc chơi về khả năng tiếp cận và tính bền vững trong bối cảnh AI.
Orca-Mini 7B (Đã lượng tử hóa)
ollama run orca-mini:7b
Orca-Mini 7B là một mô hình đa mục đích được xây dựng dựa trên kiến trúc Llama và Llama 2, được đào tạo trên các tập dữ liệu Orca Style. Nó có sẵn ở nhiều kích thước khác nhau, với biến thể 7B được chứng minh là một lựa chọn phù hợp cho phần cứng cấp thấp. Mô hình orca-mini:7b có kích thước tệp là 3,8 GB. Các phiên bản đã được lượng tử hóa như Q4_K_M (tệp 4,08 GB, yêu cầu 6,58 GB bộ nhớ) và Q5_K_M (tệp 4,78 GB, yêu cầu 7,28 GB bộ nhớ) nằm trong giới hạn 8GB. Nó thường yêu cầu ít nhất 8GB RAM hệ thống để hoạt động tối ưu. Orca-Mini 7B rất phù hợp cho việc tạo văn bản chung, trả lời câu hỏi và các tác vụ đàm thoại. Nó thể hiện khả năng tuân thủ hướng dẫn mạnh mẽ và có thể được sử dụng hiệu quả để xây dựng các tác nhân AI. Biến thể Mistral-7B-OpenOrca đã được tinh chỉnh, dựa trên nghiên cứu Orca, cho thấy hiệu suất đặc biệt trong tạo văn bản và mã, trả lời câu hỏi và tham gia vào cuộc trò chuyện.
Kết luận
Các mô hình được nêu bật trong báo cáo này—bao gồm Llama 3 8B, Mistral 7B, Gemma 2B và 7B, Phi-3 Mini, DeepSeek R1 7B/8B, Qwen 1.5/2.5 7B, Deepseek-coder-v2 6.7B, BitNet b1.58 2B4T và Orca-Mini 7B—đại diện cho sự tiên phong trong khả năng tiếp cận này. Mỗi mô hình cung cấp sự kết hợp độc đáo giữa khả năng, hiệu quả bộ nhớ và các trường hợp sử dụng lý tưởng, làm cho chúng phù hợp với nhiều loại tác vụ đa dạng, từ trò chuyện chung và viết sáng tạo đến hỗ trợ mã hóa chuyên biệt và suy luận phức tạp.
Hiệu quả của các mô hình này trên các hệ thống có VRAM hạn chế phần lớn là nhờ các kỹ thuật lượng tử hóa tiên tiến, giúp giảm đáng kể dung lượng bộ nhớ cần thiết mà không làm giảm chất lượng nghiêm trọng. Những tiến bộ không ngừng trong hiệu quả mô hình và sự tập trung ngày càng tăng vào triển khai AI biên báo hiệu một tương lai nơi các khả năng AI tinh vi được tích hợp liền mạch vào các thiết bị hàng ngày. Người dùng được khuyến khích thử nghiệm với các mô hình được đề xuất, vì lựa chọn "tốt nhất" cuối cùng mang tính chủ quan và phụ thuộc vào cấu hình phần cứng cá nhân và các yêu cầu ứng dụng cụ thể. Cộng đồng mã nguồn mở sôi động tiếp tục đóng góp vào bối cảnh đang phát triển này, đảm bảo một tương lai năng động và đổi mới cho các LLM cục bộ.
Muốn một nền tảng Tích hợp, Tất cả trong Một cho Đội ngũ Phát triển của bạn làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi yêu cầu của bạn, và thay thế Postman với mức giá phải chăng hơn nhiều!