Gemma 4 12B là mã nguồn mở (open-weights) và được cấp phép Apache 2.0, vì vậy "miễn phí" ở đây có nghĩa là hoàn toàn miễn phí. Không có hóa đơn API và không có phí đăng ký. Bạn tải mô hình về và chạy nó trên máy của mình, hoặc dùng thử trong một tab trình duyệt. Chi phí duy nhất là phần cứng bạn đã sở hữu.
Một điều cần biết trước: phiên bản 12B được xây dựng để sử dụng cục bộ và trên thiết bị. Các phiên bản lớn hơn, 31B và 26B, là những phiên bản mà Google cung cấp để trò chuyện miễn phí trong AI Studio. Điểm mạnh của 12B là nó chạy trên một máy tính xách tay 16GB, vì vậy các cách miễn phí dưới đây sẽ giúp bạn cài đặt nó nhanh chóng trên phần cứng của mình. Mới làm quen với mô hình này? Bắt đầu với Gemma 4 12B là gì để biết thông số kỹ thuật.

Dưới đây là sáu phương pháp hoạt động, từ bản demo trên trình duyệt trong 60 giây đến một API cục bộ đầy đủ mà bạn có thể xây dựng dựa vào đó.
Tóm tắt nhanh
| Phương pháp | Bạn nhận được gì | Phù hợp nhất cho |
|---|---|---|
| Hugging Face Space | Trò chuyện trên trình duyệt, không cần cài đặt | Thử ngay trong một phút |
| Ollama | Mô hình cục bộ + API tương thích OpenAI | Nhà phát triển, một lệnh |
| LM Studio | Ứng dụng máy tính để bàn cục bộ với GUI | Không cần terminal |
| llama.cpp | Máy chủ API cục bộ gọn nhẹ | Thiết lập nâng cao và ít tài nguyên |
| HF Transformers | Python, kiểm soát hoàn toàn, GPU Colab miễn phí | Sổ ghi chép và tinh chỉnh |
| Google AI Edge | Trên thiết bị, di động | Điện thoại và phần cứng biên |
Phương pháp 1: Dùng thử trong trình duyệt của bạn (không cần cài đặt)
Cách nhanh nhất để xem Gemma 4 12B là dùng thử bản demo chính thức trên Hugging Face Space. Không cần tải xuống, không cần tài khoản, không cần GPU.

- Mở Gemma 4 12B demo Space
- Nhập một lời nhắc, hoặc tải lên một hình ảnh hoặc clip âm thanh
- Đọc phản hồi
Đây là cách phù hợp để kiểm tra nhanh. Bạn cũng có thể kiểm tra khả năng đa phương thức, vì Space chấp nhận đầu vào là hình ảnh và âm thanh. Khi bạn sẵn sàng xây dựng một cái gì đó thực sự, hãy chuyển sang một trong các phương pháp cục bộ dưới đây.
Phương pháp 2: Ollama (mặc định dành cho nhà phát triển)
Ollama là cách đơn giản nhất để chạy Gemma 4 12B cục bộ và có được một API hoạt động. Một lần cài đặt, một lần tải về, xong.

Cài đặt Ollama
Trên macOS hoặc Linux:
curl -fsSL https://ollama.com/install.sh | sh
Trên Windows, tải xuống trình cài đặt từ ollama.com và chạy nó.
Tải và chạy mô hình
ollama pull gemma4:12b
ollama run gemma4:12b
Lệnh đầu tiên tải xuống mô hình (mặc định là bản dựng 4-bit Q4_K_M, khoảng 8GB). Lệnh thứ hai sẽ đưa bạn vào một cuộc trò chuyện tương tác. Gõ /bye để thoát.
Sử dụng API cục bộ
Đây là phần mà các nhà phát triển quan tâm. Ollama cung cấp một REST API tương thích OpenAI tại http://localhost:11434. Không có khóa, không có đám mây, không giới hạn tốc độ.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Giải thích cách transformers hoạt động trong hai câu."}
]
}'
Vì điểm cuối khớp với định dạng OpenAI, bất kỳ SDK hoặc công cụ nào giao tiếp với OpenAI đều hoạt động bằng cách trỏ URL cơ sở đến localhost:11434/v1. Điều này bao gồm các trình soạn thảo, framework tác nhân và client API. Đối với một mẫu thiết lập IDE, cách tiếp cận này tương tự với hướng dẫn sử dụng DeepSeek V4 trong Cursor của chúng tôi; chỉ cần thay chuỗi mô hình thành gemma4:12b.
Các lệnh hữu ích:
ollama listhiển thị các mô hình đã tải xuốngollama pshiển thị những gì đang chạyollama show gemma4:12bin chi tiết mô hình
Phương pháp 3: LM Studio (không cần terminal)
Nếu bạn không muốn chạm vào dòng lệnh, LM Studio là một ứng dụng máy tính để bàn dành cho Windows, macOS và Linux.
- Tải xuống và cài đặt LM Studio
- Tìm kiếm Gemma 4 12B trong danh mục mô hình
- Chọn một quantization phù hợp với RAM của bạn và tải xuống
- Mở tab trò chuyện và bắt đầu đưa ra lời nhắc
LM Studio cũng chạy một máy chủ cục bộ với điểm cuối tương thích OpenAI, thường là trên cổng 1234, vì vậy bạn có được một API mà không cần viết bất kỳ dòng mã nào. Đây là cách thân thiện nhất cho các nhà thiết kế, nhà văn và bất kỳ ai muốn một cửa sổ trò chuyện hơn là một tệp cấu hình.
Phương pháp 4: llama.cpp (nhẹ và nhanh)
llama.cpp chạy các mô hình GGUF với ít tài nguyên bổ sung và đi kèm với máy chủ tương thích OpenAI của riêng nó.
Cài đặt nó:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Sau đó, khởi động một máy chủ trỏ đến bản dựng GGUF chính thức. Duyệt qua bộ sưu tập ggml-org/gemma-4 trên Hugging Face để tìm tên kho 12B chính xác, sau đó chuyển nó cho llama-server:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Điều đó sẽ hiển thị một API tương thích OpenAI tại http://localhost:8080/v1. Cách này là tốt nhất khi bạn muốn ít phụ thuộc nhất hoặc bạn đang chạy trên phần cứng khiêm tốn. Nó cũng là động cơ đằng sau một số công cụ khác, vì vậy việc học nó rất đáng giá.
Phương pháp 5: Hugging Face Transformers (kiểm soát hoàn toàn)
Đối với sổ ghi chép, script hoặc tinh chỉnh, hãy chạy mô hình với Transformers trong Python. Nếu bạn không có GPU cục bộ, một sổ ghi chép Google Colab miễn phí sẽ cung cấp cho bạn một cái.
Cài đặt các thư viện:
pip install transformers torch accelerate torchvision
# thêm librosa cho đầu vào âm thanh và video
pip install librosa
Sau đó tải mô hình đã được tinh chỉnh theo hướng dẫn và tạo:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "Bạn là một trợ lý hữu ích."},
{"role": "user", "content": "Viết một câu chuyện cười ngắn về việc tiết kiệm RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Đặt enable_thinking=True để bật chế độ suy luận từng bước. Để cung cấp một tệp hình ảnh hoặc âm thanh, hãy thêm một danh sách nội dung với {"type": "image", ...} trước văn bản và {"type": "audio", ...} sau đó. Các trọng số cũng có trên Kaggle nếu bạn thích nguồn đó. Các mẫu mã đầy đủ nằm trong hướng dẫn dành cho nhà phát triển.
Phương pháp 6: Google AI Edge (trên thiết bị và di động)
Để chạy Gemma 4 12B trên điện thoại hoặc thiết bị biên, Google cung cấp bộ công cụ AI Edge. Ứng dụng Google AI Edge Gallery và CLI LiteRT-LM đều chạy 12B trên thiết bị.
Đối với một máy chủ cục bộ với LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Đây là con đường cho các trợ lý di động ngoại tuyến và các ứng dụng nhúng nơi dữ liệu không bao giờ rời khỏi thiết bị.
Kiểm tra API Gemma 4 12B cục bộ của bạn với Apidog
Khi Gemma 4 12B đang chạy qua Ollama hoặc llama.cpp, bạn sẽ có một API HTTP thực sự trên máy của mình. Trước khi tích hợp nó vào một ứng dụng, việc kiểm tra nó trong một client API phù hợp sẽ giúp bạn biết chính xác hình dạng yêu cầu và phản hồi. Apidog được xây dựng cho mục đích đó.

Đây là một thiết lập gọn gàng:
- Tải xuống Apidog và tạo một dự án HTTP mới
- Thêm một yêu cầu
POSTtớihttp://localhost:11434/v1/chat/completions - Đặt phần thân là JSON và dán một payload mẫu:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Trả về một đối tượng JSON với hai trường: thành phố và quốc gia."}
],
"stream": false
}
- Lưu URL cơ sở dưới dạng biến môi trường để bạn có thể chuyển đổi giữa Ollama (
:11434) và llama.cpp (:8080) chỉ với một cú nhấp chuột - Thêm một xác nhận phản hồi để xác nhận mô hình trả về JSON hợp lệ trong trường
content - Chuyển
"stream": truevà xem Apidog hiển thị các token đã truyền, đây là cách bạn sẽ xác nhận luồng hoạt động trước khi bạn xây dựng giao diện người dùng xung quanh nó
Lợi ích: bạn sẽ phát hiện ra lời nhắc bị lỗi định dạng hoặc tên trường sai trong Apidog, thay vì phải đào sâu ba lớp trong mã ứng dụng của bạn. Nếu bạn đang so sánh các client, hãy xem danh sách tổng hợp của chúng tôi về các công cụ kiểm tra API trực tuyến miễn phí và các lựa chọn thay thế Postman tốt nhất. Quy trình kiểm tra tương tự hoạt động cho bất kỳ điểm cuối tương thích OpenAI nào, vì vậy các thói quen này cũng áp dụng trực tiếp cho các quy trình làm việc kiểu cách kiểm tra API với Postman.
Bạn nên chọn quantization nào?
Gemma 4 12B phù hợp với các máy khác nhau tùy thuộc vào mức độ nén của nó:
| Bản dựng | Bộ nhớ cần thiết | Đánh đổi |
|---|---|---|
| Độ chính xác đầy đủ | ~16GB | Chất lượng tốt nhất |
| 8-bit | ~14GB | Chất lượng gần như đầy đủ |
| 4-bit (Q4_K_M) | ~8GB | Chất lượng giảm nhẹ, chạy rộng rãi |
Ollama mặc định sử dụng bản dựng 4-bit, đó là lý do tại sao nó chạy trên GPU 8GB hoặc MacBook 16GB. Nếu bạn có dung lượng dư, bản dựng 8-bit sẽ mang lại cho bạn chất lượng tốt hơn với thêm vài gigabyte.
Bạn nên chọn phương pháp miễn phí nào?
Một cây quyết định nhanh:
- Chỉ tò mò? Bản demo Hugging Face Space
- Đang xây dựng phần mềm? Ollama, cho API cục bộ một lệnh
- Không muốn dùng terminal? LM Studio
- Phần cứng hoặc phụ thuộc tối thiểu? llama.cpp
- Sổ ghi chép hoặc tinh chỉnh? Transformers, với Colab miễn phí cho GPU
- Điện thoại hoặc thiết bị biên? Google AI Edge
Hầu hết các nhà phát triển chọn Ollama để sử dụng hàng ngày và giữ lại Transformers cho các công việc nặng hơn.
Mẹo để tận dụng tối đa Gemma cục bộ miễn phí
- Chọn lượng tử hóa (quantization) phù hợp với RAM của bạn. Một mô hình phải hoán đổi sang đĩa sẽ chạy chậm. Bản dựng 4-bit là mặc định an toàn.
- Sử dụng chế độ suy luận cho các vấn đề khó. Đặt
enable_thinking=Truecho các bài toán và suy luận đa bước, tắt nó đi để trò chuyện nhanh nhằm tiết kiệm thời gian. - Giữ lời nhắc trong cửa sổ 256K. Nó lớn, nhưng các bản ghi và cơ sở mã dài sẽ làm đầy nó.
- Xác thực các yêu cầu trong Apidog trước. Xác nhận hình dạng JSON trước khi ứng dụng của bạn phụ thuộc vào nó.
- So sánh với các mô hình miễn phí khác. Mẫu cục bộ tương tự cũng hoạt động cho các đường dẫn truy cập Qwen 3.7, MiniMax M3 và Claude Opus 4.8.
Câu hỏi thường gặp
Gemma 4 12B có thực sự miễn phí không? Có. Đây là mã nguồn mở (open-weights) Apache 2.0, miễn phí tải xuống và chạy, bao gồm cả mục đích thương mại. Bạn chỉ trả tiền cho phần cứng hoặc đám mây mà bạn chạy nó.
Tôi có cần GPU không? Không, nhưng có GPU sẽ tốt hơn. Bản dựng 4-bit chạy trên GPU 8GB hoặc máy Mac có bộ nhớ hợp nhất 16GB. Chỉ chạy trên CPU thì vẫn hoạt động nhưng chậm.
Tôi có thể sử dụng Gemma 4 12B trong Google AI Studio không? Hiện tại thì không. AI Studio lưu trữ các mô hình 31B và 26B để trò chuyện miễn phí trên trình duyệt. Phiên bản 12B được xây dựng để sử dụng cục bộ và trên thiết bị, vì vậy bạn tự chạy nó bằng các phương pháp trên.
API cục bộ có cần khóa API không? Không. Ollama và llama.cpp phục vụ mô hình trên localhost mà không cần khóa. Nếu một công cụ yêu cầu trường khóa, hãy đặt bất kỳ chuỗi giữ chỗ nào; máy chủ cục bộ sẽ bỏ qua nó.
Tôi có thể gọi nó từ mã OpenAI hiện có của mình không? Có. Cả Ollama và llama.cpp đều cung cấp các điểm cuối tương thích OpenAI. Chỉ cần trỏ URL cơ sở của bạn đến http://localhost:11434/v1 (Ollama) hoặc http://localhost:8080/v1 (llama.cpp) và giữ nguyên mã của bạn.
Làm cách nào để chạy các tính năng hình ảnh và âm thanh? Sử dụng Transformers, LM Studio hoặc các ứng dụng AI Edge, chúng hỗ trợ đầu vào đa phương tiện. Thêm nội dung hình ảnh trước lời nhắc văn bản của bạn và nội dung âm thanh sau đó.
Ollama hay llama.cpp nhanh hơn? Chúng sử dụng cùng một công cụ cơ bản. llama.cpp có ít tài nguyên bổ sung và nhiều cờ tinh chỉnh hơn; Ollama dễ cài đặt hơn. Đối với hầu hết mọi người, sự khác biệt là nhỏ.
