Google đã phát hành Gemma 4 12B vào ngày 3 tháng 6 năm 2026. Đây là một mô hình mã nguồn mở với 11,95 tỷ tham số có khả năng đọc văn bản, hình ảnh, âm thanh và video, đồng thời có thể chạy trên laptop với 16GB bộ nhớ. Chi tiết nổi bật: đây là mô hình cỡ trung đầu tiên có đầu vào âm thanh gốc, và nó thực hiện điều này mà không cần bộ mã hóa hình ảnh hoặc âm thanh riêng biệt.
Điểm cuối cùng đó là điều làm nên sự khác biệt. Hầu hết các mô hình đa phương thức đều gắn một bộ mã hóa hình ảnh và một bộ mã hóa âm thanh vào mô hình ngôn ngữ. Gemma 4 12B loại bỏ cả hai và đưa các mảng hình ảnh thô cùng dạng sóng âm thanh trực tiếp vào mô hình. Bạn có một tệp 12B duy nhất xử lý bốn loại đầu vào, chạy ngoại tuyến và được phát hành theo giấy phép Apache 2.0 mà bạn có thể sử dụng cho mục đích thương mại.
Đây là mô hình đó, vị trí của nó trong gia đình Gemma 4, và những gì bạn có thể xây dựng với nó. Nếu bạn muốn chạy nó ngay hôm nay, hãy chuyển đến hướng dẫn đi kèm về cách sử dụng Gemma 4 12B miễn phí.
Tổng quan về Gemma 4 12B
| Thông số kỹ thuật | Giá trị |
|---|---|
| Phát hành | Ngày 3 tháng 6 năm 2026 |
| Tham số | 11,95B (mật độ) |
| Đầu vào | Văn bản, hình ảnh, âm thanh, video |
| Đầu ra | Văn bản |
| Cửa sổ ngữ cảnh | 256K token |
| Kiến trúc | Đa phương thức hợp nhất không bộ mã hóa |
| Giấy phép | Apache 2.0 |
| Chạy trên | 16GB VRAM hoặc bộ nhớ hợp nhất (khoảng 8GB ở 4-bit) |
| Các biến thể | google/gemma-4-12B (cơ bản), google/gemma-4-12B-it (tinh chỉnh theo hướng dẫn) |
Câu trả lời ngắn gọn
Gemma 4 12B là một mô hình nguồn mở dày đặc, 12 tỷ tham số từ Google DeepMind, có khả năng nhận văn bản, hình ảnh, âm thanh và video làm đầu vào và trả về văn bản. Nó được tinh chỉnh để chạy cục bộ trên phần cứng tiêu dùng, với cửa sổ ngữ cảnh 256K token, khả năng gọi công cụ gốc và chế độ suy luận từng bước tùy chọn.

Nó nằm ở giữa dòng sản phẩm Gemma 4. Google mô tả nó như một cầu nối giữa mô hình E4B thân thiện với thiết bị biên và mô hình Mixture-of-Experts 26B lớn hơn, với chất lượng tiệm cận 26B trên một số tiêu chuẩn mà chỉ tốn chưa đến một nửa dung lượng bộ nhớ.
Vị trí của 12B trong gia đình Gemma 4
Gemma 4 không ra mắt cùng một lúc. Các mô hình E2B, E4B, 26B và 31B đã ra mắt vào ngày 31 tháng 3 năm 2026. 12B là thành viên mới nhất, được bổ sung vào ngày 3 tháng 6. Dưới đây là toàn bộ dòng sản phẩm:
| Mô hình | Kích thước | Ngữ cảnh | Ghi chú |
|---|---|---|---|
| Gemma 4 E2B | 2.3B hiệu quả (5.1B thô) | 128K | Trên thiết bị, đầu vào âm thanh |
| Gemma 4 E4B | 4.5B hiệu quả (8B thô) | 128K | Nhỏ gọn, đầu vào âm thanh |
| Gemma 4 12B | 11.95B mật độ | 256K | Không bộ mã hóa, đầu vào âm thanh |
| Gemma 4 26B A4B | 4B hoạt động / 26B tổng (MoE) | 256K | Hỗn hợp chuyên gia |
| Gemma 4 31B | 31B mật độ | 256K | Hiệu suất đỉnh cao |
12B là mô hình duy nhất trong dòng được xây dựng dựa trên thiết kế không bộ mã hóa. Các mô hình khác vẫn giữ bộ mã hóa hình ảnh truyền thống (và bộ mã hóa âm thanh conformer trên hai mô hình nhỏ hơn). Điều đó khiến 12B trở thành minh chứng rõ ràng nhất về hướng mà Google đang phát triển AI đa phương thức trên thiết bị.
Để có cái nhìn tổng thể về cách các mô hình này so sánh với các mô hình nguồn mở khác, hãy xem bài so sánh MiniMax M3, DeepSeek V4 và Qwen 3.7 của chúng tôi và cuộc chiến giá cả mô hình mã nguồn mở rộng hơn.
“Không bộ mã hóa” thực sự có nghĩa là gì
Các mô hình đa phương thức tiêu chuẩn hoạt động qua hai giai đoạn. Một bộ mã hóa hình ảnh biến hình ảnh thành các embedding, một bộ mã hóa âm thanh biến âm thanh thành các embedding, và sau đó một bộ chiếu ánh xạ chúng vào không gian của mô hình ngôn ngữ. Đó là ba thành phần cần tải, tinh chỉnh và giữ trong bộ nhớ.
Gemma 4 12B loại bỏ các bộ mã hóa. Theo tài liệu của Google:
- Thị giác: một mô-đun embedding nhẹ (một phép nhân ma trận duy nhất cộng với các embedding vị trí và chuẩn hóa) chiếu trực tiếp các mảng hình ảnh thô vào không gian embedding của mô hình.
- Âm thanh: bộ mã hóa âm thanh đã bị loại bỏ. Âm thanh thô được chiếu vào cùng không gian chiều với các token văn bản, do đó âm thanh và từ ngữ chia sẻ một đường dẫn duy nhất.
Đầu vào hình ảnh và âm thanh chảy thẳng vào xương sống của mô hình ngôn ngữ. Một mô hình, một bộ trọng số, mỗi phương thức được xử lý như các token.
Hai lựa chọn kiến trúc nữa giúp nó hiệu quả trên phần cứng nhỏ:
- Embedding theo từng lớp (PLE): mỗi lớp decoder nhận một embedding chuyên dụng nhỏ kết hợp tra cứu nhận dạng token với chiếu nhạy ngữ cảnh. Điều này giúp giảm chi phí tham số đồng thời cho phép các lớp chuyên biệt hóa.
- Bộ đệm KV dùng chung: vài lớp cuối cùng tái sử dụng các tensor khóa-giá trị từ các lớp trước đó thay vì tính toán riêng. Điều này giúp tiết kiệm bộ nhớ trong các lần chạy ngữ cảnh dài và trên thiết bị mà ít ảnh hưởng đến chất lượng.
Google cũng cung cấp một bộ soạn thảo Dự đoán Đa Token (MTP) để giải mã suy đoán, có thể tăng tốc suy luận từ đầu đến cuối lên tới khoảng 3 lần mà không làm thay đổi chất lượng đầu ra.
Âm thanh gốc và đa phương thức đầy đủ
Nhiều mô hình nguồn mở có thể đọc hình ảnh. Gemma 4 12B là mô hình cỡ trung đầu tiên nhận đầu vào âm thanh gốc, trong cùng một mô hình xử lý văn bản và hình ảnh. Điều này mở ra một loại công việc khác:
- Nhận dạng và chuyển đổi giọng nói tự động
- Phân tách người nói (ai nói khi nào)
- Trả lời câu hỏi âm thanh trên các âm thanh không phải lời nói
- Hiểu video, kèm âm thanh, không chỉ các khung hình
- Các tác vụ hình ảnh: chú thích, phát hiện đối tượng và giao diện người dùng, suy luận hình ảnh
Thứ tự đầu vào quan trọng khi bạn trộn các phương thức. Mẫu chat mong đợi nội dung hình ảnh trước lời nhắc văn bản và âm thanh sau đó. Mô hình trả về văn bản trong mọi trường hợp.
Hiệu suất của Gemma 4 12B
Đây là các điểm số đã công bố cho mô hình `gemma-4-12B-it` được tinh chỉnh theo hướng dẫn, từ thẻ mô hình của Hugging Face:
| Tiêu chuẩn | Gemma 4 12B-it |
|---|---|
| MMLU Pro (suy luận) | 77.2% |
| AIME 2026 (toán học, không công cụ) | 77.5% |
| GPQA Diamond (khoa học) | 78.8% |
| LiveCodeBench v6 (viết mã) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (thị giác) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-kim (ngữ cảnh dài) | 43.4% |
Để đặt điều đó trong bối cảnh gia đình, đây là cách 12B nằm giữa các thành viên lân cận trong một vài bài kiểm tra tiêu biểu:
| Tiêu chuẩn | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Mẫu hình rõ ràng. 12B nằm cao hơn hẳn E4B thuộc lớp 4B và trong tầm với của 26B MoE, đây chính là điều Google đang hướng tới: hầu hết chất lượng của mô hình lớn hơn, trên một cỗ máy bạn đã sở hữu.
Có gì mới so với Gemma 3
Nếu bạn đã sử dụng Gemma 3, bốn điều sau đây nổi bật:
- Âm thanh gốc. Gemma 3 chỉ có văn bản và thị giác. 12B bổ sung âm thanh và video có âm thanh trong mô hình cơ bản.
- Thiết kế không bộ mã hóa. Không cần tải bộ mã hóa hình ảnh hoặc âm thanh bổ sung.
- Ngữ cảnh 256K. Gấp bốn lần không gian cho tài liệu dài, bản ghi và mã đa tệp.
- Apache 2.0. Các phiên bản Gemma trước đây sử dụng giấy phép Gemma tùy chỉnh với các hạn chế sử dụng. Gemma 4 chuyển sang Apache 2.0 tiêu chuẩn, đơn giản hơn cho mục đích thương mại và phân phối lại.
Bạn có thể xây dựng gì với nó
12B hướng đến các công việc chạy trên thiết bị, không phải trên đám mây:
- Trợ lý ngoại tuyến có thể nhìn màn hình và nghe micro của bạn mà không gửi dữ liệu ra ngoài
- Công cụ họp và gọi điện có thể chuyển ngữ, phân tách người nói và tóm tắt cục bộ
- Các quy trình tài liệu và phương tiện truyền thông kết hợp PDF, ảnh chụp màn hình và âm thanh trong một lời nhắc
- Các quy trình làm việc theo tác nhân: nó hỗ trợ gọi hàm và sử dụng công cụ, vì vậy nó có thể lập kế hoạch và hành động
- Hỗ trợ viết mã ở mức LiveCodeBench 72.0%, có thể sử dụng cho tính năng tự động hoàn thành và tái cấu trúc cục bộ
Bởi vì nó cung cấp một giao diện trò chuyện tiêu chuẩn thông qua các trình chạy như Ollama và llama.cpp, bạn có thể sử dụng các công cụ hiện có với nó. Khi bạn kết nối một mô hình cục bộ vào một ứng dụng, bạn vẫn muốn xác nhận hình dạng yêu cầu và phản hồi. Một công cụ như Apidog cho phép bạn lưu điểm cuối cục bộ, gửi các lời nhắc mẫu và kiểm tra JSON trước khi bạn xây dựng dựa trên nó. Bạn có thể tải Apidog miễn phí và hướng nó đến máy chủ cục bộ trong vòng một phút. Chi tiết hơn về điều này có trong hướng dẫn sử dụng miễn phí.
Giấy phép và những gì Apache 2.0 mang lại cho bạn
Gemma 4 12B được phát hành theo Apache 2.0. Nói một cách đơn giản:
- Bạn có thể sử dụng nó cho mục đích thương mại.
- Bạn có thể sửa đổi, tinh chỉnh và phân phối lại nó.
- Bạn có thể chạy nó trong các sản phẩm mã nguồn đóng.
- Bạn giữ quyền sở hữu các đầu ra của mình.
Đây là một sự thay đổi thực sự so với giấy phép Gemma trước đây, vốn đi kèm với các điều khoản chính sách sử dụng riêng của Google. Apache 2.0 là giấy phép tự do tương tự đứng sau một danh sách dài các cơ sở hạ tầng mở, vì vậy việc xem xét pháp lý thường nhanh chóng.
Phần cứng bạn cần
Mục tiêu của Google là một máy có 16GB, VRAM hoặc bộ nhớ hợp nhất kiểu Apple. Lượng tử hóa làm giảm con số đó:
- Chất lượng đầy đủ: khoảng 16GB
- 8-bit: khoảng 14GB
- 4-bit (Q4_K_M): khoảng 8GB, mặc định trong Ollama
Điều đó khiến 12B nằm trong tầm với của một GPU chơi game phổ thông, một MacBook 16GB hoặc một máy trạm tầm trung. Các mô hình E2B và E4B nhỏ hơn thậm chí còn yêu cầu ít hơn nếu phần cứng của bạn hạn chế.
Những hạn chế cần biết
Google trực tiếp nói về những đánh đổi trong thẻ mô hình:
- Nó có thể tạo ra các sự kiện không chính xác hoặc lỗi thời; hãy xác minh bất kỳ thông tin quan trọng nào.
- Nó có thể phản ánh những thành kiến trong dữ liệu huấn luyện của nó.
- Nó xử lý sự châm biếm, sắc thái và ngôn ngữ tượng hình không đồng đều.
- Suy luận thông thường có những giới hạn, giống như bất kỳ mô hình nào có kích thước này.
- Chất lượng đầu ra phụ thuộc vào độ rõ ràng của lời nhắc và ngữ cảnh bạn cung cấp.
Đây là những cảnh báo thông thường đối với một mô hình mã nguồn mở 12B. Nó sẽ không thay thế một mô hình đám mây tiên tiến cho những suy luận khó nhất, nhưng đó không phải là vấn đề. Vấn đề là AI đa phương thức có khả năng chạy tại nơi dữ liệu của bạn đã tồn tại.
Câu hỏi thường gặp
Gemma 4 12B có miễn phí không? Có. Các trọng số là mã nguồn mở theo Apache 2.0 và có thể tải xuống miễn phí từ Hugging Face và Kaggle. Bạn chỉ phải trả tiền cho phần cứng hoặc đám mây mà bạn chạy nó. Xem cách sử dụng Gemma 4 12B miễn phí.
Gemma 4 12B có thực sự hiểu âm thanh không? Có. Nó nhận âm thanh thô làm đầu vào và có thể chuyển ngữ lời nói, nhận dạng người nói và trả lời các câu hỏi về âm thanh. Đây là mô hình cỡ trung đầu tiên thực hiện điều này một cách nguyên bản thay vì thông qua một mô hình giọng nói riêng biệt.
Sự khác biệt giữa gemma-4-12B và gemma-4-12B-it là gì? Mô hình cơ bản chỉ được huấn luyện trước. Phiên bản `-it` được tinh chỉnh theo hướng dẫn cho trò chuyện, sử dụng công cụ và tuân theo chỉ dẫn. Hầu hết mọi người đều muốn phiên bản `-it`.
12B khác với 26B và 31B như thế nào? 12B dày đặc và không bộ mã hóa, được tinh chỉnh cho các máy 16GB. 26B là mô hình Mixture-of-Experts (4B hoạt động, tổng cộng 26B), và 31B là một mô hình dày đặc lớn hơn cho chất lượng tiên tiến. Cả hai mô hình lớn hơn đều đạt điểm cao hơn trong các tiêu chuẩn nhưng cần nhiều bộ nhớ hơn.
Gemma 4 12B có hỗ trợ gọi công cụ không? Có. Nó hỗ trợ gọi hàm văn bản và đa phương thức, cộng với chế độ suy nghĩ tùy chọn để suy luận từng bước, điều này làm cho nó có thể sử dụng được cho các quy trình làm việc theo tác nhân.
Nó so sánh với Gemini 3.5 như thế nào? Các công việc khác nhau. Gemini 3.5 là mô hình tiên tiến được Google lưu trữ; xem Gemini 3.5 là gì. Gemma 4 12B là một mô hình nguồn mở mà bạn tự chạy. Bạn đánh đổi một số chất lượng đỉnh cao để có quyền riêng tư, sử dụng ngoại tuyến và chi phí mỗi token bằng không.
