Gemma 4 12B là gì?

Gemma 4 12B: mô hình nguồn mở của Google ra mắt tháng 6 năm 2026, hỗ trợ âm thanh gốc, kiến trúc đa phương thức không cần bộ mã hóa, dung lượng ngữ cảnh 256K, giấy phép Apache 2.0, chạy được trên laptop 16GB.

Ashley Innocent

Ashley Innocent

4 tháng 6 2026

Gemma 4 12B là gì?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Google đã phát hành Gemma 4 12B vào ngày 3 tháng 6 năm 2026. Đây là một mô hình mã nguồn mở với 11,95 tỷ tham số có khả năng đọc văn bản, hình ảnh, âm thanh và video, đồng thời có thể chạy trên laptop với 16GB bộ nhớ. Chi tiết nổi bật: đây là mô hình cỡ trung đầu tiên có đầu vào âm thanh gốc, và nó thực hiện điều này mà không cần bộ mã hóa hình ảnh hoặc âm thanh riêng biệt.

Điểm cuối cùng đó là điều làm nên sự khác biệt. Hầu hết các mô hình đa phương thức đều gắn một bộ mã hóa hình ảnh và một bộ mã hóa âm thanh vào mô hình ngôn ngữ. Gemma 4 12B loại bỏ cả hai và đưa các mảng hình ảnh thô cùng dạng sóng âm thanh trực tiếp vào mô hình. Bạn có một tệp 12B duy nhất xử lý bốn loại đầu vào, chạy ngoại tuyến và được phát hành theo giấy phép Apache 2.0 mà bạn có thể sử dụng cho mục đích thương mại.

nút

Đây là mô hình đó, vị trí của nó trong gia đình Gemma 4, và những gì bạn có thể xây dựng với nó. Nếu bạn muốn chạy nó ngay hôm nay, hãy chuyển đến hướng dẫn đi kèm về cách sử dụng Gemma 4 12B miễn phí.

Tổng quan về Gemma 4 12B

Thông số kỹ thuật Giá trị
Phát hành Ngày 3 tháng 6 năm 2026
Tham số 11,95B (mật độ)
Đầu vào Văn bản, hình ảnh, âm thanh, video
Đầu ra Văn bản
Cửa sổ ngữ cảnh 256K token
Kiến trúc Đa phương thức hợp nhất không bộ mã hóa
Giấy phép Apache 2.0
Chạy trên 16GB VRAM hoặc bộ nhớ hợp nhất (khoảng 8GB ở 4-bit)
Các biến thể google/gemma-4-12B (cơ bản), google/gemma-4-12B-it (tinh chỉnh theo hướng dẫn)

Câu trả lời ngắn gọn

Gemma 4 12B là một mô hình nguồn mở dày đặc, 12 tỷ tham số từ Google DeepMind, có khả năng nhận văn bản, hình ảnh, âm thanh và video làm đầu vào và trả về văn bản. Nó được tinh chỉnh để chạy cục bộ trên phần cứng tiêu dùng, với cửa sổ ngữ cảnh 256K token, khả năng gọi công cụ gốc và chế độ suy luận từng bước tùy chọn.

Nó nằm ở giữa dòng sản phẩm Gemma 4. Google mô tả nó như một cầu nối giữa mô hình E4B thân thiện với thiết bị biên và mô hình Mixture-of-Experts 26B lớn hơn, với chất lượng tiệm cận 26B trên một số tiêu chuẩn mà chỉ tốn chưa đến một nửa dung lượng bộ nhớ.

Vị trí của 12B trong gia đình Gemma 4

Gemma 4 không ra mắt cùng một lúc. Các mô hình E2B, E4B, 26B và 31B đã ra mắt vào ngày 31 tháng 3 năm 2026. 12B là thành viên mới nhất, được bổ sung vào ngày 3 tháng 6. Dưới đây là toàn bộ dòng sản phẩm:

Mô hình Kích thước Ngữ cảnh Ghi chú
Gemma 4 E2B 2.3B hiệu quả (5.1B thô) 128K Trên thiết bị, đầu vào âm thanh
Gemma 4 E4B 4.5B hiệu quả (8B thô) 128K Nhỏ gọn, đầu vào âm thanh
Gemma 4 12B 11.95B mật độ 256K Không bộ mã hóa, đầu vào âm thanh
Gemma 4 26B A4B 4B hoạt động / 26B tổng (MoE) 256K Hỗn hợp chuyên gia
Gemma 4 31B 31B mật độ 256K Hiệu suất đỉnh cao

12B là mô hình duy nhất trong dòng được xây dựng dựa trên thiết kế không bộ mã hóa. Các mô hình khác vẫn giữ bộ mã hóa hình ảnh truyền thống (và bộ mã hóa âm thanh conformer trên hai mô hình nhỏ hơn). Điều đó khiến 12B trở thành minh chứng rõ ràng nhất về hướng mà Google đang phát triển AI đa phương thức trên thiết bị.

Để có cái nhìn tổng thể về cách các mô hình này so sánh với các mô hình nguồn mở khác, hãy xem bài so sánh MiniMax M3, DeepSeek V4 và Qwen 3.7 của chúng tôi và cuộc chiến giá cả mô hình mã nguồn mở rộng hơn.

“Không bộ mã hóa” thực sự có nghĩa là gì

Các mô hình đa phương thức tiêu chuẩn hoạt động qua hai giai đoạn. Một bộ mã hóa hình ảnh biến hình ảnh thành các embedding, một bộ mã hóa âm thanh biến âm thanh thành các embedding, và sau đó một bộ chiếu ánh xạ chúng vào không gian của mô hình ngôn ngữ. Đó là ba thành phần cần tải, tinh chỉnh và giữ trong bộ nhớ.

Gemma 4 12B loại bỏ các bộ mã hóa. Theo tài liệu của Google:

Đầu vào hình ảnh và âm thanh chảy thẳng vào xương sống của mô hình ngôn ngữ. Một mô hình, một bộ trọng số, mỗi phương thức được xử lý như các token.

Hai lựa chọn kiến trúc nữa giúp nó hiệu quả trên phần cứng nhỏ:

Google cũng cung cấp một bộ soạn thảo Dự đoán Đa Token (MTP) để giải mã suy đoán, có thể tăng tốc suy luận từ đầu đến cuối lên tới khoảng 3 lần mà không làm thay đổi chất lượng đầu ra.

Âm thanh gốc và đa phương thức đầy đủ

Nhiều mô hình nguồn mở có thể đọc hình ảnh. Gemma 4 12B là mô hình cỡ trung đầu tiên nhận đầu vào âm thanh gốc, trong cùng một mô hình xử lý văn bản và hình ảnh. Điều này mở ra một loại công việc khác:

Thứ tự đầu vào quan trọng khi bạn trộn các phương thức. Mẫu chat mong đợi nội dung hình ảnh trước lời nhắc văn bản và âm thanh sau đó. Mô hình trả về văn bản trong mọi trường hợp.

Hiệu suất của Gemma 4 12B

Đây là các điểm số đã công bố cho mô hình `gemma-4-12B-it` được tinh chỉnh theo hướng dẫn, từ thẻ mô hình của Hugging Face:

Tiêu chuẩn Gemma 4 12B-it
MMLU Pro (suy luận) 77.2%
AIME 2026 (toán học, không công cụ) 77.5%
GPQA Diamond (khoa học) 78.8%
LiveCodeBench v6 (viết mã) 72.0%
Codeforces (ELO) 1659
MMMU Pro (thị giác) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-kim (ngữ cảnh dài) 43.4%

Để đặt điều đó trong bối cảnh gia đình, đây là cách 12B nằm giữa các thành viên lân cận trong một vài bài kiểm tra tiêu biểu:

Tiêu chuẩn E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

Mẫu hình rõ ràng. 12B nằm cao hơn hẳn E4B thuộc lớp 4B và trong tầm với của 26B MoE, đây chính là điều Google đang hướng tới: hầu hết chất lượng của mô hình lớn hơn, trên một cỗ máy bạn đã sở hữu.

Có gì mới so với Gemma 3

Nếu bạn đã sử dụng Gemma 3, bốn điều sau đây nổi bật:

  1. Âm thanh gốc. Gemma 3 chỉ có văn bản và thị giác. 12B bổ sung âm thanh và video có âm thanh trong mô hình cơ bản.
  2. Thiết kế không bộ mã hóa. Không cần tải bộ mã hóa hình ảnh hoặc âm thanh bổ sung.
  3. Ngữ cảnh 256K. Gấp bốn lần không gian cho tài liệu dài, bản ghi và mã đa tệp.
  4. Apache 2.0. Các phiên bản Gemma trước đây sử dụng giấy phép Gemma tùy chỉnh với các hạn chế sử dụng. Gemma 4 chuyển sang Apache 2.0 tiêu chuẩn, đơn giản hơn cho mục đích thương mại và phân phối lại.

Bạn có thể xây dựng gì với nó

12B hướng đến các công việc chạy trên thiết bị, không phải trên đám mây:

Bởi vì nó cung cấp một giao diện trò chuyện tiêu chuẩn thông qua các trình chạy như Ollama và llama.cpp, bạn có thể sử dụng các công cụ hiện có với nó. Khi bạn kết nối một mô hình cục bộ vào một ứng dụng, bạn vẫn muốn xác nhận hình dạng yêu cầu và phản hồi. Một công cụ như Apidog cho phép bạn lưu điểm cuối cục bộ, gửi các lời nhắc mẫu và kiểm tra JSON trước khi bạn xây dựng dựa trên nó. Bạn có thể tải Apidog miễn phí và hướng nó đến máy chủ cục bộ trong vòng một phút. Chi tiết hơn về điều này có trong hướng dẫn sử dụng miễn phí.

Giấy phép và những gì Apache 2.0 mang lại cho bạn

Gemma 4 12B được phát hành theo Apache 2.0. Nói một cách đơn giản:

Đây là một sự thay đổi thực sự so với giấy phép Gemma trước đây, vốn đi kèm với các điều khoản chính sách sử dụng riêng của Google. Apache 2.0 là giấy phép tự do tương tự đứng sau một danh sách dài các cơ sở hạ tầng mở, vì vậy việc xem xét pháp lý thường nhanh chóng.

Phần cứng bạn cần

Mục tiêu của Google là một máy có 16GB, VRAM hoặc bộ nhớ hợp nhất kiểu Apple. Lượng tử hóa làm giảm con số đó:

Điều đó khiến 12B nằm trong tầm với của một GPU chơi game phổ thông, một MacBook 16GB hoặc một máy trạm tầm trung. Các mô hình E2B và E4B nhỏ hơn thậm chí còn yêu cầu ít hơn nếu phần cứng của bạn hạn chế.

Những hạn chế cần biết

Google trực tiếp nói về những đánh đổi trong thẻ mô hình:

Đây là những cảnh báo thông thường đối với một mô hình mã nguồn mở 12B. Nó sẽ không thay thế một mô hình đám mây tiên tiến cho những suy luận khó nhất, nhưng đó không phải là vấn đề. Vấn đề là AI đa phương thức có khả năng chạy tại nơi dữ liệu của bạn đã tồn tại.

Câu hỏi thường gặp

Gemma 4 12B có miễn phí không? Có. Các trọng số là mã nguồn mở theo Apache 2.0 và có thể tải xuống miễn phí từ Hugging Face và Kaggle. Bạn chỉ phải trả tiền cho phần cứng hoặc đám mây mà bạn chạy nó. Xem cách sử dụng Gemma 4 12B miễn phí.

Gemma 4 12B có thực sự hiểu âm thanh không? Có. Nó nhận âm thanh thô làm đầu vào và có thể chuyển ngữ lời nói, nhận dạng người nói và trả lời các câu hỏi về âm thanh. Đây là mô hình cỡ trung đầu tiên thực hiện điều này một cách nguyên bản thay vì thông qua một mô hình giọng nói riêng biệt.

Sự khác biệt giữa gemma-4-12Bgemma-4-12B-it là gì? Mô hình cơ bản chỉ được huấn luyện trước. Phiên bản `-it` được tinh chỉnh theo hướng dẫn cho trò chuyện, sử dụng công cụ và tuân theo chỉ dẫn. Hầu hết mọi người đều muốn phiên bản `-it`.

12B khác với 26B và 31B như thế nào? 12B dày đặc và không bộ mã hóa, được tinh chỉnh cho các máy 16GB. 26B là mô hình Mixture-of-Experts (4B hoạt động, tổng cộng 26B), và 31B là một mô hình dày đặc lớn hơn cho chất lượng tiên tiến. Cả hai mô hình lớn hơn đều đạt điểm cao hơn trong các tiêu chuẩn nhưng cần nhiều bộ nhớ hơn.

Gemma 4 12B có hỗ trợ gọi công cụ không? Có. Nó hỗ trợ gọi hàm văn bản và đa phương thức, cộng với chế độ suy nghĩ tùy chọn để suy luận từng bước, điều này làm cho nó có thể sử dụng được cho các quy trình làm việc theo tác nhân.

Nó so sánh với Gemini 3.5 như thế nào? Các công việc khác nhau. Gemini 3.5 là mô hình tiên tiến được Google lưu trữ; xem Gemini 3.5 là gì. Gemma 4 12B là một mô hình nguồn mở mà bạn tự chạy. Bạn đánh đổi một số chất lượng đỉnh cao để có quyền riêng tư, sử dụng ngoại tuyến và chi phí mỗi token bằng không.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API