Cách Chạy Gemma 4 Làm API Backend

Ashley Innocent

Ashley Innocent

3 tháng 4 2026

Cách Chạy Gemma 4 Làm API Backend

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

TL;DR: Google đã phát hành Gemma 4 vào tháng 4 năm 2026, một dòng gồm bốn mô hình mã nguồn mở được cấp phép theo Apache 2.0, vượt trội hơn các mô hình lớn gấp 20 lần về kích thước trên các điểm chuẩn tiêu chuẩn. Bạn có thể gọi API Gemma 4 thông qua Google AI Studio, Vertex AI, hoặc chạy cục bộ với Ollama và vLLM. Kết hợp nó với Smart Mock của Apidog để tự động tạo phản hồi API thực tế từ các schema OpenAPI của bạn mà không cần viết bất kỳ quy tắc giả lập nào.

Giới thiệu

Hầu hết các mô hình AI mã nguồn mở buộc bạn phải lựa chọn: khả năng thô hay khả năng triển khai. Bạn có thể có một mô hình quá lớn để chạy trên máy tính xách tay của mình, hoặc một mô hình nhỏ không thể xử lý suy luận nhiều bước. Gemma 4 đã phá vỡ sự đánh đổi đó.

Gemma 4 là dòng mô hình mã nguồn mở có khả năng nhất của Google DeepMind cho đến nay. Mô hình 31B Dense xếp hạng #3 trong số tất cả các mô hình mã nguồn mở trên bảng xếp hạng của Arena AI, đánh bại các đối thủ lớn gấp 20 lần. Mô hình 26B Mixture of Experts (MoE) giữ vị trí #6. Cả hai đều chạy trên một GPU 80GB duy nhất. Các mô hình E2B và E4B nhẹ có thể chạy hoàn toàn ngoại tuyến trên điện thoại và thiết bị biên.

Đối với các nhà phát triển API, điều này quan trọng hơn những gì tưởng tượng. Gemma 4 hỗ trợ gọi hàm, đầu ra JSON có cấu trúc và cửa sổ ngữ cảnh 256K. Điều này làm cho nó trở thành một lựa chọn thực tế để xây dựng các công cụ API hỗ trợ AI, từ tạo dữ liệu kiểm thử đến viết mock và phân tích phản hồi API.

💡
Nếu bạn đang xây dựng với Gemma 4 và cần xác thực các phản hồi được tạo bởi AI đó dựa trên đặc tả OpenAPI của mình, công cụ Smart Mock của Apidog có thể tự động tạo các phản hồi giả lập phù hợp với schema từ định nghĩa API của bạn. Bạn không cần phải viết từng quy tắc mock; Smart Mock đọc schema của bạn và tạo dữ liệu phù hợp với ngữ cảnh ngay lập tức. Tải Apidog miễn phí và kết nối nó với quy trình làm việc API Gemma 4 của bạn.
button

Gemma 4 là gì và có gì mới

Gemma 4 là thế hệ thứ tư của các mô hình ngôn ngữ mở của Google DeepMind. Tên "Gemma" xuất phát từ tiếng Latin có nghĩa là đá quý. Dòng sản phẩm này bắt đầu vào đầu năm 2024 và kể từ khi ra mắt, các nhà phát triển đã tải xuống các mô hình Gemma hơn 400 triệu lần. Cộng đồng đã xây dựng hơn 100.000 biến thể, tạo thành cái mà Google gọi là "Gemmaverse."

Gemma 4 ra mắt dưới giấy phép Apache 2.0, một sự thay đổi đáng kể so với các thế hệ trước sử dụng chính sách sử dụng tùy chỉnh. Điều này có nghĩa là bạn có thể sử dụng, sửa đổi và phân phối Gemma 4 cho mục đích thương mại mà không bị hạn chế. Đây là một sự thay đổi có ý nghĩa đối với các doanh nghiệp và công ty khởi nghiệp cần kiểm soát hoàn toàn cơ sở hạ tầng AI của họ.

Cải tiến nổi bật nhất trong Gemma 4 là cái mà Google gọi là "trí thông minh trên mỗi tham số." Mô hình 31B Dense mang lại khả năng tiên tiến với chi phí tính toán chỉ bằng một phần nhỏ so với các mô hình như GPT-4 hoặc Claude 3 Sonnet. Trên bảng xếp hạng văn bản Arena AI (tính đến tháng 4 năm 2026), Gemma 4 31B vượt trội hơn các mô hình với hơn 600B tham số.

Dưới đây là những điểm thực sự mới so với Gemma 3:

Đầu vào đa phương thức tự nhiên. Cả bốn mô hình Gemma 4 đều xử lý hình ảnh và video một cách tự nhiên. Các mô hình biên E2B và E4B bổ sung đầu vào âm thanh tự nhiên cho nhận dạng giọng nói. Điều này không phải là một phần khả năng cơ bản của Gemma 3.

Cửa sổ ngữ cảnh dài hơn. Các mô hình E2B và E4B hỗ trợ 128K token. Các mô hình 26B và 31B mở rộng lên 256K token. Điều đó đủ để truyền toàn bộ kho lưu trữ mã trong một lời nhắc duy nhất.

Hỗ trợ quy trình làm việc tác nhân. Gemma 4 bao gồm gọi hàm tự nhiên, chế độ đầu ra JSON có cấu trúc và hướng dẫn hệ thống. Ba tính năng này cùng nhau giúp việc xây dựng các tác nhân gọi API bên ngoài, phân tích phản hồi và nối chuỗi các hành động trở nên thực tế.

Suy luận nâng cao. Mô hình 31B cho thấy những cải tiến đáng kể về điểm chuẩn trong toán học và khả năng tuân theo hướng dẫn nhiều bước so với Gemma 3. Điều này quan trọng đối với việc tạo kiểm thử API, nơi bạn cần mô hình hiểu mối quan hệ giữa các endpoint và schema dữ liệu.

Hỗ trợ hơn 140 ngôn ngữ. Gemma 4 được đào tạo tự nhiên trên hơn 140 ngôn ngữ, không phải là bản chỉnh sửa từ tiếng Anh. Điều này làm cho nó có thể sử dụng được cho các sản phẩm API toàn cầu ngay từ đầu.

Giấy phép Apache 2.0. Như đã đề cập, điều này loại bỏ sự không rõ ràng về mặt pháp lý đối với việc sử dụng thương mại. Bạn sở hữu các mô hình, dữ liệu và triển khai của mình.

Các biến thể và khả năng của mô hình Gemma 4

Google đã phát hành Gemma 4 với bốn kích thước, mỗi kích thước nhắm mục tiêu đến một cấp phần cứng cụ thể:

Mô hình Tham số Tham số hoạt động (suy luận) Ngữ cảnh Tốt nhất cho
E2B 2B hiệu quả ~2B 128K Di động, IoT, thiết bị biên ngoại tuyến
E4B 4B hiệu quả ~4B 128K Điện thoại, Raspberry Pi, Jetson Orin
26B MoE Tổng 26B ~3.8B hoạt động 256K Các tác vụ máy chủ nhạy cảm với độ trễ
31B Dense 31B 31B 256K Chất lượng cao nhất, nghiên cứu, tinh chỉnh

Các mô hình E2B và E4B sử dụng kiến trúc Mixture of Experts chỉ kích hoạt một phần nhỏ tổng số tham số trên mỗi token. Điều này giúp tiết kiệm pin và RAM trên các thiết bị bị hạn chế. Google đã xây dựng chúng với sự hợp tác của Qualcomm và MediaTek, và chúng chạy hoàn toàn ngoại tuyến trên Android thông qua AICore Developer Preview.

Mô hình 26B MoE chỉ kích hoạt 3.8B tham số trong quá trình suy luận mặc dù có tổng cộng 26B tham số. Đây là lựa chọn nhanh nhất cho triển khai phía máy chủ khi bạn muốn độ trễ thấp mà không phải hy sinh nhiều chất lượng.

Mô hình 31B Dense là dẫn đầu về chất lượng. Đây là mô hình bạn sẽ chọn để tinh chỉnh cho các tác vụ chuyên biệt, hoặc cho bất kỳ trường hợp sử dụng nào mà chất lượng đầu ra quan trọng hơn tốc độ. Cả bốn biến thể đều có sẵn ở dạng được tinh chỉnh hướng dẫn (IT) và dạng cơ sở.

Đối với các trường hợp sử dụng API, 26B MoE đạt được sự cân bằng tốc độ/chất lượng tốt nhất. 31B Dense là lựa chọn phù hợp khi bạn cần đầu ra JSON có cấu trúc cho các phản hồi API phức tạp hoặc khi bạn đang tạo các kịch bản kiểm thử với logic nhiều bước.

Tất cả các mô hình đều hỗ trợ gọi hàm và chế độ đầu ra JSON, đây là hai khả năng bạn sẽ sử dụng nhiều nhất khi xây dựng công cụ API với Gemma 4.

Thiết lập API Gemma 4: từng bước một

Bạn có ba cách chính để gọi Gemma 4: Google AI Studio (nhanh nhất), Vertex AI (dành cho doanh nghiệp), hoặc triển khai cục bộ với Ollama hoặc vLLM. Dưới đây là cách thiết lập từng cách.

Tùy chọn 1: Google AI Studio (khuyên dùng cho việc tạo mẫu)

Truy cập Google AI Studio và tạo một tài khoản miễn phí. Từ đó, tạo một khóa API.

Cài đặt Google Generative AI SDK:

pip install google-genai

Thực hiện cuộc gọi đầu tiên của bạn:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel("gemma-4-31b-it")

response = model.generate_content(
    "Generate a JSON object for a user account with id, email, and created_at fields."
)

print(response.text)

Để xuất JSON có cấu trúc, hãy sử dụng tham số response_mime_type:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

prompt = """
Generate 3 sample user objects for an e-commerce API. 
Each user should have: id (integer), email (string), username (string), 
created_at (ISO 8601 timestamp), and subscription_tier (free|pro|enterprise).
Return as a JSON array.
"""

response = model.generate_content(prompt)
users = json.loads(response.text)
print(json.dumps(users, indent=2))

Tùy chọn 2: Triển khai cục bộ với Ollama

Ollama cho phép bạn chạy Gemma 4 hoàn toàn trên máy của mình. Cài đặt Ollama từ ollama.com, sau đó tải mô hình:

ollama pull gemma4

Chạy máy chủ mô hình:

ollama serve

Gọi nó với định dạng API tương thích OpenAI:

import requests
import json

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "gemma4",
        "messages": [
            {
                "role": "user",
                "content": "Generate a valid JSON response for a REST API /products endpoint. Include id, name, price, and stock fields."
            }
        ],
        "stream": False
    }
)

result = response.json()
print(result["message"]["content"])

Tùy chọn 3: Gọi hàm để điều phối API

Gemma 4 hỗ trợ gọi hàm tự nhiên. Điều này cho phép bạn định nghĩa các công cụ mà mô hình có thể gọi trong một cuộc trò chuyện:

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")

# Define a tool that Gemma can call
tools = [
    {
        "function_declarations": [
            {
                "name": "get_api_schema",
                "description": "Retrieve the OpenAPI schema for a given endpoint path",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "endpoint_path": {
                            "type": "string",
                            "description": "The API endpoint path, e.g. /users/{id}"
                        },
                        "method": {
                            "type": "string",
                            "enum": ["GET", "POST", "PUT", "DELETE", "PATCH"]
                        }
                    },
                    "required": ["endpoint_path", "method"]
                }
            }
        ]
    }
]

model = genai.GenerativeModel("gemma-4-31b-it", tools=tools)

response = model.generate_content(
    "I need to test the GET /users/{id} endpoint. What schema should the response follow?"
)

# Check if the model wants to call a function
if response.candidates[0].content.parts[0].function_call:
    fc = response.candidates[0].content.parts[0].function_call
    print(f"Model called function: {fc.name}")
    print(f"With args: {dict(fc.args)}")

Mẫu gọi hàm này là điều làm cho Gemma 4 hữu ích trong việc xây dựng các pipeline kiểm thử API tác nhân.

Xây dựng mock API hỗ trợ AI với Gemma 4

Một trong những ứng dụng thực tế nhất của Gemma 4 dành cho các nhà phát triển API là tạo dữ liệu giả lập. Khi bạn đang xây dựng một giao diện người dùng trước khi phần backend tồn tại, hoặc kiểm thử các trường hợp biên khó kích hoạt trong môi trường sản xuất, bạn cần các phản hồi giả lập thực tế.

Dưới đây là cách sử dụng Gemma 4 để tạo dữ liệu giả lập từ một schema OpenAPI:

import google.generativeai as genai
import json

genai.configure(api_key="YOUR_API_KEY")

model = genai.GenerativeModel(
    "gemma-4-31b-it",
    generation_config={"response_mime_type": "application/json"}
)

# Your OpenAPI schema for the response
schema = {
    "type": "object",
    "properties": {
        "id": {"type": "integer"},
        "order_number": {"type": "string", "pattern": "^ORD-[0-9]{6}$"},
        "status": {"type": "string", "enum": ["pending", "shipped", "delivered", "cancelled"]},
        "total": {"type": "number", "minimum": 0},
        "items": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "product_id": {"type": "integer"},
                    "quantity": {"type": "integer", "minimum": 1},
                    "unit_price": {"type": "number"}
                }
            }
        },
        "created_at": {"type": "string", "format": "date-time"}
    }
}

prompt = f"""
Generate 5 realistic mock responses for an order management API.
Each response must conform exactly to this JSON Schema:
{json.dumps(schema, indent=2)}

Make the data realistic: use realistic prices, product IDs, and varied statuses.
Return as a JSON array of 5 order objects.
"""

response = model.generate_content(prompt)
mock_orders = json.loads(response.text)
print(json.dumps(mock_orders, indent=2))

Điểm mấu chốt ở đây là Gemma 4 hiểu các ràng buộc của JSON Schema. Nó tuân thủ các giá trị enum, các mẫu chuỗi và các phạm vi số. Bạn nhận được dữ liệu giả lập thực sự khớp với hợp đồng API của bạn, chứ không phải các chuỗi ngẫu nhiên.

Bạn có thể mở rộng mẫu này để tạo dữ liệu giả lập cho bất kỳ endpoint API nào. Cung cấp schema phản hồi từ đặc tả OpenAPI của bạn, và Gemma 4 sẽ tạo dữ liệu kiểm thử tuân thủ schema.

Để tạo mock nâng cao hơn, hãy kết hợp Gemma 4 với logic phản hồi có điều kiện. Nếu một yêu cầu chứa một ID người dùng cụ thể, hãy trả về phản hồi lỗi. Ngược lại, trả về dữ liệu thành công. Đây là nơi cửa sổ ngữ cảnh 256K của Gemma 4 phát huy tác dụng: bạn có thể đưa toàn bộ đặc tả OpenAPI của mình vào lời nhắc và yêu cầu nó tạo phản hồi giả lập cho nhiều endpoint cùng một lúc.

Một quy trình làm việc thực tế: xuất bộ sưu tập Apidog của bạn dưới dạng đặc tả OpenAPI, dán vào một lời nhắc, và yêu cầu Gemma 4 tạo 10 trường hợp kiểm thử thực tế cho mỗi endpoint. Bạn sẽ có một bộ dữ liệu giả lập hoàn chỉnh trong vài giây thay vì hàng giờ.

Kiểm thử phản hồi API Gemma 4 với Apidog

Khi bạn đã có Gemma 4 tạo dữ liệu hoặc hoạt động như một phần trong pipeline API của mình, bạn cần xác minh rằng các phản hồi khớp với schema của bạn. Đây là lúc tính năng Kịch bản Kiểm thử của Apidog phát huy tác dụng.

Dưới đây là quy trình làm việc cụ thể:

Bước 1: Nhập endpoint API Gemma 4 của bạn vào Apidog.

Trong Apidog, hãy vào dự án của bạn và tạo một endpoint mới. Đặt URL thành bất kỳ API wrapper nào bạn đã xây dựng xung quanh Gemma 4 (hoặc trỏ trực tiếp đến endpoint của Google AI Studio). Xác định schema phản hồi dự kiến trong giao diện Apidog.

Bước 2: Sử dụng Smart Mock để tạo mẫu phản hồi dự kiến.

Trước khi chạy kiểm thử trực tiếp với Gemma 4, hãy sử dụng Smart Mock của Apidog để tạo các phản hồi cơ bản từ schema của bạn. Smart Mock đọc đặc tả phản hồi của bạn và tạo dữ liệu thực tế dựa trên tên và kiểu thuộc tính. Một trường có tên email sẽ tự động nhận một địa chỉ email hợp lệ. Một trường có tên created_at sẽ nhận một dấu thời gian được định dạng đúng.

Smart Mock sử dụng ba lớp ưu tiên: giá trị trường mock tùy chỉnh trước tiên, sau đó là khớp tên thuộc tính (nơi nó suy luận kiểu dữ liệu từ tên trường), sau đó là các giá trị mặc định của JSON Schema. Hệ thống phân cấp này có nghĩa là bạn có thể ghi đè các trường cụ thể trong khi để công cụ xử lý phần còn lại.

Bước 3: Tạo Kịch bản Kiểm thử cho pipeline Gemma 4 của bạn.

Vào mô-đun Kiểm thử trong Apidog và tạo một Kịch bản Kiểm thử mới. Thêm lệnh gọi API Gemma 4 của bạn làm bước đầu tiên. Sau đó thêm các bước xác nhận để xác thực phản hồi.

Chế độ điều phối Kịch bản Kiểm thử của Apidog cho phép bạn nối chuỗi nhiều yêu cầu. Đối với một kiểm thử tích hợp API Gemma 4, kịch bản của bạn có thể trông như sau:

  1. Gọi endpoint xác thực của bạn để lấy token
  2. Gửi một lời nhắc đến Gemma 4 với token xác thực
  3. Trích xuất JSON được tạo từ phần thân phản hồi
  4. Xác thực JSON đã trích xuất dựa trên các xác nhận schema của bạn
  5. Chuyển dữ liệu đã xác thực đến một endpoint POST tiếp theo

Bước 4: Thiết lập các xác nhận.

Trong bước xác nhận, bạn có thể kiểm tra mã trạng thái, tiêu đề phản hồi và các trường JSON. Đối với các phản hồi của Gemma 4, bạn thường xác nhận rằng trường candidates[0].content.parts[0].text tồn tại và nội dung đã phân tích của nó khớp với schema dự kiến của bạn.

Sử dụng bộ xử lý Trích xuất Biến của Apidog để lấy đầu ra của Gemma 4 vào một biến. Sau đó sử dụng biến đó trong các bước yêu cầu tiếp theo. Điều này cho phép bạn nối chuỗi dữ liệu được tạo bởi Gemma 4 thông qua một quy trình kiểm thử nhiều bước.

Bước 5: Chạy với kiểm thử dựa trên dữ liệu.

Apidog hỗ trợ các tệp dữ liệu kiểm thử CSV và JSON. Bạn có thể định nghĩa 50 biến thể lời nhắc khác nhau trong một tệp CSV, nhập nó vào Kịch bản Kiểm thử của bạn và chạy tất cả 50 biến thể chỉ với một cú nhấp chuột. Đây là cách bạn kiểm thử xem tích hợp Gemma 4 của bạn xử lý các đầu vào đa dạng một cách chính xác.

Toàn bộ quy trình từ định nghĩa schema đến thực thi kiểm thử mất khoảng 15 phút để thiết lập. Sau đó, bạn có thể chạy nó trên mỗi lần commit thông qua Apidog CLI trong pipeline CI/CD của bạn.

Các trường hợp sử dụng thực tế

Tạo dữ liệu kiểm thử API. Các nhóm QA dành nhiều thời gian để viết các fixture kiểm thử. Với chế độ đầu ra JSON của Gemma 4 và schema OpenAPI của bạn, bạn có thể tạo hàng trăm bản ghi kiểm thử thực tế trong vài phút. Cung cấp schema, chỉ định các trường hợp biên bạn muốn bao quát và để mô hình tạo dữ liệu.

Mock API thông minh. Các mock truyền thống trả về dữ liệu tĩnh. Với Gemma 4 phía sau máy chủ mock của bạn, bạn có thể trả về các phản hồi phù hợp với ngữ cảnh. Một mock cho API tìm kiếm sản phẩm có thể trả về các tập hợp sản phẩm khác nhau dựa trên truy vấn tìm kiếm, ngay cả khi không mã hóa cứng từng trường hợp.

Tạo tài liệu API. Cửa sổ ngữ cảnh 256K của Gemma 4 cho phép bạn đưa toàn bộ cơ sở mã của mình vào một lời nhắc. Yêu cầu nó tạo tài liệu OpenAPI cho các endpoint chưa được ghi lại. Hỗ trợ gọi hàm có nghĩa là bạn có thể xây dựng một tác nhân đọc các tệp định tuyến của bạn và tự động viết các đặc tả API.

Xác thực schema phản hồi. Khi sử dụng các API của bên thứ ba, bạn muốn xác thực rằng các phản hồi khớp với kỳ vọng của bạn. Sử dụng Gemma 4 để phân tích các phản hồi API và gắn cờ các vi phạm schema. Nó có thể phát hiện các trường bị thiếu, kiểu dữ liệu không chính xác và các enum không nhất quán tốt hơn một trình xác thực JSON Schema đơn giản.

Viết kiểm thử hồi quy tự động. Cung cấp cho Gemma 4 đặc tả API của bạn và một danh sách các báo cáo lỗi. Yêu cầu nó viết các trường hợp kiểm thử có thể đã phát hiện ra từng lỗi. Bởi vì nó hiểu các mối quan hệ schema, nó có thể viết các kiểm thử không tầm thường kiểm tra chuyển đổi trạng thái và phụ thuộc trường.

Gemma 4 so với các mô hình mở khác để sử dụng API

Gemma 4 so sánh như thế nào với các mô hình mở khác khi mục tiêu của bạn là xây dựng công cụ API?

Mô hình Tham số Ngữ cảnh Đầu ra JSON Gọi hàm Giấy phép
Gemma 4 31B 31B 256K Tự nhiên Tự nhiên Apache 2.0
Gemma 4 26B MoE 26B (3.8B hoạt động) 256K Tự nhiên Tự nhiên Apache 2.0
Llama 3.3 70B 70B 128K Qua lời nhắc Qua lời nhắc Cộng đồng Llama
Mistral 7B 7B 32K Qua lời nhắc Hạn chế Apache 2.0
Qwen 2.5 72B 72B 128K Tự nhiên Tự nhiên Apache 2.0

Đối với các trường hợp sử dụng API, các tính năng quan trọng là chế độ đầu ra JSON tự nhiên, hỗ trợ gọi hàm và độ dài ngữ cảnh. Gemma 4 31B và 26B đều có cả ba tính năng này.

Llama 3.3 70B là đối thủ cạnh tranh chính. Đây là một mô hình mạnh mẽ, nhưng nó yêu cầu tài nguyên tính toán gấp đôi so với Gemma 4 31B để chạy. Trên bảng xếp hạng của Arena AI, Gemma 4 31B xếp hạng cao hơn Llama 3.3 70B mặc dù chỉ bằng một nửa kích thước. Nếu bạn đang chạy suy luận ở quy mô lớn, sự khác biệt về yêu cầu GPU đó sẽ trực tiếp chuyển thành chi phí cơ sở hạ tầng.

Mistral 7B nhỏ hơn và nhanh hơn nhiều, nhưng cửa sổ ngữ cảnh 32K của nó hạn chế tính hữu ích cho các đặc tả API lớn. Nó cũng thiếu chế độ JSON tự nhiên và khả năng gọi hàm đáng tin cậy.

Qwen 2.5 72B là một lựa chọn thay thế có khả năng, đặc biệt cho các ứng dụng đa ngôn ngữ. Các tính năng công cụ API của nó tương đương với Gemma 4, nhưng nó yêu cầu phần cứng mạnh hơn đáng kể.

Giấy phép Apache 2.0 trên Gemma 4 là một lợi thế bị đánh giá thấp. Llama sử dụng Giấy phép Cộng đồng Llama, có các hạn chế đối với một số mục đích sử dụng thương mại. Nếu bạn đang xây dựng một sản phẩm dựa trên một mô hình mở, sự rõ ràng về mặt pháp lý của Apache 2.0 rất quan trọng.

Đối với hầu hết các trường hợp sử dụng công cụ API: bắt đầu với Gemma 4 26B MoE cho các tác vụ nhạy cảm với độ trễ, hoặc Gemma 4 31B cho đầu ra chất lượng cao nhất.

Kết luận

Gemma 4 cung cấp cho các nhà phát triển một lựa chọn mở đáng tin cậy thay thế cho các API AI độc quyền để xây dựng công cụ API. Giấy phép Apache 2.0 loại bỏ những rắc rối pháp lý khiến các mô hình mở trước đây khó được phát hành thương mại. Gọi hàm tự nhiên và chế độ đầu ra JSON giúp việc tích hợp vào các quy trình làm việc API trở nên thực tế mà không cần kỹ thuật prompt phức tạp.

Bốn kích thước mô hình bao phủ mọi cấp phần cứng từ điện thoại đến máy trạm. Mô hình 26B MoE là lựa chọn nổi bật nhất cho hầu hết các trường hợp sử dụng phát triển API: nó mang lại chất lượng gần như tiên tiến với chi phí suy luận chỉ bằng một phần nhỏ.

Kết hợp Gemma 4 với Apidog để hoàn thiện vòng lặp giữa dữ liệu do AI tạo ra và xác thực API. Sử dụng Gemma 4 để tạo dữ liệu kiểm thử và phản hồi mock. Sử dụng Smart Mock của Apidog để tạo mẫu schema và Kịch bản Kiểm thử của nó để xác thực rằng đầu ra AI đáp ứng hợp đồng API của bạn. Cùng nhau, chúng tạo thành một quy trình làm việc thực tế để xây dựng và kiểm thử các API hỗ trợ AI.

button

Câu hỏi thường gặp

Gemma 4 là gì?Gemma 4 là dòng mô hình ngôn ngữ mở mới nhất của Google DeepMind, được phát hành vào tháng 4 năm 2026. Nó có bốn kích thước (E2B, E4B, 26B MoE, 31B Dense) và được cấp phép theo Apache 2.0. Mô hình 31B hiện đang xếp hạng #3 trong số tất cả các mô hình mở trên bảng xếp hạng văn bản của Arena AI.

Gemma 4 có miễn phí để sử dụng không?Trọng số mô hình được tải xuống và sử dụng miễn phí theo giấy phép Apache 2.0. Bạn phải trả phí tính toán khi tự chạy nó. Nếu bạn sử dụng Google AI Studio, có một cấp miễn phí với giới hạn tỷ lệ. Vertex AI tính phí theo tỷ lệ tính toán tiêu chuẩn của Google Cloud.

Gemma 4 có thể xuất JSON có cấu trúc không?Có. Gemma 4 hỗ trợ tham số response_mime_type: "application/json" tự nhiên thông qua Google Generative AI SDK. Điều này buộc mô hình phải trả về JSON hợp lệ mỗi lần, điều này rất cần thiết cho các tích hợp API nơi bạn phân tích cú pháp đầu ra theo chương trình.

Gemma 4 so sánh với GPT-4o như thế nào cho việc phát triển API?GPT-4o là một mô hình độc quyền không có tùy chọn triển khai cục bộ và chi phí API cao hơn. Gemma 4 31B được triển khai miễn phí cục bộ và điểm chuẩn của nó cạnh tranh với GPT-4o trong các tác vụ suy luận. Đối với các nhóm cần quyền riêng tư dữ liệu hoặc kiểm soát chi phí, Gemma 4 rất đáng để xem xét nghiêm túc.

Tôi có thể tinh chỉnh Gemma 4 trên dữ liệu API của riêng mình không?Có. Google hỗ trợ tinh chỉnh Gemma 4 thông qua Google AI Studio, Vertex AI và các công cụ của bên thứ ba như Hugging Face TRL. Việc tinh chỉnh trên các schema API cụ thể theo miền và các mẫu phản hồi có thể cải thiện đáng kể chất lượng đầu ra cho các trường hợp sử dụng chuyên biệt.

Tôi cần phần cứng nào để chạy Gemma 4 cục bộ?Các mô hình 31B và 26B phù hợp trên một GPU NVIDIA H100 80GB duy nhất ở định dạng bfloat16. Các phiên bản lượng tử hóa chạy trên GPU tiêu dùng với 16-24GB VRAM. Các mô hình E4B và E2B chạy trên điện thoại và thiết bị biên, bao gồm Raspberry Pi và NVIDIA Jetson.

Gemma 4 có hỗ trợ gọi hàm không?Có, tất cả các mô hình Gemma 4 đều hỗ trợ gọi hàm tự nhiên. Bạn định nghĩa các công cụ dưới dạng đối tượng JSON với tên, mô tả và schema tham số. Mô hình sẽ quyết định khi nào gọi một công cụ và truyền các đối số có cấu trúc mà bạn có thể xử lý trong mã.

Làm thế nào để tôi kiểm thử phản hồi API Gemma 4 tự động?Sử dụng Kịch bản Kiểm thử của Apidog để xây dựng quy trình kiểm thử chuỗi. Nhập endpoint API Gemma 4 của bạn, thiết lập các bước yêu cầu và thêm các xác nhận để xác thực cấu trúc phản hồi. Bạn có thể chạy kịch bản cục bộ, thông qua CLI, hoặc tự động trong pipeline CI/CD của bạn trên mỗi lần đẩy mã.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API