Cách truy cập Gemini 3.1 Flash Lite API

Ashley Innocent

Ashley Innocent

4 tháng 3 2026

Cách truy cập Gemini 3.1 Flash Lite API

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Gemini 3.1 Flash Lite của Google ra mắt vào ngày 3 tháng 3 năm 2026, đây là mô hình nhanh nhất và có giá cả phải chăng nhất trong dòng sản phẩm Gemini. Với mức giá 0.25 USD cho mỗi triệu token đầu vào và 1.50 USD cho mỗi triệu token đầu ra, nó được xây dựng dành cho các nhà phát triển cần AI ở quy mô lớn mà không làm cạn kiệt ngân sách.

Hướng dẫn này sẽ chỉ cho bạn chính xác cách truy cập, thiết lập khóa API và bắt đầu gửi yêu cầu. Bạn sẽ có đoạn mã hoạt động chỉ trong vòng chưa đầy 10 phút.

TL;DR

Cài đặt nhanh:

  1. Truy cập Google AI Studio
  2. Tạo một dự án và tạo khóa API
  3. Cài đặt SDK: pip install google-generativeai
  4. Gửi yêu cầu đầu tiên của bạn với mô hình gemini-3.1-flash-lite
  5. Kiểm tra trong Apidog để gỡ lỗi dễ dàng hơn và cộng tác nhóm

Giá: 0.25 USD/1M token đầu vào, 1.50 USD/1M token đầu ra
Tốc độ: Nhanh hơn 2.5 lần so với Gemini 2.5 Flash
Gói miễn phí: 1 triệu token đầu vào miễn phí trong giai đoạn xem trước

Gemini 3.1 Flash Lite là gì?

Gemini 3.1 Flash Lite là mô hình AI mới nhất của Google được thiết kế cho các ứng dụng có khối lượng lớn. Nó nhanh hơn 2.5 lần so với Gemini 2.5 Flash với tốc độ đầu ra nhanh hơn 45%, đồng thời đạt 86.9% trên GPQA Diamond và 76.8% trên các điểm chuẩn MMMU Pro.

Mô hình này bao gồm các cấp độ tư duy mà bạn có thể điều chỉnh theo từng yêu cầu. Giảm xuống cho các tác vụ đơn giản, tăng lên cho các suy luận phức tạp. Tính linh hoạt này cho phép bạn tối ưu hóa chi phí trong khi xử lý các khối lượng công việc đa dạng.

Nó có sẵn thông qua Google AI Studio cho các nhà phát triển cá nhân và Vertex AI cho các doanh nghiệp.

Điều kiện tiên quyết

Trước khi bắt đầu, hãy đảm bảo bạn có:

Bước 1: Tạo tài khoản Google AI Studio

Google AI Studio là cách nhanh nhất để truy cập các mô hình Gemini cho mục đích phát triển.

  1. Truy cập aistudio.google.com
  2. Đăng nhập bằng tài khoản Google của bạn
  3. Chấp nhận các điều khoản dịch vụ
  4. Bạn sẽ đến trang tổng quan của AI Studio

Giao diện hiển thị các mô hình có sẵn, mức sử dụng API của bạn và các mẫu khởi động nhanh. Flash Lite xuất hiện trong menu thả xuống mô hình dưới dạng gemini-3.1-flash-lite.

Bước 2: Tạo khóa API của bạn

Khóa API cho phép bạn xác thực các yêu cầu tới Gemini API.

  1. Nhấp vào Get API Key ở góc trên cùng bên phải
  2. Chọn Create API key in new project (hoặc chọn một dự án hiện có)
  3. Google tạo một dự án Cloud mới và tạo khóa của bạn
  4. Sao chép khóa API - nó trông giống như AIzaSyXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
  5. Lưu trữ nó một cách an toàn - bạn sẽ không thấy nó nữa

Mẹo bảo mật: Không bao giờ đưa khóa API vào hệ thống kiểm soát phiên bản. Hãy sử dụng biến môi trường hoặc các công cụ quản lý bí mật.

Bước 3: Cài đặt SDK

Google cung cấp các SDK chính thức cho Python và Node.js.

Python

pip install google-generativeai

Node.js

npm install @google/generative-ai

SDK xử lý xác thực, định dạng yêu cầu và phân tích phản hồi. Bạn cũng có thể sử dụng trực tiếp REST API nếu muốn.

Bước 4: Gửi yêu cầu đầu tiên của bạn

Hãy gửi một lời nhắc đơn giản tới Flash Lite.

Ví dụ Python

import google.generativeai as genai
import os

# Configure API key
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))

# Initialize the model
model = genai.GenerativeModel('gemini-3.1-flash-lite')

# Generate content
response = model.generate_content('Giải thích REST API trong một câu.')

print(response.text)

Ví dụ Node.js

const { GoogleGenerativeAI } = require("@google/generative-ai");

// Initialize with API key
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);

async function run() {
  // Get the model
  const model = genAI.getGenerativeModel({ model: "gemini-3.1-flash-lite" });

  // Generate content
  const result = await model.generateContent("Giải thích REST API trong một câu.");
  const response = await result.response;
  const text = response.text();

  console.log(text);
}

run();

Ví dụ cURL (REST API)

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:generateContent?key=YOUR_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "contents": [{
      "parts": [{
        "text": "Giải thích REST API trong một câu."
      }]
    }]
  }'

Chạy bất kỳ ví dụ nào trong số này và bạn sẽ nhận được phản hồi trong vài giây. Mô hình trả về văn bản rõ ràng, súc tích trả lời lời nhắc của bạn.

Bước 5: Kiểm tra với Apidog

Apidog giúp kiểm tra API dễ dàng hơn với giao diện trực quan, khả năng cộng tác nhóm và tài liệu tự động.

Tại sao nên sử dụng Apidog cho Gemini API?

Bạn sẽ thấy phản hồi ở bảng điều khiển bên phải với tô sáng cú pháp, thời gian phản hồi và mã trạng thái.

Lưu dưới dạng biến môi trường

  1. Truy cập Environments trong Apidog
  2. Tạo một môi trường mới (ví dụ: "Gemini Dev")
  3. Thêm biến: GOOGLE_API_KEY = khóa API thực tế của bạn
  4. Sử dụng {{GOOGLE_API_KEY}} trong các yêu cầu của bạn

Giờ đây, bạn có thể chuyển đổi môi trường mà không cần thay đổi các yêu cầu của mình. Hoàn hảo để quản lý các khóa dev, staging và production.

Hiểu về định dạng yêu cầu

Gemini API sử dụng một cấu trúc JSON cụ thể.

Cấu trúc yêu cầu cơ bản

{
  "contents": [{
    "parts": [{
      "text": "Lời nhắc của bạn ở đây"
    }]
  }]
}

Với cấp độ tư duy

{
  "contents": [{
    "parts": [{
      "text": "Tạo tài liệu API cho một điểm cuối xác thực người dùng"
    }]
  }],
  "generationConfig": {
    "thinkingLevel": "high"
  }
}

Cấp độ tư duy: low, medium, high

Với chỉ dẫn hệ thống

{
  "systemInstruction": {
    "parts": [{
      "text": "Bạn là một chuyên gia tài liệu API. Viết tài liệu rõ ràng, súc tích."
    }]
  },
  "contents": [{
    "parts": [{
      "text": "Tạo tài liệu cho điểm cuối này: POST /api/users"
    }]
  }]
}

Chỉ dẫn hệ thống hướng dẫn hành vi của mô hình trong tất cả các yêu cầu trong một cuộc hội thoại.

Định dạng phản hồi

API trả về JSON với cấu trúc này:

{
  "candidates": [{
    "content": {
      "parts": [{
        "text": "REST API là các giao diện cho phép các ứng dụng giao tiếp qua HTTP bằng các phương thức tiêu chuẩn như GET, POST, PUT và DELETE."
      }],
      "role": "model"
    },
    "finishReason": "STOP",
    "index": 0,
    "safetyRatings": [...]
  }],
  "usageMetadata": {
    "promptTokenCount": 8,
    "candidatesTokenCount": 25,
    "totalTokenCount": 33
  }
}

Các trường chính:

Các trường hợp sử dụng phổ biến

1. Tạo tài liệu API

import google.generativeai as genai

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

endpoint_spec = """
POST /api/v1/users
Tạo một tài khoản người dùng mới
Nội dung: { "email": chuỗi, "password": chuỗi, "name": chuỗi }
"""

response = model.generate_content(
    f"Tạo tài liệu API toàn diện cho điểm cuối này:\n{endpoint_spec}",
    generation_config={"thinkingLevel": "medium"}
)

print(response.text)

2. Xác thực yêu cầu

def validate_api_request(request_body):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Xác thực nội dung yêu cầu API này và liệt kê mọi vấn đề:
    {request_body}

    Kiểm tra:
    - Thiếu các trường bắt buộc
    - Kiểu dữ liệu không hợp lệ
    - Các lo ngại về bảo mật
    """

    response = model.generate_content(prompt)
    return response.text

# Ví dụ sử dụng
request = '{"email": "test@example.com", "password": "123"}'
validation_result = validate_api_request(request)
print(validation_result)

3. Tạo thông báo lỗi

def generate_user_friendly_error(error_code, technical_message):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Chuyển đổi lỗi kỹ thuật này thành một thông báo thân thiện với người dùng:
    Mã lỗi: {error_code}
    Kỹ thuật: {technical_message}

    Làm cho nó rõ ràng, dễ thực hiện và không kỹ thuật.
    """

    response = model.generate_content(
        prompt,
        generation_config={"thinkingLevel": "low"}
    )
    return response.text

# Ví dụ
friendly_error = generate_user_friendly_error(
    "AUTH_TOKEN_EXPIRED",
    "Xác thực token JWT thất bại: tuyên bố exp đã hết hạn"
)
print(friendly_error)

Giới hạn tốc độ và hạn mức

Flash Lite có giới hạn hào phóng trong giai đoạn xem trước:

Gói miễn phí:

Gói trả phí:

Theo dõi mức sử dụng của bạn trong Google AI Studio dưới mục Usage & Billing.

Xử lý lỗi

Xử lý các lỗi phổ biến một cách khéo léo:

import google.generativeai as genai
from google.api_core import exceptions

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

def safe_generate(prompt):
    try:
        response = model.generate_content(prompt)
        return response.text
    except exceptions.ResourceExhausted:
        return "Vượt quá giới hạn tốc độ. Hãy thử lại sau một phút."
    except exceptions.InvalidArgument as e:
        return f"Yêu cầu không hợp lệ: {str(e)}"
    except exceptions.PermissionDenied:
        return "Khóa API không hợp lệ hoặc đã hết hạn."
    except Exception as e:
        return f"Lỗi không mong muốn: {str(e)}"

result = safe_generate("Giải thích API")
print(result)

Các lỗi phổ biến:

Khắc phục sự cố

"API key không hợp lệ"

Kiểm tra những điều sau:

  1. Khóa API được sao chép chính xác (không có khoảng trắng thừa)
  2. Khóa API được bật trong Google Cloud Console
  3. Thanh toán được bật trên dự án của bạn
  4. Sử dụng đúng tên biến môi trường

"Không tìm thấy mô hình"

Hãy đảm bảo bạn đang sử dụng tên mô hình chính xác:

# Đúng
model = genai.GenerativeModel('gemini-3.1-flash-lite')

# Sai
model = genai.GenerativeModel('gemini-flash-lite')
model = genai.GenerativeModel('gemini-3.1-flash')

"Vượt quá giới hạn tốc độ"

Bạn đã đạt đến giới hạn yêu cầu mỗi phút. Các giải pháp:

  1. Thêm logic thử lại với độ trễ lũy thừa
  2. Gộp nhiều lời nhắc vào một yêu cầu duy nhất
  3. Nâng cấp lên gói trả phí để có giới hạn cao hơn
  4. Thực hiện xếp hàng yêu cầu

Phản hồi chậm

Flash Lite rất nhanh, nhưng nếu bạn thấy có độ trễ:

  1. Kiểm tra kết nối mạng của bạn
  2. Sử dụng cấp độ tư duy thấp hơn cho các tác vụ đơn giản
  3. Giảm độ dài lời nhắc
  4. Cân nhắc phát trực tiếp phản hồi cho các đầu ra dài

Nâng cao: Phát trực tiếp phản hồi

Đối với các đầu ra dài, hãy phát trực tiếp các token khi chúng được tạo:

import google.generativeai as genai

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

prompt = "Viết một lời giải thích chi tiết về các phương thức xác thực REST API"

response = model.generate_content(prompt, stream=True)

for chunk in response:
    print(chunk.text, end='', flush=True)

Phát trực tiếp cải thiện hiệu suất cảm nhận. Người dùng thấy đầu ra ngay lập tức thay vì chờ đợi phản hồi hoàn chỉnh.

Mẹo tối ưu hóa chi phí

1. Gộp các yêu cầu tương tự

# Đắt: 3 yêu cầu riêng biệt
response1 = model.generate_content("Giải thích GET")
response2 = model.generate_content("Giải thích POST")
response3 = model.generate_content("Giải thích PUT")

# Rẻ hơn: 1 yêu cầu kết hợp
combined_prompt = """
Giải thích các phương thức HTTP này:
1. GET
2. POST
3. PUT
"""
response = model.generate_content(combined_prompt)

2. Sử dụng cấp độ tư duy thấp hơn

# Cho phân loại đơn giản
response = model.generate_content(
    "Email này có phải là thư rác không? 'Mua ngay!'",
    generation_config={"thinkingLevel": "low"}
)

# Cho phân tích phức tạp
response = model.generate_content(
    "Phân tích thiết kế API này và đề xuất cải tiến...",
    generation_config={"thinkingLevel": "high"}
)

3. Triển khai bộ nhớ đệm (Caching)

Lưu trữ phản hồi vào bộ nhớ đệm cho các truy vấn lặp lại. Một bộ nhớ đệm đơn giản trong bộ nhớ có thể cắt giảm chi phí hơn 50% cho các yêu cầu phổ biến.

4. Cắt ngắn lời nhắc

Xóa ngữ cảnh không cần thiết:

# Dài dòng (nhiều token hơn)
prompt = "Tôi muốn bạn vui lòng giải thích cho tôi REST API là gì và chúng hoạt động như thế nào một cách chi tiết"

# Ngắn gọn (ít token hơn)
prompt = "Giải thích REST API"

Các cân nhắc về bảo mật

1. Bảo vệ khóa API của bạn

2. Xác thực đầu vào của người dùng

def safe_prompt(user_input):
    # Xóa các nỗ lực tấn công tiềm ẩn
    cleaned = user_input.replace("Bỏ qua các chỉ dẫn trước", "")
    cleaned = cleaned[:1000]  # Giới hạn độ dài

    return f"Câu hỏi của người dùng: {cleaned}"

3. Lọc dữ liệu nhạy cảm

Không gửi thông tin nhạy cảm đến API:

import re

def sanitize_for_ai(text):
    # Xóa địa chỉ email
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
    # Xóa số điện thoại
    text = re.sub(r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b', '[PHONE]', text)
    # Xóa số thẻ tín dụng
    text = re.sub(r'\b\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}\b', '[CARD]', text)
    return text

4. Triển khai giới hạn tốc độ

Bảo vệ khóa API của bạn khỏi bị lạm dụng:

from collections import defaultdict
import time

class RateLimiter:
    def __init__(self, max_requests=10, window=60):
        self.max_requests = max_requests
        self.window = window
        self.requests = defaultdict(list)

    def allow_request(self, user_id):
        now = time.time()
        # Xóa các yêu cầu cũ
        self.requests[user_id] = [
            req_time for req_time in self.requests[user_id]
            if now - req_time < self.window
        ]

        if len(self.requests[user_id]) < self.max_requests:
            self.requests[user_id].append(now)
            return True
        return False

limiter = RateLimiter(max_requests=10, window=60)

def generate_with_limit(user_id, prompt):
    if not limiter.allow_request(user_id):
        return "Vượt quá giới hạn tốc độ. Hãy thử lại sau."

    model = genai.GenerativeModel('gemini-3.1-flash-lite')
    response = model.generate_content(prompt)
    return response.text

So sánh Flash Lite với các mô hình Gemini khác

Tính năng Flash Lite Flash Pro
Giá đầu vào 0.25 USD/1M 0.50 USD/1M 1.25 USD/1M
Giá đầu ra 1.50 USD/1M 3.00 USD/1M 7.50 USD/1M
Tốc độ Nhanh hơn 2.5 lần Nhanh Tiêu chuẩn
Cửa sổ ngữ cảnh 32K token 1M token 2M token
Phù hợp nhất cho Khối lượng lớn, nhạy cảm về chi phí Cân bằng Suy luận phức tạp

Chọn Flash Lite khi:

Chọn Flash khi:

Chọn Pro khi:

Tích hợp với Quy trình làm việc của Apidog

Người dùng Apidog có thể tích hợp Flash Lite vào quy trình phát triển API của họ:

1. Tự động tạo trường hợp thử nghiệm

Sử dụng Flash Lite để tạo các trường hợp thử nghiệm từ các thông số kỹ thuật API của bạn:

def generate_test_cases(endpoint_spec):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Tạo các trường hợp thử nghiệm toàn diện cho điểm cuối API này:
    {json.dumps(endpoint_spec, indent=2)}

    Bao gồm:
    - Kiểm tra đường dẫn thành công
    - Các trường hợp biên
    - Các tình huống lỗi
    - Các điều kiện ranh giới

    Định dạng dưới dạng mảng JSON của các trường hợp thử nghiệm.
    """

    response = model.generate_content(prompt)
    return json.loads(response.text)

2. Xác thực phản hồi API

Kiểm tra xem phản hồi có khớp với lược đồ dự kiến hay không:

def validate_response(response_data, expected_schema):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Xác thực phản hồi API này dựa trên lược đồ:

    Phản hồi: {json.dumps(response_data, indent=2)}
    Lược đồ: {json.dumps(expected_schema, indent=2)}

    Liệt kê bất kỳ sự không khớp hoặc vấn đề nào.
    """

    response = model.generate_content(
        prompt,
        generation_config={"thinkingLevel": "low"}
    )
    return response.text

3. Tạo dữ liệu giả (Mock Data)

Tạo dữ liệu thử nghiệm thực tế:

def generate_mock_data(schema, count=10):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Tạo {count} mục dữ liệu giả thực tế khớp với lược đồ này:
    {json.dumps(schema, indent=2)}

    Trả về dưới dạng mảng JSON.
    """

    response = model.generate_content(prompt)
    return json.loads(response.text)

Câu hỏi thường gặp

Gemini 3.1 Flash Lite có miễn phí không?

1 triệu token đầu vào đầu tiên miễn phí trong giai đoạn xem trước. Sau đó, bạn trả 0.25 USD cho mỗi triệu token đầu vào và 1.50 USD cho mỗi triệu token đầu ra.

Flash Lite nhanh hơn bao nhiêu so với các mô hình khác?

Flash Lite nhanh hơn 2.5 lần so với Gemini 2.5 Flash về thời gian tạo token đầu tiên và nhanh hơn 45% về tốc độ đầu ra. Đây là một trong những mô hình nhanh nhất hiện có.

Tôi có thể sử dụng Flash Lite trong môi trường sản xuất không?

Có. Mặc dù được gắn nhãn "xem trước", mô hình này đủ ổn định để sử dụng trong môi trường sản xuất. Các nhà phát triển tiên phong như Latitude, Cartwheel và Whering đã và đang sử dụng nó ở quy mô lớn.

Kích thước cửa sổ ngữ cảnh là bao nhiêu?

Flash Lite hỗ trợ tối đa 32.000 token ngữ cảnh. Con số đó đủ cho hầu hết các trường hợp sử dụng API nhưng nhỏ hơn Flash (1M token) hoặc Pro (2M token).

Cấp độ tư duy hoạt động như thế nào?

Cấp độ tư duy kiểm soát mức độ xử lý mà mô hình áp dụng. Low thì nhanh và đơn giản. High thì chậm hơn nhưng kỹ lưỡng hơn. Sử dụng low cho phân loại, high cho suy luận phức tạp.

Tôi có thể sử dụng Flash Lite với Apidog không?

Có. Apidog hoạt động với bất kỳ REST API nào, bao gồm cả Gemini. Thiết lập các yêu cầu của bạn trong Apidog để kiểm tra dễ dàng hơn, cộng tác nhóm và tài liệu.

Điều gì xảy ra nếu tôi vượt quá giới hạn tốc độ?

Bạn sẽ nhận được lỗi 429. Hãy triển khai logic thử lại với độ trễ lũy thừa hoặc nâng cấp lên gói trả phí để có giới hạn cao hơn (60 yêu cầu/phút so với 15).

Dữ liệu của tôi có được sử dụng để đào tạo mô hình không?

Theo chính sách của Google, các yêu cầu API không được sử dụng để đào tạo mô hình. Dữ liệu của bạn được giữ riêng tư.

Tôi có thể tinh chỉnh Flash Lite không?

Chưa. Tinh chỉnh có sẵn cho một số mô hình Gemini nhưng không phải Flash Lite khi ra mắt. Thay vào đó, hãy sử dụng chỉ dẫn hệ thống để hướng dẫn hành vi.

Flash Lite so sánh với GPT-4 Turbo như thế nào?

Flash Lite nhanh hơn và rẻ hơn nhưng GPT-4 Turbo có khả năng suy luận mạnh mẽ hơn cho các tác vụ phức tạp. Đối với khối lượng công việc API lớn, Flash Lite chiến thắng về chi phí và tốc độ.

Các bước tiếp theo

Giờ đây bạn đã có mọi thứ cần thiết để bắt đầu sử dụng Gemini 3.1 Flash Lite:

  1. Lấy khóa API của bạn từ Google AI Studio
  2. Cài đặt SDK và chạy yêu cầu đầu tiên của bạn
  3. Kiểm tra trong Apidog để phát triển dễ dàng hơn
  4. Triển khai xử lý lỗi và logic thử lại
  5. Theo dõi mức sử dụng để tối ưu hóa chi phí

Mô hình đã sẵn sàng để sản xuất. Giá cả giúp AI có thể tiếp cận được ở quy mô lớn. Tốc độ giúp người dùng của bạn hài lòng.

Bắt đầu xây dựng.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API