Cách truy cập Gemini 3.1 Flash Lite API

Gemini 3.1 Flash Lite của Google ra mắt vào ngày 3 tháng 3 năm 2026, đây là mô hình nhanh nhất và có giá cả phải chăng nhất trong dòng sản phẩm Gemini. Với mức giá 0.25 USD cho mỗi triệu token đầu vào và 1.50 USD cho mỗi triệu token đầu ra, nó được xây dựng dành cho các nhà phát triển cần AI ở quy mô lớn mà không làm cạn kiệt ngân sách.

Hướng dẫn này sẽ chỉ cho bạn chính xác cách truy cập, thiết lập khóa API và bắt đầu gửi yêu cầu. Bạn sẽ có đoạn mã hoạt động chỉ trong vòng chưa đầy 10 phút.

TL;DR

Cài đặt nhanh:

Truy cập Google AI Studio
Tạo một dự án và tạo khóa API
Cài đặt SDK: pip install google-generativeai
Gửi yêu cầu đầu tiên của bạn với mô hình gemini-3.1-flash-lite
Kiểm tra trong Apidog để gỡ lỗi dễ dàng hơn và cộng tác nhóm

Giá: 0.25 USD/1M token đầu vào, 1.50 USD/1M token đầu ra
Tốc độ: Nhanh hơn 2.5 lần so với Gemini 2.5 Flash
Gói miễn phí: 1 triệu token đầu vào miễn phí trong giai đoạn xem trước

Gemini 3.1 Flash Lite là gì?

Gemini 3.1 Flash Lite là mô hình AI mới nhất của Google được thiết kế cho các ứng dụng có khối lượng lớn. Nó nhanh hơn 2.5 lần so với Gemini 2.5 Flash với tốc độ đầu ra nhanh hơn 45%, đồng thời đạt 86.9% trên GPQA Diamond và 76.8% trên các điểm chuẩn MMMU Pro.

Mô hình này bao gồm các cấp độ tư duy mà bạn có thể điều chỉnh theo từng yêu cầu. Giảm xuống cho các tác vụ đơn giản, tăng lên cho các suy luận phức tạp. Tính linh hoạt này cho phép bạn tối ưu hóa chi phí trong khi xử lý các khối lượng công việc đa dạng.

Nó có sẵn thông qua Google AI Studio cho các nhà phát triển cá nhân và Vertex AI cho các doanh nghiệp.

Điều kiện tiên quyết

Trước khi bắt đầu, hãy đảm bảo bạn có:

Một tài khoản Google
Đã cài đặt Python 3.7+ hoặc Node.js 14+
Kiến thức cơ bản về REST API
(Tùy chọn) Đã cài đặt Apidog để kiểm tra API

Bước 1: Tạo tài khoản Google AI Studio

Google AI Studio là cách nhanh nhất để truy cập các mô hình Gemini cho mục đích phát triển.

Truy cập aistudio.google.com
Đăng nhập bằng tài khoản Google của bạn
Chấp nhận các điều khoản dịch vụ
Bạn sẽ đến trang tổng quan của AI Studio

Giao diện hiển thị các mô hình có sẵn, mức sử dụng API của bạn và các mẫu khởi động nhanh. Flash Lite xuất hiện trong menu thả xuống mô hình dưới dạng gemini-3.1-flash-lite.

Bước 2: Tạo khóa API của bạn

Khóa API cho phép bạn xác thực các yêu cầu tới Gemini API.

Nhấp vào Get API Key ở góc trên cùng bên phải
Chọn Create API key in new project (hoặc chọn một dự án hiện có)
Google tạo một dự án Cloud mới và tạo khóa của bạn
Sao chép khóa API - nó trông giống như AIzaSyXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Lưu trữ nó một cách an toàn - bạn sẽ không thấy nó nữa

Mẹo bảo mật: Không bao giờ đưa khóa API vào hệ thống kiểm soát phiên bản. Hãy sử dụng biến môi trường hoặc các công cụ quản lý bí mật.

Bước 3: Cài đặt SDK

Google cung cấp các SDK chính thức cho Python và Node.js.

Python

pip install google-generativeai

Node.js

npm install @google/generative-ai

SDK xử lý xác thực, định dạng yêu cầu và phân tích phản hồi. Bạn cũng có thể sử dụng trực tiếp REST API nếu muốn.

Bước 4: Gửi yêu cầu đầu tiên của bạn

Hãy gửi một lời nhắc đơn giản tới Flash Lite.

Ví dụ Python

import google.generativeai as genai
import os

# Configure API key
genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))

# Initialize the model
model = genai.GenerativeModel('gemini-3.1-flash-lite')

# Generate content
response = model.generate_content('Giải thích REST API trong một câu.')

print(response.text)

Ví dụ Node.js

const { GoogleGenerativeAI } = require("@google/generative-ai");

// Initialize with API key
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY);

async function run() {
  // Get the model
  const model = genAI.getGenerativeModel({ model: "gemini-3.1-flash-lite" });

  // Generate content
  const result = await model.generateContent("Giải thích REST API trong một câu.");
  const response = await result.response;
  const text = response.text();

  console.log(text);
}

run();

Ví dụ cURL (REST API)

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-lite:generateContent?key=YOUR_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "contents": [{
      "parts": [{
        "text": "Giải thích REST API trong một câu."
      }]
    }]
  }'

Chạy bất kỳ ví dụ nào trong số này và bạn sẽ nhận được phản hồi trong vài giây. Mô hình trả về văn bản rõ ràng, súc tích trả lời lời nhắc của bạn.

Bước 5: Kiểm tra với Apidog

Apidog giúp kiểm tra API dễ dàng hơn với giao diện trực quan, khả năng cộng tác nhóm và tài liệu tự động.

Tại sao nên sử dụng Apidog cho Gemini API?

Trình tạo yêu cầu trực quan - Không cần viết lệnh cURL
Biến môi trường - Dễ dàng chuyển đổi giữa các khóa API dev/prod
Xác thực phản hồi - Phát hiện lỗi trước khi chúng được đưa vào sản xuất
Chia sẻ nhóm - Chia sẻ các bộ sưu tập API với nhóm của bạn
Tự động tạo tài liệu - Tạo tài liệu từ các yêu cầu của bạn

Bạn sẽ thấy phản hồi ở bảng điều khiển bên phải với tô sáng cú pháp, thời gian phản hồi và mã trạng thái.

Lưu dưới dạng biến môi trường

Truy cập Environments trong Apidog
Tạo một môi trường mới (ví dụ: "Gemini Dev")
Thêm biến: GOOGLE_API_KEY = khóa API thực tế của bạn
Sử dụng {{GOOGLE_API_KEY}} trong các yêu cầu của bạn

Giờ đây, bạn có thể chuyển đổi môi trường mà không cần thay đổi các yêu cầu của mình. Hoàn hảo để quản lý các khóa dev, staging và production.

Hiểu về định dạng yêu cầu

Gemini API sử dụng một cấu trúc JSON cụ thể.

Cấu trúc yêu cầu cơ bản

{
  "contents": [{
    "parts": [{
      "text": "Lời nhắc của bạn ở đây"
    }]
  }]
}

Với cấp độ tư duy

{
  "contents": [{
    "parts": [{
      "text": "Tạo tài liệu API cho một điểm cuối xác thực người dùng"
    }]
  }],
  "generationConfig": {
    "thinkingLevel": "high"
  }
}

Cấp độ tư duy: low, medium, high

Low: Phản hồi nhanh, đơn giản
Medium: Suy luận cân bằng
High: Phân tích sâu, các tác vụ phức tạp

Với chỉ dẫn hệ thống

{
  "systemInstruction": {
    "parts": [{
      "text": "Bạn là một chuyên gia tài liệu API. Viết tài liệu rõ ràng, súc tích."
    }]
  },
  "contents": [{
    "parts": [{
      "text": "Tạo tài liệu cho điểm cuối này: POST /api/users"
    }]
  }]
}

Chỉ dẫn hệ thống hướng dẫn hành vi của mô hình trong tất cả các yêu cầu trong một cuộc hội thoại.

Định dạng phản hồi

API trả về JSON với cấu trúc này:

{
  "candidates": [{
    "content": {
      "parts": [{
        "text": "REST API là các giao diện cho phép các ứng dụng giao tiếp qua HTTP bằng các phương thức tiêu chuẩn như GET, POST, PUT và DELETE."
      }],
      "role": "model"
    },
    "finishReason": "STOP",
    "index": 0,
    "safetyRatings": [...]
  }],
  "usageMetadata": {
    "promptTokenCount": 8,
    "candidatesTokenCount": 25,
    "totalTokenCount": 33
  }
}

Các trường chính:

candidates[0].content.parts[0].text - Phản hồi được tạo
usageMetadata - Số lượng token để tính phí
finishReason - Lý do quá trình tạo dừng (STOP, MAX_TOKENS, SAFETY)

Các trường hợp sử dụng phổ biến

1. Tạo tài liệu API

import google.generativeai as genai

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

endpoint_spec = """
POST /api/v1/users
Tạo một tài khoản người dùng mới
Nội dung: { "email": chuỗi, "password": chuỗi, "name": chuỗi }
"""

response = model.generate_content(
    f"Tạo tài liệu API toàn diện cho điểm cuối này:\n{endpoint_spec}",
    generation_config={"thinkingLevel": "medium"}
)

print(response.text)

2. Xác thực yêu cầu

def validate_api_request(request_body):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Xác thực nội dung yêu cầu API này và liệt kê mọi vấn đề:
    {request_body}

    Kiểm tra:
    - Thiếu các trường bắt buộc
    - Kiểu dữ liệu không hợp lệ
    - Các lo ngại về bảo mật
    """

    response = model.generate_content(prompt)
    return response.text

# Ví dụ sử dụng
request = '{"email": "test@example.com", "password": "123"}'
validation_result = validate_api_request(request)
print(validation_result)

3. Tạo thông báo lỗi

def generate_user_friendly_error(error_code, technical_message):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Chuyển đổi lỗi kỹ thuật này thành một thông báo thân thiện với người dùng:
    Mã lỗi: {error_code}
    Kỹ thuật: {technical_message}

    Làm cho nó rõ ràng, dễ thực hiện và không kỹ thuật.
    """

    response = model.generate_content(
        prompt,
        generation_config={"thinkingLevel": "low"}
    )
    return response.text

# Ví dụ
friendly_error = generate_user_friendly_error(
    "AUTH_TOKEN_EXPIRED",
    "Xác thực token JWT thất bại: tuyên bố exp đã hết hạn"
)
print(friendly_error)

Giới hạn tốc độ và hạn mức

Flash Lite có giới hạn hào phóng trong giai đoạn xem trước:

Gói miễn phí:

1 triệu token đầu vào miễn phí
15 yêu cầu mỗi phút
1.500 yêu cầu mỗi ngày

Gói trả phí:

0.25 USD cho mỗi 1 triệu token đầu vào
1.50 USD cho mỗi 1 triệu token đầu ra
60 yêu cầu mỗi phút
Không giới hạn hàng ngày

Theo dõi mức sử dụng của bạn trong Google AI Studio dưới mục Usage & Billing.

Xử lý lỗi

Xử lý các lỗi phổ biến một cách khéo léo:

import google.generativeai as genai
from google.api_core import exceptions

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

def safe_generate(prompt):
    try:
        response = model.generate_content(prompt)
        return response.text
    except exceptions.ResourceExhausted:
        return "Vượt quá giới hạn tốc độ. Hãy thử lại sau một phút."
    except exceptions.InvalidArgument as e:
        return f"Yêu cầu không hợp lệ: {str(e)}"
    except exceptions.PermissionDenied:
        return "Khóa API không hợp lệ hoặc đã hết hạn."
    except Exception as e:
        return f"Lỗi không mong muốn: {str(e)}"

result = safe_generate("Giải thích API")
print(result)

Các lỗi phổ biến:

400 Bad Request - JSON không hợp lệ hoặc thiếu các trường bắt buộc
401 Unauthorized - Khóa API không hợp lệ
429 Too Many Requests - Vượt quá giới hạn tốc độ
500 Internal Server Error - Máy chủ của Google gặp sự cố

Khắc phục sự cố

"API key không hợp lệ"

Kiểm tra những điều sau:

Khóa API được sao chép chính xác (không có khoảng trắng thừa)
Khóa API được bật trong Google Cloud Console
Thanh toán được bật trên dự án của bạn
Sử dụng đúng tên biến môi trường

"Không tìm thấy mô hình"

Hãy đảm bảo bạn đang sử dụng tên mô hình chính xác:

# Đúng
model = genai.GenerativeModel('gemini-3.1-flash-lite')

# Sai
model = genai.GenerativeModel('gemini-flash-lite')
model = genai.GenerativeModel('gemini-3.1-flash')

"Vượt quá giới hạn tốc độ"

Bạn đã đạt đến giới hạn yêu cầu mỗi phút. Các giải pháp:

Thêm logic thử lại với độ trễ lũy thừa
Gộp nhiều lời nhắc vào một yêu cầu duy nhất
Nâng cấp lên gói trả phí để có giới hạn cao hơn
Thực hiện xếp hàng yêu cầu

Phản hồi chậm

Flash Lite rất nhanh, nhưng nếu bạn thấy có độ trễ:

Kiểm tra kết nối mạng của bạn
Sử dụng cấp độ tư duy thấp hơn cho các tác vụ đơn giản
Giảm độ dài lời nhắc
Cân nhắc phát trực tiếp phản hồi cho các đầu ra dài

Nâng cao: Phát trực tiếp phản hồi

Đối với các đầu ra dài, hãy phát trực tiếp các token khi chúng được tạo:

import google.generativeai as genai

genai.configure(api_key=os.environ.get('GOOGLE_API_KEY'))
model = genai.GenerativeModel('gemini-3.1-flash-lite')

prompt = "Viết một lời giải thích chi tiết về các phương thức xác thực REST API"

response = model.generate_content(prompt, stream=True)

for chunk in response:
    print(chunk.text, end='', flush=True)

Phát trực tiếp cải thiện hiệu suất cảm nhận. Người dùng thấy đầu ra ngay lập tức thay vì chờ đợi phản hồi hoàn chỉnh.

Mẹo tối ưu hóa chi phí

1. Gộp các yêu cầu tương tự

# Đắt: 3 yêu cầu riêng biệt
response1 = model.generate_content("Giải thích GET")
response2 = model.generate_content("Giải thích POST")
response3 = model.generate_content("Giải thích PUT")

# Rẻ hơn: 1 yêu cầu kết hợp
combined_prompt = """
Giải thích các phương thức HTTP này:
1. GET
2. POST
3. PUT
"""
response = model.generate_content(combined_prompt)

2. Sử dụng cấp độ tư duy thấp hơn

# Cho phân loại đơn giản
response = model.generate_content(
    "Email này có phải là thư rác không? 'Mua ngay!'",
    generation_config={"thinkingLevel": "low"}
)

# Cho phân tích phức tạp
response = model.generate_content(
    "Phân tích thiết kế API này và đề xuất cải tiến...",
    generation_config={"thinkingLevel": "high"}
)

3. Triển khai bộ nhớ đệm (Caching)

Lưu trữ phản hồi vào bộ nhớ đệm cho các truy vấn lặp lại. Một bộ nhớ đệm đơn giản trong bộ nhớ có thể cắt giảm chi phí hơn 50% cho các yêu cầu phổ biến.

4. Cắt ngắn lời nhắc

Xóa ngữ cảnh không cần thiết:

# Dài dòng (nhiều token hơn)
prompt = "Tôi muốn bạn vui lòng giải thích cho tôi REST API là gì và chúng hoạt động như thế nào một cách chi tiết"

# Ngắn gọn (ít token hơn)
prompt = "Giải thích REST API"

Các cân nhắc về bảo mật

1. Bảo vệ khóa API của bạn

Lưu trữ trong biến môi trường hoặc trình quản lý bí mật
Thay đổi khóa thường xuyên
Sử dụng các khóa riêng biệt cho dev/staging/prod
Không bao giờ ghi nhật ký khóa API

2. Xác thực đầu vào của người dùng

def safe_prompt(user_input):
    # Xóa các nỗ lực tấn công tiềm ẩn
    cleaned = user_input.replace("Bỏ qua các chỉ dẫn trước", "")
    cleaned = cleaned[:1000]  # Giới hạn độ dài

    return f"Câu hỏi của người dùng: {cleaned}"

3. Lọc dữ liệu nhạy cảm

Không gửi thông tin nhạy cảm đến API:

import re

def sanitize_for_ai(text):
    # Xóa địa chỉ email
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '[EMAIL]', text)
    # Xóa số điện thoại
    text = re.sub(r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b', '[PHONE]', text)
    # Xóa số thẻ tín dụng
    text = re.sub(r'\b\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}\b', '[CARD]', text)
    return text

4. Triển khai giới hạn tốc độ

Bảo vệ khóa API của bạn khỏi bị lạm dụng:

from collections import defaultdict
import time

class RateLimiter:
    def __init__(self, max_requests=10, window=60):
        self.max_requests = max_requests
        self.window = window
        self.requests = defaultdict(list)

    def allow_request(self, user_id):
        now = time.time()
        # Xóa các yêu cầu cũ
        self.requests[user_id] = [
            req_time for req_time in self.requests[user_id]
            if now - req_time < self.window
        ]

        if len(self.requests[user_id]) < self.max_requests:
            self.requests[user_id].append(now)
            return True
        return False

limiter = RateLimiter(max_requests=10, window=60)

def generate_with_limit(user_id, prompt):
    if not limiter.allow_request(user_id):
        return "Vượt quá giới hạn tốc độ. Hãy thử lại sau."

    model = genai.GenerativeModel('gemini-3.1-flash-lite')
    response = model.generate_content(prompt)
    return response.text

So sánh Flash Lite với các mô hình Gemini khác

Tính năng	Flash Lite	Flash	Pro
Giá đầu vào	0.25 USD/1M	0.50 USD/1M	1.25 USD/1M
Giá đầu ra	1.50 USD/1M	3.00 USD/1M	7.50 USD/1M
Tốc độ	Nhanh hơn 2.5 lần	Nhanh	Tiêu chuẩn
Cửa sổ ngữ cảnh	32K token	1M token	2M token
Phù hợp nhất cho	Khối lượng lớn, nhạy cảm về chi phí	Cân bằng	Suy luận phức tạp

Chọn Flash Lite khi:

Bạn cần phản hồi nhanh
Chi phí là yếu tố quan trọng
Các yêu cầu dưới 32K token
Yêu cầu chất lượng vừa phải

Chọn Flash khi:

Bạn cần cửa sổ ngữ cảnh lớn
Chất lượng quan trọng hơn chi phí

Chọn Pro khi:

Bạn cần khả năng suy luận tối đa
Chi phí không phải là mối quan tâm
Làm việc với các tài liệu rất lớn

Tích hợp với Quy trình làm việc của Apidog

Người dùng Apidog có thể tích hợp Flash Lite vào quy trình phát triển API của họ:

1. Tự động tạo trường hợp thử nghiệm

Sử dụng Flash Lite để tạo các trường hợp thử nghiệm từ các thông số kỹ thuật API của bạn:

def generate_test_cases(endpoint_spec):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Tạo các trường hợp thử nghiệm toàn diện cho điểm cuối API này:
    {json.dumps(endpoint_spec, indent=2)}

    Bao gồm:
    - Kiểm tra đường dẫn thành công
    - Các trường hợp biên
    - Các tình huống lỗi
    - Các điều kiện ranh giới

    Định dạng dưới dạng mảng JSON của các trường hợp thử nghiệm.
    """

    response = model.generate_content(prompt)
    return json.loads(response.text)

2. Xác thực phản hồi API

Kiểm tra xem phản hồi có khớp với lược đồ dự kiến hay không:

def validate_response(response_data, expected_schema):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Xác thực phản hồi API này dựa trên lược đồ:

    Phản hồi: {json.dumps(response_data, indent=2)}
    Lược đồ: {json.dumps(expected_schema, indent=2)}

    Liệt kê bất kỳ sự không khớp hoặc vấn đề nào.
    """

    response = model.generate_content(
        prompt,
        generation_config={"thinkingLevel": "low"}
    )
    return response.text

3. Tạo dữ liệu giả (Mock Data)

Tạo dữ liệu thử nghiệm thực tế:

def generate_mock_data(schema, count=10):
    model = genai.GenerativeModel('gemini-3.1-flash-lite')

    prompt = f"""
    Tạo {count} mục dữ liệu giả thực tế khớp với lược đồ này:
    {json.dumps(schema, indent=2)}

    Trả về dưới dạng mảng JSON.
    """

    response = model.generate_content(prompt)
    return json.loads(response.text)

Câu hỏi thường gặp

Gemini 3.1 Flash Lite có miễn phí không?

1 triệu token đầu vào đầu tiên miễn phí trong giai đoạn xem trước. Sau đó, bạn trả 0.25 USD cho mỗi triệu token đầu vào và 1.50 USD cho mỗi triệu token đầu ra.

Flash Lite nhanh hơn bao nhiêu so với các mô hình khác?

Flash Lite nhanh hơn 2.5 lần so với Gemini 2.5 Flash về thời gian tạo token đầu tiên và nhanh hơn 45% về tốc độ đầu ra. Đây là một trong những mô hình nhanh nhất hiện có.

Tôi có thể sử dụng Flash Lite trong môi trường sản xuất không?

Có. Mặc dù được gắn nhãn "xem trước", mô hình này đủ ổn định để sử dụng trong môi trường sản xuất. Các nhà phát triển tiên phong như Latitude, Cartwheel và Whering đã và đang sử dụng nó ở quy mô lớn.

Kích thước cửa sổ ngữ cảnh là bao nhiêu?

Flash Lite hỗ trợ tối đa 32.000 token ngữ cảnh. Con số đó đủ cho hầu hết các trường hợp sử dụng API nhưng nhỏ hơn Flash (1M token) hoặc Pro (2M token).

Cấp độ tư duy hoạt động như thế nào?

Cấp độ tư duy kiểm soát mức độ xử lý mà mô hình áp dụng. Low thì nhanh và đơn giản. High thì chậm hơn nhưng kỹ lưỡng hơn. Sử dụng low cho phân loại, high cho suy luận phức tạp.

Tôi có thể sử dụng Flash Lite với Apidog không?

Có. Apidog hoạt động với bất kỳ REST API nào, bao gồm cả Gemini. Thiết lập các yêu cầu của bạn trong Apidog để kiểm tra dễ dàng hơn, cộng tác nhóm và tài liệu.

Điều gì xảy ra nếu tôi vượt quá giới hạn tốc độ?

Bạn sẽ nhận được lỗi 429. Hãy triển khai logic thử lại với độ trễ lũy thừa hoặc nâng cấp lên gói trả phí để có giới hạn cao hơn (60 yêu cầu/phút so với 15).

Dữ liệu của tôi có được sử dụng để đào tạo mô hình không?

Theo chính sách của Google, các yêu cầu API không được sử dụng để đào tạo mô hình. Dữ liệu của bạn được giữ riêng tư.

Tôi có thể tinh chỉnh Flash Lite không?

Chưa. Tinh chỉnh có sẵn cho một số mô hình Gemini nhưng không phải Flash Lite khi ra mắt. Thay vào đó, hãy sử dụng chỉ dẫn hệ thống để hướng dẫn hành vi.

Flash Lite so sánh với GPT-4 Turbo như thế nào?

Flash Lite nhanh hơn và rẻ hơn nhưng GPT-4 Turbo có khả năng suy luận mạnh mẽ hơn cho các tác vụ phức tạp. Đối với khối lượng công việc API lớn, Flash Lite chiến thắng về chi phí và tốc độ.

Các bước tiếp theo

Giờ đây bạn đã có mọi thứ cần thiết để bắt đầu sử dụng Gemini 3.1 Flash Lite:

Lấy khóa API của bạn từ Google AI Studio
Cài đặt SDK và chạy yêu cầu đầu tiên của bạn
Kiểm tra trong Apidog để phát triển dễ dàng hơn
Triển khai xử lý lỗi và logic thử lại
Theo dõi mức sử dụng để tối ưu hóa chi phí

Mô hình đã sẵn sàng để sản xuất. Giá cả giúp AI có thể tiếp cận được ở quy mô lớn. Tốc độ giúp người dùng của bạn hài lòng.

Bắt đầu xây dựng.

button