Google Gemini API Chế Độ Batch: Tiết Kiệm 50% Chi Phí

API Gemini của Google hiện có Chế độ hàng loạt (Batch Mode), một bản cập nhật mang tính chuyển đổi được thiết kế cho các tác vụ không đồng bộ, quy mô lớn, đi kèm với việc giảm 50% chi phí. 🚀

Điểm cuối mạnh mẽ này cho phép bạn xử lý các tác vụ khổng lồ với kết quả được trả về trong vòng 24 giờ, tất cả chỉ với một nửa giá API tiêu chuẩn.
Hệ thống được thiết kế cho các khối lượng công việc thông lượng cao, hỗ trợ các tệp JSONL lên đến 2GB và tận dụng các tối ưu hóa như Bộ nhớ đệm ngữ cảnh (Context Caching) để đạt hiệu quả cao hơn.
Nó cũng hỗ trợ các công cụ tích hợp sẵn như Google Search và được quản lý thông qua một API đơn giản để tạo, xóa và truy xuất tác vụ, giúp việc xử lý AI quy mô lớn trở nên phải chăng và dễ dàng hơn.

Vậy, hãy cùng tìm hiểu kỹ hơn về Chế độ hàng loạt của API Google Gemini mới!

💡

Bạn muốn một công cụ kiểm thử API tuyệt vời có thể tạo Tài liệu API đẹp mắt?

Bạn muốn một nền tảng tích hợp, tất cả trong một để Nhóm Phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng mọi yêu cầu của bạn và thay thế Postman với mức giá phải chăng hơn nhiều!

button

Giá của Chế độ hàng loạt API Gemini

Một lợi ích chính của Chế độ hàng loạt API Gemini là giảm đáng kể chi phí. Tất cả các tác vụ được gửi qua điểm cuối này đều có giá thấp hơn 50% so với mức giá tiêu chuẩn cho mô hình tương đương được sử dụng trong một cuộc gọi đồng bộ (thời gian thực).

Mức giảm giá 50% này áp dụng trực tiếp cho cấu trúc giá theo mỗi token. Cho dù bạn đang sử dụng gemini-2.5-pro, gemini-2.5-flash hay bất kỳ mô hình nào khác được hỗ trợ, chi phí cho cả token đầu vào và đầu ra đều giảm một nửa khi được xử lý thông qua một tác vụ hàng loạt. Mô hình định giá này giúp việc thực hiện các tác vụ quy mô lớn trở nên khả thi về mặt tài chính, chẳng hạn như phân tích hàng terabyte dữ liệu văn bản hoặc tạo nội dung cho toàn bộ danh mục sản phẩm, những tác vụ có thể quá tốn kém khi sử dụng API tiêu chuẩn. Chi phí vẫn được tính dựa trên số lượng token trong đầu vào và đầu ra được tạo của bạn, nhưng mức giá trên mỗi token là thứ được giảm giá.

Cách sử dụng Chế độ hàng loạt API Gemini: Hướng dẫn từng bước

Quy trình làm việc cho Chế độ hàng loạt API Gemini được thiết kế đơn giản, bao gồm chuẩn bị tệp, tạo tác vụ và truy xuất kết quả. Các phần sau đây cung cấp hướng dẫn thực tế sử dụng Google GenAI Python SDK.

Bước 1: Chuẩn bị tệp đầu vào của bạn cho Chế độ hàng loạt API Gemini

Chế độ hàng loạt API Gemini xử lý các yêu cầu từ một JSON Lines (JSONL) tệp. Mỗi dòng trong tệp phải là một đối tượng JSON hợp lệ đại diện cho một yêu cầu đơn lẻ, khép kín. Tệp có thể có kích thước lên đến 2GB.

Mỗi đối tượng JSON trong tệp phải chứa hai trường:

key: Một định danh chuỗi duy nhất (do bạn chọn) cho mỗi yêu cầu, được sử dụng để tương quan các yêu cầu với kết quả của chúng.
request: Tải trọng yêu cầu, có cấu trúc giống hệt với một yêu cầu được gửi đến API Gemini đồng bộ. Nó chứa trường contents với lời nhắc mô hình.

Ví dụ batch_requests.jsonl:

{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}

Bước 2: Quy trình lập trình cho Chế độ hàng loạt API Gemini

Python SDK đơn giản hóa quá trình tương tác với điểm cuối xử lý hàng loạt thành một vài lệnh gọi hàm chính.

Tải tệp đầu vào lên: Đầu tiên, bạn phải tải tệp JSONL của mình lên dịch vụ tệp của Google. Thao tác này trả về một đối tượng tệp mà bạn sẽ tham chiếu khi tạo tác vụ.

import google.generativeai as genai

# It is recommended to configure your API key as an environment variable
# genai.configure(api_key="YOUR_API_KEY")

uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")

Tạo tác vụ hàng loạt: Sau khi tệp đã được tải lên, bạn có thể tạo tác vụ hàng loạt. Lệnh gọi này yêu cầu chỉ định mô hình bạn muốn sử dụng và cung cấp tệp đã tải lên làm nguồn yêu cầu.

batch_job = genai.create_batch_job(
    model="gemini-2.5-flash",  # Or "gemini-2.5-pro", etc.
    requests=uploaded_batch_requests,
    config={
        'display_name': "MyFirstBatchJob-1",
    },
)
print(f"Created batch job: {batch_job.name}")
print(f"Initial state: {batch_job.state.name}")

Hàm này trả về ngay lập tức, cung cấp tên tác vụ và trạng thái ban đầu của nó, thường là JOB_STATE_PENDING.

Bước 3: Quản lý và giám sát các tác vụ trong Chế độ hàng loạt API Gemini

Vì các tác vụ hàng loạt là không đồng bộ, bạn cần theo dõi trạng thái của chúng. Bạn có thể truy xuất trạng thái hiện tại của một tác vụ bất cứ lúc nào bằng cách sử dụng tên của nó. Các tác vụ được đảm bảo hoàn thành trong vòng 24 giờ.

Các trạng thái tác vụ có thể có là:

JOB_STATE_UNSPECIFIED: Trạng thái mặc định.
JOB_STATE_PENDING: Tác vụ đã được tạo và đang chờ xử lý.
JOB_STATE_RUNNING: Tác vụ đang được xử lý tích cực.
JOB_STATE_SUCCEEDED: Tác vụ đã hoàn thành thành công.
JOB_STATE_FAILED: Tác vụ thất bại. Trường error trên đối tượng tác vụ sẽ chứa thông tin chẩn đoán.
JOB_STATE_CANCELLING: Yêu cầu hủy đã được nhận.
JOB_STATE_CANCELLED: Tác vụ đã bị hủy.

Ví dụ về kiểm tra trạng thái tác vụ:

# Check the status after some time has passed
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Current job state: {retrieved_job.state.name}")

Bước 4: Xử lý kết quả từ Chế độ hàng loạt API Gemini

Khi trạng thái tác vụ là JOB_STATE_SUCCEEDED, kết quả sẽ có sẵn để tải xuống dưới dạng tệp JSONL. Mỗi dòng trong tệp đầu ra tương ứng với một yêu cầu từ tệp đầu vào.

Đối tượng JSON đầu ra chứa key từ yêu cầu gốc và một đối tượng response chứa đầu ra của mô hình.

Tải xuống tệp kết quả:

if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_metadata = retrieved_job.result_file
    result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
    
    # Decode and process the results
    file_content = result_file_content_bytes.decode('utf-8')
    for line in file_content.splitlines():
        print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
    print(f"Job failed with error: {retrieved_job.error}")

Ví dụ về dòng tệp đầu ra:

{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}

Bạn có thể phân tích cú pháp tệp này, sử dụng key để khớp từng phản hồi với lời nhắc gốc của nó.

Chức năng nâng cao trong Chế độ hàng loạt API Gemini

Chế độ hàng loạt API Gemini cũng hỗ trợ các tính năng nâng cao hơn để tối ưu hóa quy trình làm việc quy mô lớn.

Bộ nhớ đệm ngữ cảnh (Context Caching) với Chế độ hàng loạt API Gemini

Đối với các tác vụ liên quan đến một phần ngữ cảnh lớn, được chia sẻ (ví dụ: một tài liệu dài mà bạn muốn đặt nhiều câu hỏi), bạn có thể sử dụng Bộ nhớ đệm ngữ cảnh (Context Caching). Tính năng này cho phép bạn lưu trữ ngữ cảnh được chia sẻ, do đó nó không được xử lý lại với mỗi yêu cầu trong lô. Điều này có thể dẫn đến tiết kiệm chi phí đáng kể hơn và thời gian xử lý nhanh hơn bằng cách giảm tổng số token được xử lý.

Sử dụng các công cụ tích hợp sẵn với Chế độ hàng loạt API Gemini

Các tác vụ hàng loạt hỗ trợ sử dụng công cụ, bao gồm chức năng Google Search tích hợp sẵn. Điều này cho phép bạn thực hiện các tác vụ quy mô lớn yêu cầu mô hình truy cập và xử lý thông tin thời gian thực từ web. Ví dụ, một tác vụ hàng loạt có thể được cấu hình để phân tích hàng nghìn URL và tóm tắt nội dung của chúng.

Google đã nêu bật một số tổ chức đang sử dụng chức năng này:

Reforged Labs sử dụng Chế độ hàng loạt API Gemini để phân tích và gắn nhãn một lượng lớn quảng cáo video, cắt giảm chi phí và tăng tốc quy trình làm việc của họ.
Vals AI sử dụng thông lượng cao của Chế độ hàng loạt để đánh giá các mô hình nền tảng với số lượng lớn các truy vấn đánh giá, bỏ qua các giới hạn tỷ lệ của API đồng bộ.

Kết luận: Giá trị kỹ thuật của Chế độ hàng loạt API Gemini

Chế độ hàng loạt API Gemini cung cấp một giải pháp mạnh mẽ về mặt kỹ thuật và có lợi về mặt tài chính cho việc xử lý AI không đồng bộ, quy mô lớn. Bằng cách giảm 50% chi phí, cung cấp quy trình làm việc dựa trên tệp đơn giản và hỗ trợ các tính năng nâng cao như bộ nhớ đệm ngữ cảnh và sử dụng công cụ, nó loại bỏ các rào cản kỹ thuật và tài chính liên quan đến các tác vụ AI thông lượng cao. Đây là một công cụ thiết yếu cho các nhà phát triển và tổ chức muốn tận dụng toàn bộ sức mạnh của các mô hình Gemini trên các tập dữ liệu khổng lồ.

💡

button