Gemini 2.5: Các Mô Hình AI Mới Pro, Flash, Flash-Lite Thay Đổi Mọi Thứ?

Ashley Innocent

Ashley Innocent

18 tháng 6 2025

Gemini 2.5: Các Mô Hình AI Mới Pro, Flash, Flash-Lite Thay Đổi Mọi Thứ?

Dòng mô hình AI Gemini 2.5 của Google đánh dấu một cột mốc quan trọng trong lĩnh vực AI tạo sinh, chuyển từ giai đoạn xem trước (preview) sang khả dụng rộng rãi (general availability) kể từ ngày 17 tháng 6 năm 2025. Bản phát hành này bao gồm Gemini 2.5 Pro, Gemini 2.5 Flash, và Gemini 2.5 Flash-Lite mới được giới thiệu, mỗi mô hình được thiết kế để đáp ứng các nhu cầu khác nhau của nhà phát triển với khả năng suy luận, hiệu quả và chi phí tối ưu hơn. Các mô hình này, hiện đã ổn định để sử dụng trong môi trường sản xuất, cung cấp các khả năng nâng cao cho nhiều tác vụ, từ lập trình phức tạp đến xử lý văn bản khối lượng lớn.

💡
Để khám phá các API của những mô hình này và tích hợp chúng vào dự án của bạn, hãy tải xuống Apidog miễn phí—một công cụ kiểm thử API mạnh mẽ giúp đơn giản hóa việc tương tác với các điểm cuối (endpoints) của Gemini, đảm bảo quy trình phát triển liền mạch. 
button

Gemini 2.5 Pro: Đỉnh cao của Trí tuệ

Tổng quan và Khả năng

Gemini 2.5 Pro là mô hình chủ lực trong dòng Gemini 2.5, được thiết kế cho các tác vụ đòi hỏi khả năng suy luận sâu sắc và xử lý đa phương thức. Nó vượt trội trong việc xử lý các tập dữ liệu lớn, cơ sở mã (codebases) và tài liệu phức tạp, tự hào với cửa sổ ngữ cảnh (context window) 1 triệu token, với kế hoạch mở rộng lên 2 triệu sớm. Mô hình này dẫn đầu các điểm chuẩn như LMArena (điểm Elo 1470) và WebDevArena (điểm Elo 1443), thể hiện sự thành thạo trong các tác vụ lập trình, toán học, khoa học và suy luận.

Hơn nữa, Gemini 2.5 Pro giới thiệu ngân sách suy luận (thinking budgets) có thể cấu hình, cho phép nhà phát triển kiểm soát số lượng token được sử dụng cho quá trình suy luận (từ 0 đến 24.576 token). Tính năng này tối ưu hóa sự cân bằng giữa chất lượng phản hồi, chi phí và độ trễ, làm cho nó lý tưởng cho các ứng dụng quy mô doanh nghiệp. Ví dụ, nhà phát triển có thể đặt ngân sách suy luận cao cho các tác vụ phức tạp như lập trình agentic hoặc giảm nó cho các truy vấn đơn giản hơn để giảm thiểu chi phí.

Các Chỉ số Hiệu suất

Hiệu suất của mô hình trên các điểm chuẩn đầy thách thức nhấn mạnh sự vượt trội về kỹ thuật của nó:

Ngoài ra, Gemini 2.5 Pro khắc phục các vấn đề giảm sút hiệu suất đã được ghi nhận trong phiên bản xem trước 03-25, cải thiện tính sáng tạo và định dạng phản hồi. Việc tích hợp nó với các công cụ như Google Search và thực thi mã (code execution) càng nâng cao tiện ích của nó cho các ứng dụng thực tế.

Trường hợp sử dụng

Các nhà phát triển tận dụng Gemini 2.5 Pro cho:

Gemini 2.5 Flash: Tốc độ kết hợp Suy luận

Tổng quan và Tính năng

Gemini 2.5 Flash hướng đến các nhà phát triển tìm kiếm sự cân bằng giữa tốc độ, chi phí và trí thông minh. Là một mô hình suy luận lai (hybrid reasoning model), nó duy trì độ trễ thấp của phiên bản tiền nhiệm, Gemini 2.0 Flash, đồng thời giới thiệu các khả năng suy luận nâng cao. Có sẵn từ ngày 17 tháng 4 năm 2025 ở dạng xem trước, nó đã đạt khả dụng rộng rãi mà không có thay đổi nào so với bản dựng 05-20, đảm bảo sự ổn định cho môi trường sản xuất.

Giống như Gemini 2.5 Pro, nó hỗ trợ ngân sách suy luận, cho phép nhà phát triển tinh chỉnh độ sâu suy luận. Khi được đặt bằng 0, Gemini 2.5 Flash có chi phí và độ trễ tương đương với Gemini 2.0 Flash, nhưng với hiệu suất được cải thiện. Cửa sổ ngữ cảnh 1 triệu token và đầu vào đa phương thức (văn bản, hình ảnh, âm thanh) làm cho nó linh hoạt cho nhiều ứng dụng khác nhau.

Các Chỉ số Hiệu suất

Gemini 2.5 Flash tỏa sáng trên các điểm chuẩn yêu cầu suy luận đa bước:

Hiệu quả của nó được thể hiện rõ ràng trong các đánh giá thực tế, sử dụng ít hơn 20-30% token so với các mô hình trước đây, điều này giúp tiết kiệm chi phí cho các tác vụ có thông lượng cao.

Trường hợp sử dụng

Gemini 2.5 Flash vượt trội trong:

Gemini 2.5 Flash-Lite: Định nghĩa lại Hiệu quả

Tổng quan và Đổi mới

Được giới thiệu vào ngày 17 tháng 6 năm 2025, Gemini 2.5 Flash-Lite là mô hình hiệu quả về chi phí và nhanh nhất trong dòng Gemini 2.5, hiện đang ở giai đoạn xem trước. Được thiết kế như một bản nâng cấp từ Gemini 2.0 Flash-Lite, nó nhắm đến các tác vụ nhạy cảm về độ trễ và khối lượng lớn, đồng thời giữ lại khả năng suy luận đặc trưng của dòng mô hình này. Mặc dù có kích thước nhỏ hơn, nó vẫn vượt trội hơn phiên bản tiền nhiệm trên các điểm chuẩn về lập trình, toán học, khoa học, suy luận và đa phương thức.



Gemini 2.5 Flash-Lite hỗ trợ cửa sổ ngữ cảnh 1 triệu token và đầu vào đa phương thức tương tự như các mô hình cùng dòng, cùng với ngân sách suy luận để kiểm soát chi phí. Độ trễ và chi phí thấp hơn của nó làm cho nó trở thành một lựa chọn hấp dẫn cho các nhà phát triển ưu tiên hiệu quả mà không hy sinh chất lượng.

Các Chỉ số Hiệu suất

Các chỉ số chính làm nổi bật hiệu quả của Gemini 2.5 Flash-Lite:

Hiệu suất của nó trên các tác vụ khối lượng lớn như dịch thuật và phân loại chứng minh khả năng xử lý khối lượng công việc chuyên sâu với mức tiêu thụ tài nguyên tối thiểu.

Trường hợp sử dụng

Gemini 2.5 Flash-Lite được thiết kế riêng cho:

Các Tiến bộ Kỹ thuật trên Toàn Dòng Gemini 2.5

Mô hình Suy luận và Ngân sách có thể Cấu hình

Tất cả các mô hình Gemini 2.5 đều là mô hình suy luận (thinking models), có khả năng suy luận qua các lời nhắc trước khi tạo phản hồi. Quá trình này bao gồm phân tích truy vấn, chia nhỏ các tác vụ phức tạp và lập kế hoạch đầu ra, dẫn đến độ chính xác và mức độ liên quan cao hơn.

Việc giới thiệu ngân sách suy luận cung cấp cho nhà phát triển khả năng kiểm soát chi tiết quá trình này, cho phép họ:

Sự linh hoạt này đảm bảo nhà phát triển có thể điều chỉnh các mô hình cho các trường hợp sử dụng cụ thể của họ, cân bằng hiệu quả chất lượng, chi phí và độ trễ.

Khả năng Đa phương thức

Dòng Gemini 2.5 hỗ trợ đầu vào đa phương thức gốc (native multimodal inputs), bao gồm văn bản, hình ảnh, âm thanh và video, cho phép các ứng dụng đa dạng. Ví dụ, Gemini 2.5 Pro có thể tạo giao diện người dùng trình phát video (video player UI) phù hợp với phong cách của một ứng dụng, trong khi Gemini 2.5 Flash xử lý đầu vào âm thanh để chuyển đổi giọng nói thành văn bản theo thời gian thực. Những khả năng này được tăng cường bởi cửa sổ ngữ cảnh 1 triệu token, cho phép các mô hình xử lý các tập dữ liệu mở rộng hoặc toàn bộ kho mã (code repositories).



Cải tiến Bảo mật

Google đã tăng cường bảo mật trong dòng Gemini 2.5, đặc biệt là chống lại các cuộc tấn công tiêm lời nhắc gián tiếp (indirect prompt injection attacks) trong quá trình sử dụng công cụ. Cải tiến này làm cho các mô hình trở nên an toàn nhất trong danh mục sản phẩm của Google, rất quan trọng cho việc áp dụng trong doanh nghiệp. Các công ty như Automation Anywhere và UiPath đang khám phá những biện pháp bảo vệ này để bảo vệ các quy trình làm việc dựa trên AI của họ.

Tích hợp với Công cụ dành cho Nhà phát triển

Các mô hình Gemini 2.5 tích hợp liền mạch với Google AI Studio và Vertex AI, cung cấp API để dễ dàng áp dụng. Các nhà phát triển có thể truy cập tóm tắt suy luận (thought summaries) để minh bạch, cấu hình ngân sách suy luận thông qua thanh trượt hoặc tham số API, và tận dụng các công cụ như Google Search hoặc thực thi mã. Việc Gemini 2.5 Flash-Lite có sẵn ở dạng xem trước trên các nền tảng này khuyến khích thử nghiệm trước khi triển khai sản xuất đầy đủ.

Triển khai Thực tế: Bắt đầu

Tích hợp API

Để sử dụng các mô hình Gemini 2.5, nhà phát triển có thể truy cập API Gemini thông qua Google AI Studio hoặc Vertex AI. Dưới đây là một đoạn mã Python mẫu để tương tác với Gemini 2.5 Flash:

from google import genai

client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Calculate the probability of rolling a 7 with two dice.",
    config=genai.types.GenerateContentConfig(
        thinking_config=genai.types.ThinkingConfig(thinking_budget=1024)
    )
)
print(response.text)

Đoạn mã này đặt ngân sách suy luận là 1024 token, đảm bảo mô hình suy luận qua phép tính xác suất để có kết quả chính xác.

Các Cân nhắc khi Triển khai

Khi triển khai các mô hình Gemini 2.5:



Chuyển đổi từ các Mô hình Xem trước

Các nhà phát triển đang sử dụng các phiên bản xem trước (ví dụ: Gemini 2.5 Flash Preview 04-17 hoặc Gemini 2.5 Pro Preview 05-06) nên chuyển đổi sang các mô hình ổn định:

Kết luận

Dòng Gemini 2.5—bao gồm Gemini 2.5 Pro, Gemini 2.5 Flash, và Gemini 2.5 Flash-Lite—định nghĩa lại AI tạo sinh với trọng tâm vào khả năng suy luận, hiệu quả và quyền kiểm soát của nhà phát triển. Hiện đã ra khỏi giai đoạn xem trước, các mô hình này cung cấp các giải pháp ổn định, sẵn sàng cho sản xuất cho nhiều ứng dụng khác nhau, từ lập trình và phát triển web đến xử lý văn bản khối lượng lớn. Bằng cách tích hợp ngân sách suy luận, khả năng đa phương thức và bảo mật mạnh mẽ, Google định vị dòng Gemini 2.5 là một người dẫn đầu trong lĩnh vực AI.

Hãy bắt đầu xây dựng với các mô hình này ngay hôm nay bằng cách sử dụng Google AI Studio hoặc Vertex AI, và tối ưu hóa tương tác API của bạn với bản tải xuống miễn phí của Apidog. Thử nghiệm với ngân sách suy luận, khám phá đầu vào đa phương thức và tham gia cộng đồng nhà phát triển đang định hình tương lai của AI.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API