Gemini 2.5: Mô Hình Điều Khiển Giao Diện Bằng AI Của Tương Lai?

Google DeepMind gần đây đã công bố mô hình Gemini 2.5 Computer Use, một tiến bộ chuyên biệt được xây dựng trên nền tảng hiểu biết và suy luận hình ảnh mạnh mẽ của Gemini 2.5 Pro. Mô hình này trao quyền cho các tác nhân AI tương tác trực tiếp với giao diện người dùng đồ họa (UI), thu hẹp một khoảng cách quan trọng trong tự động hóa tác vụ kỹ thuật số. Các nhà phát triển giờ đây có thể truy cập các khả năng cho phép tác nhân điều hướng các trang web và ứng dụng với độ chính xác giống con người, chẳng hạn như nhấp vào nút, nhập văn bản và cuộn qua nội dung. Hơn nữa, sự đổi mới này giải quyết các tình huống mà API có cấu trúc không đáp ứng được, cho phép các tác nhân xử lý các tác vụ như gửi biểu mẫu mà theo truyền thống yêu cầu can thiệp thủ công.

💡

Khi các nhà phát triển tích hợp các mô hình như vậy vào quy trình làm việc của họ, các công cụ như Apidog tỏ ra vô cùng hữu ích cho việc kiểm thử và quản lý tương tác API. Apidog hợp lý hóa việc gỡ lỗi, tài liệu hóa và cộng tác API, giúp việc tạo mẫu và triển khai tích hợp với Gemini API trở nên dễ dàng hơn. Tải xuống Apidog miễn phí ngay hôm nay để nâng cao quy trình phát triển của bạn khi xây dựng các tác nhân được hỗ trợ bởi mô hình Gemini 2.5 Computer Use—đó là một cách liền mạch để đảm bảo các lệnh gọi API của bạn luôn đáng tin cậy và hiệu quả.

button

Bài viết này xem xét các chi tiết kỹ thuật phức tạp của mô hình Gemini 2.5 Computer Use, từ các cơ chế cốt lõi đến các ứng dụng thực tế. Chúng tôi bắt đầu bằng cách phác thảo các khả năng nền tảng của nó và sau đó khám phá cách nó hoạt động trong các vòng lặp lặp.

Các Khả Năng Cốt Lõi của Mô Hình Gemini 2.5 Computer Use

Mô hình Gemini 2.5 Computer Use vượt trội trong việc cho phép các tác nhân AI thực hiện các thao tác UI mô phỏng hành động của con người. Cụ thể, nó hỗ trợ điền biểu mẫu, chọn tùy chọn từ menu thả xuống, áp dụng bộ lọc và thậm chí hoạt động trong các phiên đã xác thực sau khi đăng nhập. Các kỹ sư tối ưu hóa mô hình này chủ yếu cho các trình duyệt web, nơi nó thể hiện khả năng vượt trội trong việc xử lý các yếu tố web động. Ngoài ra, nó cho thấy kết quả đầy hứa hẹn trong việc kiểm soát UI di động, mặc dù việc tối ưu hóa hoàn toàn cho các hệ điều hành máy tính để bàn vẫn đang được tiến hành.

Một thế mạnh chính nằm ở hiệu suất đánh giá của nó. Mô hình đạt được kết quả hàng đầu trên một số đánh giá tiêu chuẩn, bao gồm Online-Mind2Web, WebVoyager và AndroidWorld. Chẳng hạn, trên công cụ Browserbase cho Online-Mind2Web, nó mang lại độ chính xác hơn 70% với độ trễ khoảng 225 giây. Điều này vượt trội so với các đối thủ cạnh tranh bằng cách cung cấp chất lượng cao hơn với thời gian xử lý giảm, điều này rất quan trọng đối với các ứng dụng thời gian thực.

Cách Mô Hình Gemini 2.5 Computer Use Hoạt Động

Về cốt lõi, mô hình Gemini 2.5 Computer Use hoạt động thông qua một vòng lặp lặp được hiển thị qua công cụ computer_use mới trong Gemini API. Các nhà phát triển bắt đầu quá trình này bằng cách cung cấp các đầu vào như yêu cầu của người dùng, ảnh chụp màn hình của môi trường hiện tại và lịch sử các hành động trước đó. Tùy chọn, họ có thể chỉ định các loại trừ khỏi danh sách hành động UI được hỗ trợ hoặc bao gồm các chức năng tùy chỉnh để điều chỉnh hành vi của tác nhân.

Mô hình xử lý các đầu vào này và tạo ra một phản hồi, thường ở dạng một lệnh gọi hàm đại diện cho một hành động UI cụ thể—như nhấp vào một phần tử hoặc nhập vào một trường. Trong các trường hợp liên quan đến các quyết định quan trọng, chẳng hạn như xác nhận mua hàng, phản hồi bao gồm một lời nhắc để người dùng cuối xác minh. Mã phía máy khách sau đó thực thi hành động này, chụp một ảnh chụp màn hình mới và URL đã cập nhật làm phản hồi.

Quy trình làm việc của mô hình Gemini 2.5 Computer Use

Phản hồi này quay trở lại mô hình, khởi động lại chu trình cho đến khi tác vụ hoàn thành, một lỗi phát sinh hoặc các giao thức an toàn can thiệp. Cơ chế như vậy đảm bảo hành vi thích ứng, vì tác nhân liên tục đánh giá lại trạng thái UI. Tuy nhiên, các nhà phát triển phải triển khai vòng lặp này một cách cẩn thận để tránh các vòng lặp vô hạn, kết hợp các giới hạn thời gian chờ hoặc tiêu chí hội tụ.

Từ góc độ kỹ thuật, khả năng suy luận hình ảnh của mô hình dựa trên các khả năng đa phương thức của Gemini 2.5 Pro, cho phép nó diễn giải ảnh chụp màn hình với độ trung thực cao. Nó xác định các phần tử tương tác thông qua các kỹ thuật thị giác máy tính tiên tiến, ánh xạ chúng thành các lệnh có thể thực hiện được. Cách tiếp cận này trái ngược với các phương pháp viết script truyền thống, vốn thường thất bại trên các UI động do các bộ chọn dễ gãy.

Hơn nữa, mô hình hỗ trợ một bộ hành động UI toàn diện, bao gồm cuộn, di chuột và kéo. Các kỹ sư có thể mở rộng điều này bằng cách định nghĩa các chức năng tùy chỉnh, cho phép thích ứng theo từng miền cụ thể.

Hiệu Suất Đánh Giá và Đánh Giá Kỹ Thuật

Đánh giá hiệu suất cho thấy sự vượt trội của mô hình Gemini 2.5 Computer Use trong các tác vụ kiểm soát UI. Trên Online-Mind2Web, nó đạt được độ chính xác cao nhất bằng cách diễn giải và hành động chính xác theo các hướng dẫn dựa trên web. Tương tự, trong WebVoyager, nơi kiểm tra điều hướng trên các trang web đa dạng, mô hình điều hướng các đường dẫn phức tạp với ít lỗi nhất. Các đánh giá của AndroidWorld làm nổi bật khả năng di động của nó, nơi nó xử lý các giao diện ứng dụng như vuốt và chạm một cách hiệu quả.

Hiệu suất đánh giá của mô hình Gemini 2.5 Computer Use

Các chỉ số độ trễ càng làm nổi bật lợi thế của nó. Trong khi các đối thủ cạnh tranh có thể yêu cầu thời gian xử lý lâu hơn để đạt độ chính xác tương tự, mô hình này cân bằng tốc độ và độ chính xác, thường giảm độ trễ lên đến 50% trong các thử nghiệm so sánh. Những người dùng sớm, như các nhóm tại Poke.com, báo cáo rằng mô hình Gemini 2.5 Computer Use vượt trội hơn các giải pháp thay thế, cho phép quy trình làm việc nhanh hơn trong các giao diện lấy con người làm trung tâm.

So sánh độ trễ của mô hình Gemini 2.5 Computer Use

Về mặt kỹ thuật, các đánh giá này sử dụng các công cụ mô phỏng các tình huống thực tế, đo lường tỷ lệ thành công, thời gian hoàn thành và xử lý lỗi. Hiệu suất độ trễ thấp của mô hình xuất phát từ các đường dẫn suy luận được tối ưu hóa trong Gemini 2.5 Pro, tận dụng xử lý token hiệu quả và tính toán song song. Các nhà phát triển phân tích các kết quả này ghi nhận những cải tiến trong việc phân tích các ngữ cảnh phức tạp, với mức tăng tới 18% trong các đánh giá đầy thách thức, như được Autotab trích dẫn.

Tuy nhiên, các đánh giá cũng bộc lộ những hạn chế, chẳng hạn như hiệu quả giảm sút trong các môi trường máy tính để bàn không được tối ưu hóa. Các kỹ sư giải quyết vấn đề này bằng cách kết hợp mô hình với các công cụ bổ sung, đảm bảo các phương pháp tiếp cận lai để có phạm vi bao phủ rộng hơn. Chuyển sang các ví dụ thực tế, các chỉ số này thể hiện trong các trường hợp sử dụng cụ thể.

Các Ví Dụ và Ứng Dụng Thực Tế

Các bản demo thể hiện tính linh hoạt của mô hình Gemini 2.5 Computer Use. Trong một kịch bản, một tác nhân truy cập trang đăng ký chăm sóc thú cưng tại https://tinyurl.com/pet-care-signup, trích xuất thông tin chi tiết cho thú cưng cư trú tại California và tích hợp chúng vào CRM spa tại https://pet-luxe-spa.web.app. Sau đó, nó lên lịch một cuộc hẹn theo dõi với chuyên gia Anima Lavar vào ngày 10 tháng 10 sau 8 giờ sáng, phản ánh lý do điều trị của thú cưng. Quá trình này bao gồm nhiều bước: đọc biểu mẫu, trích xuất dữ liệu và thao tác lịch—tất cả đều được thực hiện một cách tự động.

Một ví dụ khác liên quan đến việc sắp xếp một bảng ghi chú dán lộn xộn tại http://sticky-note-jam.web.app. Tác nhân phân loại các ghi chú bằng cách kéo chúng vào các phần được xác định trước, thể hiện khả năng kéo và thả. Các bản demo này, được tăng tốc để xem, minh họa cách mô hình xử lý linh hoạt các phần tử tương tác.

Những người thử nghiệm sớm áp dụng nó trong kiểm thử UI, nơi nó tự động hóa các kiểm tra hồi quy trên các ứng dụng web. Các trợ lý cá nhân được xây dựng bằng mô hình này quản lý email, đặt chỗ và nhắc nhở bằng cách giao tiếp trực tiếp với các ứng dụng. Tự động hóa quy trình làm việc được hưởng lợi từ khả năng phục hồi sau lỗi; ví dụ, nhóm nền tảng thanh toán của Google báo cáo hơn 60% các thực thi bị đình trệ được phục hồi, giảm thời gian sửa lỗi từ vài ngày xuống còn vài phút.

Từ góc độ kỹ thuật, các ứng dụng này yêu cầu xử lý lỗi mạnh mẽ trong vòng lặp. Các nhà phát triển triển khai logic thử lại và các điểm kiểm tra trạng thái để duy trì tiến độ. Hơn nữa, việc tích hợp với API thông qua các công cụ như Apidog cho phép kiểm thử liền mạch điểm cuối computer_use, đảm bảo các đầu vào như ảnh chụp màn hình được định dạng chính xác. Khi an toàn trở thành tối quan trọng, mô hình tích hợp các hàng rào bảo vệ sẵn có.

Các Tính Năng An Toàn và Giảm Thiểu Rủi Ro

Google tích hợp an toàn trực tiếp vào mô hình Gemini 2.5 Computer Use để chống lại các rủi ro như lạm dụng, hành vi không mong muốn và các mối đe dọa bên ngoài như tấn công prompt injection. Quá trình đào tạo tạo ra các cơ chế từ chối đối với các hành động gây hại, chẳng hạn như làm tổn hại tính toàn vẹn của hệ thống hoặc bỏ qua các giao thức bảo mật như CAPTCHA.

Các nhà phát triển truy cập các điều khiển chi tiết, bao gồm dịch vụ an toàn từng bước đánh giá các hành động trước khi thực thi. Các hướng dẫn hệ thống hướng dẫn mô hình tìm kiếm xác nhận của người dùng cho các hoạt động nhạy cảm, như kiểm soát thiết bị y tế hoặc thực hiện giao dịch tài chính. Cách tiếp cận phân lớp này giảm thiểu các lỗ hổng trong môi trường web dễ bị lừa đảo.

Về mặt kỹ thuật, các đánh giá an toàn bao gồm kiểm thử đối kháng, nơi các cuộc tấn công mô phỏng tìm kiếm các điểm yếu. Mô hình đạt được điểm an toàn cao bằng cách phân loại các hành động theo các danh mục rủi ro được xác định trước, dừng tiến trình nếu vượt quá ngưỡng. Tuy nhiên, các nhà phát triển chịu trách nhiệm kiểm thử kỹ lưỡng trước khi ra mắt, tuân thủ tài liệu về các phương pháp hay nhất.

Hơn nữa, tính minh bạch trong báo cáo an toàn cho phép các kỹ sư tinh chỉnh các tích hợp. Đối với các thiết lập dựa trên API, các công cụ như Apidog tạo điều kiện cho việc giả lập các phản hồi an toàn trong quá trình phát triển, đảm bảo tuân thủ mà không có rủi ro trực tiếp. Chuyển sang khả năng khả dụng, các tính năng này giúp mô hình có thể truy cập được để sử dụng có trách nhiệm.

Khả Năng Khả Dụng và Quyền Truy Cập của Nhà Phát Triển

Google cung cấp mô hình Gemini 2.5 Computer Use ở dạng bản xem trước công khai thông qua Gemini API trên các nền tảng như Google AI Studio và Vertex AI. Các nhà phát triển có thể tích hợp ngay lập tức, tận dụng các hệ thống xác thực và hạn ngạch hiện có.

Việc truy cập không yêu cầu thiết lập bổ sung nào ngoài các khóa API tiêu chuẩn, cho phép tạo mẫu nhanh chóng. Người dùng Vertex AI được hưởng lợi từ khả năng mở rộng cấp doanh nghiệp, trong khi Google AI Studio phù hợp cho thử nghiệm cá nhân. Việc triển khai mô hình nhấn mạnh phản hồi lặp đi lặp lại, với việc Google khuyến khích báo cáo về các trường hợp biên.

Từ góc độ tích hợp kỹ thuật, các nhà phát triển gói công cụ computer_use trong các vòng lặp tùy chỉnh bằng các ngôn ngữ như Python hoặc JavaScript. Các SDK hợp lý hóa việc xử lý ảnh chụp màn hình và thực thi hành động, giảm mã lặp lại. Ngoài ra, tài liệu cung cấp các mẫu mã cho các kịch bản phổ biến, đẩy nhanh việc áp dụng.

Khi việc sử dụng tăng lên, các công cụ giám sát theo dõi các chỉ số hiệu suất, đảm bảo phân bổ tài nguyên tối ưu. Đối với những người khám phá tương tác API, Apidog cung cấp các bản tải xuống miễn phí để trực quan hóa các điểm cuối, gỡ lỗi các lệnh gọi và cộng tác trên các tích hợp—hoàn hảo để xây dựng các tác nhân mạnh mẽ với mô hình Gemini 2.5 Computer Use.

Tích Hợp Mô Hình Gemini 2.5 Computer Use với Các Công Cụ như Apidog

Tích hợp nâng cao tiện ích của mô hình Gemini 2.5 Computer Use. Apidog, một nền tảng API toàn diện, bổ sung cho nó bằng cách cho phép các nhà phát triển kiểm thử và tài liệu hóa các điểm cuối Gemini API một cách hiệu quả. Các kỹ sư sử dụng Apidog để mô phỏng các lệnh gọi computer_use, xác minh các định dạng đầu vào như ảnh chụp màn hình được mã hóa JSON và lịch sử hành động.

Trong thực tế, các tính năng giả lập của Apidog tái tạo phản hồi của mô hình, cho phép phát triển ngoại tuyến các vòng lặp tác nhân. Điều này ngăn chặn các lệnh gọi API tốn kém trong quá trình lặp lại. Hơn nữa, các công cụ cộng tác của Apidog cho phép các nhóm chia sẻ thông số kỹ thuật API, đảm bảo triển khai nhất quán trên các dự án.

Về mặt kỹ thuật, Apidog hỗ trợ các tiêu chuẩn OpenAPI, phù hợp với tài liệu của Gemini. Các nhà phát triển nhập trực tiếp các schema, tạo mã máy khách cho các kết nối liền mạch. Đối với các tác nhân phức tạp, Apidog giám sát độ trễ và tỷ lệ lỗi, tối ưu hóa hiệu quả của vòng lặp lặp.

Hơn nữa, khi xử lý các chức năng tùy chỉnh trong mô hình, Apidog trực quan hóa các ánh xạ tham số, giảm lỗi tích hợp. Các nghiên cứu điển hình cho thấy các nhóm sử dụng Apidog cùng với Gemini để tự động hóa quy trình làm việc, đạt được triển khai nhanh hơn. Khi chúng ta xem xét các hàm ý trong tương lai, những sự phối hợp như vậy chỉ ra các hệ sinh thái đang phát triển.

Các Hàm Ý và Phát Triển Trong Tương Lai

Mô hình Gemini 2.5 Computer Use báo hiệu một sự chuyển dịch sang các tác nhân AI tự chủ hơn. Các phiên bản tương lai có thể mở rộng sang kiểm soát hệ điều hành máy tính để bàn, mở rộng các ứng dụng trong phần mềm doanh nghiệp. Google cam kết mở rộng quy mô có trách nhiệm, ưu tiên an toàn khi các khả năng tiến bộ.

Về mặt kỹ thuật, các tiến bộ có thể bao gồm các đầu vào đa phương thức được cải thiện, kết hợp phản hồi âm thanh hoặc xúc giác để tương tác phong phú hơn. Các nhà nghiên cứu khám phá học tập liên kết để cá nhân hóa các tác nhân mà không ảnh hưởng đến quyền riêng tư.

Tóm lại, mô hình Gemini 2.5 Computer Use định nghĩa lại vai trò của AI trong các giao diện kỹ thuật số. Bằng cách cho phép kiểm soát UI chính xác, độ trễ thấp, nó trao quyền cho các nhà phát triển xây dựng các giải pháp đổi mới. Các công cụ như Apidog tăng cường hệ sinh thái này, cung cấp các tài nguyên miễn phí để hợp lý hóa việc phát triển. Khi việc áp dụng tăng tốc, hãy mong đợi những tác động mang tính chuyển đổi trên các ngành công nghiệp.

button