Google DeepMind는 최근 Gemini 2.5 Pro의 강력한 시각적 이해 및 추론 기반 위에 구축된 특화된 발전 모델인 Gemini 2.5 Computer Use 모델을 공개했습니다. 이 모델은 AI 에이전트가 그래픽 사용자 인터페이스(UI)와 직접 상호작용할 수 있도록 하여 디지털 작업 자동화의 중요한 격차를 해소합니다. 이제 개발자는 에이전트가 버튼 클릭, 텍스트 입력, 콘텐츠 스크롤 등 사람과 유사한 정밀도로 웹 페이지와 애플리케이션을 탐색할 수 있는 기능에 접근할 수 있습니다. 또한, 이 혁신은 구조화된 API가 부족한 시나리오를 해결하여, 전통적으로 수동 개입이 필요했던 양식 제출과 같은 작업을 에이전트가 처리할 수 있도록 합니다.
버튼
이 기사는 Gemini 2.5 Computer Use 모델의 핵심 메커니즘부터 실제 응용 프로그램에 이르기까지 기술적 복잡성을 검토합니다. 먼저 기본 기능을 설명한 다음 반복 루프 내에서 어떻게 작동하는지 살펴봅니다.
Gemini 2.5 Computer Use 모델의 핵심 기능
Gemini 2.5 Computer Use 모델은 AI 에이전트가 사람의 행동을 모방하는 UI 조작을 수행할 수 있도록 하는 데 탁월합니다. 특히, 양식 작성, 드롭다운 메뉴에서 옵션 선택, 필터 적용, 심지어 로그인 뒤 인증된 세션 내에서 작동하는 것을 지원합니다. 엔지니어들은 주로 웹 브라우저용으로 이 모델을 최적화했으며, 동적 웹 요소를 처리하는 데 탁월한 능력을 보여줍니다. 또한, 모바일 UI 제어에서도 유망한 결과를 보여주지만, 데스크톱 운영 체제에 대한 완전한 최적화는 아직 진행 중입니다.
한 가지 핵심 강점은 벤치마크 성능에 있습니다. 이 모델은 Online-Mind2Web, WebVoyager, AndroidWorld를 포함한 여러 표준화된 평가에서 선도적인 결과를 달성합니다. 예를 들어, Online-Mind2Web의 Browserbase 하네스에서 약 225초의 지연 시간으로 70% 이상의 정확도를 제공합니다. 이는 처리 시간을 단축하면서 더 높은 품질을 제공하여 경쟁사보다 뛰어난 성능을 보여주며, 이는 실시간 애플리케이션에 매우 중요합니다.
Gemini 2.5 Computer Use 모델 작동 방식
본질적으로 Gemini 2.5 Computer Use 모델은 Gemini API의 새로운 computer_use 도구를 통해 노출되는 반복 루프를 통해 작동합니다. 개발자는 사용자 요청, 현재 환경 스크린샷, 이전 작업 기록과 같은 입력을 제공하여 이 프로세스를 시작합니다. 선택적으로 지원되는 UI 작업 목록에서 제외하거나 에이전트의 동작을 맞춤 설정하기 위한 사용자 정의 함수를 포함할 수 있습니다.
모델은 이러한 입력을 처리하고 응답을 생성하는데, 일반적으로 특정 UI 작업(예: 요소를 클릭하거나 필드에 입력)을 나타내는 함수 호출 형태입니다. 구매 확인과 같이 위험도가 높은 결정이 포함된 경우, 응답에는 최종 사용자 확인을 위한 프롬프트가 포함됩니다. 그런 다음 클라이언트 측 코드가 이 작업을 실행하고, 새로운 스크린샷과 업데이트된 URL을 피드백으로 캡처합니다.

이 피드백은 모델로 다시 돌아가 작업이 완료되거나 오류가 발생하거나 안전 프로토콜이 개입할 때까지 주기를 다시 시작합니다. 이러한 메커니즘은 에이전트가 UI 상태를 지속적으로 재평가하므로 적응형 동작을 보장합니다. 그러나 개발자는 무한 반복을 피하기 위해 시간 초과 또는 수렴 기준을 통합하여 이 루프를 신중하게 구현해야 합니다.
기술적인 관점에서 모델의 시각적 추론은 Gemini 2.5 Pro의 다중 모달 기능에서 파생되며, 스크린샷을 높은 충실도로 해석할 수 있도록 합니다. 고급 컴퓨터 비전 기술을 통해 대화형 요소를 식별하고 실행 가능한 명령에 매핑합니다. 이 접근 방식은 취약한 선택기로 인해 동적 UI에서 종종 실패하는 기존 스크립팅 방법과 대조됩니다.
또한, 이 모델은 스크롤, 호버링, 드래그를 포함한 포괄적인 UI 작업 세트를 지원합니다. 엔지니어는 사용자 정의 함수를 정의하여 이를 확장할 수 있으며, 도메인별 적응을 가능하게 합니다.
벤치마크 성능 및 기술 평가
벤치마크는 Gemini 2.5 Computer Use 모델이 UI 제어 작업에서 우수함을 보여줍니다. Online-Mind2Web에서 웹 기반 지침을 올바르게 해석하고 실행하여 최고의 정확도를 달성합니다. 마찬가지로, 다양한 웹사이트를 통한 탐색을 테스트하는 WebVoyager에서 이 모델은 최소한의 오류로 복잡한 경로를 탐색합니다. AndroidWorld 평가는 스와이프 및 탭과 같은 앱 인터페이스를 효과적으로 처리하는 모바일 능력을 강조합니다.

지연 시간 측정은 그 우위를 더욱 강조합니다. 경쟁사들은 비슷한 정확도를 위해 더 긴 처리 시간을 필요로 할 수 있지만, 이 모델은 속도와 정밀도의 균형을 맞추며 비교 테스트에서 종종 지연 시간을 최대 50%까지 줄입니다. Poke.com의 팀과 같은 초기 채택자들은 Gemini 2.5 Computer Use 모델이 대안보다 뛰어난 성능을 발휘하여 인간 중심 인터페이스에서 더 빠른 워크플로우를 가능하게 한다고 보고합니다.

기술적으로 이러한 벤치마크는 실제 시나리오를 시뮬레이션하는 하네스를 사용하여 성공률, 완료 시간 및 오류 처리를 측정합니다. 모델의 낮은 지연 시간 성능은 효율적인 토큰 처리 및 병렬 계산을 활용하는 Gemini 2.5 Pro의 최적화된 추론 경로에서 비롯됩니다. 이러한 결과를 분석하는 개발자들은 Autotab이 인용한 바와 같이, 어려운 평가에서 최대 18%의 향상을 통해 복잡한 컨텍스트를 파싱하는 데 개선이 있음을 주목합니다.
그러나 벤치마크는 최적화되지 않은 데스크톱 환경에서의 효율성 감소와 같은 한계도 드러냅니다. 엔지니어들은 더 넓은 범위를 위해 모델을 보완적인 도구와 결합하여 하이브리드 접근 방식을 보장합니다. 실제 사례로 전환하면 이러한 지표는 실제 사용 사례로 나타납니다.
실제 사례 및 응용 프로그램
시연은 Gemini 2.5 Computer Use 모델의 다재다능함을 보여줍니다. 한 시나리오에서 에이전트는 https://tinyurl.com/pet-care-signup의 반려동물 돌봄 가입 페이지에 접속하여 캘리포니아 거주 반려동물에 대한 세부 정보를 추출하고 https://pet-luxe-spa.web.app의 스파 CRM에 통합합니다. 그런 다음 10월 10일 오전 8시 이후에 전문가 Anima Lavar와 반려동물의 치료 이유를 반영하여 후속 약속을 잡습니다. 이 과정은 양식 읽기, 데이터 추출, 캘린더 조작 등 여러 단계를 포함하며, 이 모든 것이 자율적으로 실행됩니다.
또 다른 예는 http://sticky-note-jam.web.app에서 혼란스러운 스티커 메모 보드를 정리하는 것입니다. 에이전트는 메모를 미리 정의된 섹션으로 드래그하여 분류하며, 드래그 앤 드롭 기능을 시연합니다. 시청을 위해 가속화된 이 데모들은 모델이 대화형 요소를 유연하게 처리하는 방법을 보여줍니다.
초기 테스터들은 웹 애플리케이션의 회귀 검사를 자동화하는 UI 테스트에 이 모델을 적용합니다. 이 모델로 구축된 개인 비서는 앱과 직접 인터페이스하여 이메일, 예약 및 미리 알림을 관리합니다. 워크플로우 자동화는 실패로부터 복구하는 능력으로 이점을 얻습니다. 예를 들어, Google의 결제 플랫폼 팀은 중단된 실행의 60% 이상을 복구하여 수정 시간을 며칠에서 몇 분으로 단축했다고 보고합니다.
기술적인 관점에서 이러한 응용 프로그램은 루프에서 강력한 오류 처리를 필요로 합니다. 개발자는 진행 상황을 유지하기 위해 재시도 로직과 상태 체크포인트를 구현합니다. 또한, Apidog와 같은 도구를 통해 API와 통합하면 computer_use 엔드포인트를 원활하게 테스트할 수 있어 스크린샷과 같은 입력이 올바르게 포맷되도록 합니다. 안전이 가장 중요해짐에 따라 모델에는 내장된 안전 장치가 포함되어 있습니다.

안전 기능 및 위험 완화
Google은 오용, 예상치 못한 동작, 프롬프트 주입과 같은 외부 위협과 같은 위험에 대응하기 위해 Gemini 2.5 Computer Use 모델에 안전 기능을 직접 내장했습니다. 훈련 프로세스는 시스템 무결성 손상 또는 CAPTCHA와 같은 보안 프로토콜 우회와 같은 유해한 행동에 대한 거부 메커니즘을 심어줍니다.
개발자는 실행 전 작업을 평가하는 단계별 안전 서비스를 포함한 세분화된 제어 기능에 접근할 수 있습니다. 시스템 지침은 의료 기기 제어 또는 금융 거래와 같은 민감한 작업에 대해 사용자 확인을 요청하도록 모델을 안내합니다. 이러한 계층화된 접근 방식은 사기에 취약한 웹 환경에서 취약점을 최소화합니다.
기술적으로 안전 평가는 모의 공격으로 약점을 탐색하는 적대적 테스트를 포함합니다. 모델은 미리 정의된 위험 범주에 따라 작업을 분류하여 임계값을 초과하면 진행을 중단함으로써 높은 안전 점수를 달성합니다. 그러나 개발자는 모범 사례에 대한 문서를 따르면서 철저한 출시 전 테스트를 수행할 책임이 있습니다.
또한, 안전 보고의 투명성은 엔지니어가 통합을 개선할 수 있도록 합니다. API 기반 설정의 경우, Apidog와 같은 도구는 개발 중에 안전 응답을 모의하여 실시간 위험 없이 규정 준수를 보장합니다. 가용성으로 전환하면 이러한 기능은 모델을 책임감 있게 사용할 수 있도록 합니다.
가용성 및 개발자 접근
Google은 Google AI Studio 및 Vertex AI와 같은 플랫폼에서 Gemini API를 통해 Gemini 2.5 Computer Use 모델을 공개 미리 보기로 제공합니다. 개발자는 기존 인증 및 할당량 시스템을 활용하여 즉시 통합할 수 있습니다.

접근은 표준 API 키 외에 추가 설정이 필요 없어 빠른 프로토타이핑이 가능합니다. Vertex AI 사용자는 엔터프라이즈급 확장의 이점을 누리는 반면, Google AI Studio는 개별 실험에 적합합니다. 모델의 출시는 반복적인 피드백을 강조하며, Google은 특이 사례에 대한 보고를 장려합니다.
기술 통합 관점에서 개발자는 Python 또는 JavaScript와 같은 언어를 사용하여 사용자 정의 루프에 computer_use 도구를 래핑합니다. SDK는 스크린샷 처리 및 작업 실행을 간소화하여 상용구 코드를 줄입니다. 또한, 문서는 일반적인 시나리오에 대한 코드 샘플을 제공하여 채택을 가속화합니다.
사용량이 증가함에 따라 모니터링 도구는 성능 지표를 추적하여 최적의 리소스 할당을 보장합니다. API 상호작용을 탐색하는 사람들을 위해 Apidog는 엔드포인트를 시각화하고, 호출을 디버깅하고, 통합에 대해 협업할 수 있는 무료 다운로드를 제공합니다. 이는 Gemini 2.5 Computer Use 모델로 강력한 에이전트를 구축하는 데 완벽합니다.
Apidog와 같은 도구를 사용하여 Gemini 2.5 Computer Use 모델 통합하기
통합은 Gemini 2.5 Computer Use 모델의 유용성을 높입니다. 포괄적인 API 플랫폼인 Apidog는 개발자가 Gemini API 엔드포인트를 효율적으로 테스트하고 문서화할 수 있도록 지원하여 이를 보완합니다. 엔지니어는 Apidog를 사용하여 computer_use 호출을 시뮬레이션하고 JSON 인코딩된 스크린샷 및 작업 기록과 같은 입력 형식을 확인합니다.

실제로 Apidog의 모의 기능은 모델 응답을 복제하여 에이전트 루프의 오프라인 개발을 가능하게 합니다. 이는 반복 중에 비용이 많이 드는 API 호출을 방지합니다. 또한, Apidog의 협업 도구를 통해 팀은 API 사양을 공유하여 프로젝트 전반에 걸쳐 일관된 구현을 보장할 수 있습니다.
기술적으로 Apidog는 OpenAPI 표준을 지원하며 Gemini의 문서와 일치합니다. 개발자는 스키마를 직접 가져와 원활한 연결을 위한 클라이언트 코드를 생성합니다. 복잡한 에이전트의 경우 Apidog는 지연 시간과 오류율을 모니터링하여 반복 루프의 효율성을 최적화합니다.
또한, 모델에서 사용자 정의 함수를 처리할 때 Apidog는 매개변수 매핑을 시각화하여 통합 오류를 줄입니다. 사례 연구에 따르면 Apidog를 Gemini와 함께 사용하여 워크플로우 자동화를 수행하는 팀은 더 빠른 배포를 달성합니다. 미래의 함의를 고려할 때 이러한 시너지는 진화하는 생태계를 가리킵니다.
미래의 함의 및 개발
Gemini 2.5 Computer Use 모델은 더 자율적인 AI 에이전트로의 전환을 예고합니다. 미래의 반복은 데스크톱 OS 제어로 확장되어 엔터프라이즈 소프트웨어의 응용 프로그램을 넓힐 수 있습니다. Google은 기능이 발전함에 따라 안전을 우선시하며 책임감 있는 확장을 약속합니다.
기술적으로는 오디오 또는 햅틱 피드백을 통합하여 더 풍부한 상호작용을 위한 향상된 다중 모달 입력이 포함될 수 있습니다. 연구원들은 개인 정보를 침해하지 않고 에이전트를 개인화하기 위해 연합 학습을 탐색하고 있습니다.
요약하자면, Gemini 2.5 Computer Use 모델은 디지털 인터페이스에서 AI의 역할을 재정의합니다. 정밀하고 낮은 지연 시간의 UI 제어를 가능하게 함으로써 개발자가 혁신적인 솔루션을 구축할 수 있도록 지원합니다. Apidog와 같은 도구는 개발을 간소화하는 무료 리소스를 제공하여 이 생태계를 강화합니다. 채택이 가속화됨에 따라 산업 전반에 걸쳐 혁신적인 영향을 기대할 수 있습니다.
버튼
