Holo3: 최고의 컴퓨터 사용 모델?

요약 (TL;DR)

2026년 3월 31일, H Company는 Holo3를 출시했습니다. Holo3는 전문가 혼합(mixture-of-experts) 모델로, 선도적인 데스크톱 컴퓨터 사용 벤치마크인 OSWorld-Verified에서 역대 최고 점수인 78.85%를 기록했습니다. 이 모델은 GPT-5.4와 Opus 4.6을 훨씬 저렴한 비용으로 능가합니다. API는 현재 활성화되어 있으며, 35B 변형 모델은 Apache 2.0 라이선스 하에 HuggingFace에서 공개 가중치로 제공됩니다.

대부분의 개발자가 해결하지 못한 컴퓨터 사용 격차

API를 자동화하고 CI/CD 파이프라인을 깔끔하게 운영했겠지만, 모든 자동화를 무너뜨리는 특정 종류의 작업이 여전히 존재합니다. API가 없는 레거시 엔터프라이즈 소프트웨어, REST가 등장하기 전의 데스크톱 앱, 그리고 다섯 가지 다른 UI를 넘나드는 다단계 워크플로우 같은 것들입니다.

기존 RPA 도구(UiPath, Automation Anywhere)는 UI가 변경될 때마다 깨지는 취약한 화면 좌표 스크립트로 이 문제를 처리합니다. 대안은 수동 작업이었습니다.

컴퓨터 사용 AI가 이러한 방정식을 바꿉니다. 스크린샷을 보고 클릭, 타이핑, 스크롤 액션을 지시하는 모델은 API 없이도 모든 GUI를 탐색할 수 있습니다. 2026년 3월 31일 파리에 본사를 둔 H Company에서 출시한 Holo3는 현재 이 종류의 작업에 사용할 수 있는 가장 강력한 공개 모델입니다.

💡

데스크톱 소프트웨어와 관련된 자동화 워크플로우나 테스트 파이프라인을 구축하고 있다면, 지금 Holo3의 API를 이해할 가치가 있습니다. 그리고 Apidog를 사용하여 API를 설계하고 테스트한다면, 아래 섹션에서 Holo3 호출을 워크플로우에 정확히 연결하는 방법을 보여드립니다.

button

Holo3란 무엇인가요?

Holo3는 컴퓨터 사용 모델입니다. 데스크톱이나 브라우저의 스크린샷을 제공하고, 완료할 작업을 지시하면, 해당 화면에서 실행할 액션(클릭, 키 입력, 스크롤 명령)을 반환합니다. 결과를 캡처하고, 다시 스크린샷을 찍고, 작업이 완료될 때까지 반복합니다.

H Company는 두 가지 변형 모델을 제공합니다:

Holo3-122B-A10B — 주력 모델. 총 122B 파라미터, 10B 활성(희소 MoE). hcompany.ai/holo-models-api에서 호스팅되는 API로만 제공됩니다. 현재 벤치마크 기록을 세웠습니다.
Holo3-35B-A3B — 총 35B, 3B 활성. Apache 2.0 라이선스 하에 HuggingFace에서 공개 가중치로 제공됩니다. H Company의 추론 API에서 무료 등급으로 이용할 수 있습니다. 자체 호스팅 가능합니다.

MoE(전문가 혼합) 아키텍처는 토큰당 파라미터의 일부만 활성화되므로, 모델을 실행하는 데 드는 비용이 전체 파라미터 수에 비해 훨씬 저렴합니다. H Company는 Holo3-122B-A10B가 작업당 GPT-5.4 및 Opus 4.6보다 비용이 적게 든다고 밝혔습니다.

OSWorld-Verified: 벤치마크가 실제로 측정하는 것

OSWorld-Verified는 AI 컴퓨터 사용 평가를 위한 선도적인 벤치마크입니다. 출력 텍스트에 점수를 매기는 벤치마크와 달리, OSWorld는 실행을 테스트합니다. 즉, 에이전트가 실제 컴퓨터에서 실제 작업을 완료해야 하며, 성공 여부는 작업 후 시스템의 실제 상태를 확인하여 검증됩니다.

작업은 전체 복잡성 범위를 포괄합니다:

단일 앱 작업 (파일 열기, 양식 작성, 셀 간 데이터 복사)
교차 앱 워크플로우 (PDF에서 값 검색, 스프레드시트 업데이트, 확인 이메일 전송)
컨텍스트를 잃지 않고 여러 시스템에 걸쳐 추론해야 하는 장기적인 다중 앱 시퀀스

Holo3-122B-A10B는 OSWorld-Verified에서 78.85%를 기록했습니다. 이 점수의 의미를 설명하자면, 최근까지 40% 이상의 점수는 최첨단으로 간주되었습니다. Anthropic과 OpenAI의 이전 선도 모델들은 60-65% 범위에 있었습니다.

이 격차는 벤치마크의 어려운 부분에서 가장 중요합니다. H Company의 내부 H 기업 벤치마크(전자상거래, 비즈니스 소프트웨어, 협업 및 다중 앱 워크플로우를 아우르는 486개 작업)는 Holo3가 특히 다중 앱 작업, 즉 여러 애플리케이션에 걸쳐 동시에 데이터를 조율해야 하는 작업에서 앞서나가는 것을 보여줍니다.

Holo3 훈련 방식: 에이전틱 학습 플라이휠

대부분의 컴퓨터 사용 모델은 정적인 시연을 통해 훈련됩니다. H Company는 '에이전틱 학습 플라이휠(Agentic Learning Flywheel)'이라고 부르는 연속적인 훈련 루프를 구축했습니다:

합성 내비게이션 데이터 — 사람과 생성된 지침이 시나리오별 내비게이션 예제를 생성합니다.
도메인 외 증강 — 시나리오는 예상치 못한 UI 상태와 엣지 케이스를 포함하도록 프로그램적으로 확장됩니다.
큐레이트된 강화 학습 — 각 데이터 샘플은 필터링되어 RL 파이프라인에서 직접 작업 완료율을 극대화하는 데 사용됩니다.

훈련 데이터는 합성 환경 팩토리(Synthetic Environment Factory)에서 생성됩니다. 이 시스템은 코딩 에이전트가 시나리오 사양을 기반으로 완전한 엔터프라이즈 웹 애플리케이션을 처음부터 구축하는 곳입니다. 이러한 환경에는 종단간 유효성 검사 스크립트가 포함된 검증 가능한 작업이 있어, 모델은 장난감 예시가 아닌 실제 비즈니스 워크플로우를 훈련합니다.

그 결과: Holo3는 동일한 벤치마크 작업에서 더 많은 파라미터 수를 가진 기본 Qwen3.5 모델을 능가합니다. 아키텍처만으로는 이 격차를 설명할 수 없으며, 훈련 방법론이 그 역할을 합니다.

Holo3 API 호출 방법

Holo3 API는 표준 스크린샷-액션 루프 패턴을 따릅니다. 기본 흐름은 다음과 같습니다:

1. 인증 설정

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

hcompany.ai/holo-models-api에서 API 키를 받으세요. 무료 등급은 Holo3-35B-A3B를 포함합니다.

2. 작업과 함께 스크린샷 전송

import base64
import httpx

# Capture your screen (example using pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. 액션 파싱 및 실행

API는 호스트 머신에서 실행할 구조화된 액션을 반환합니다:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

액션 유형에는 click, double_click, right_click, type, key, scroll, screenshot_request(모델이 새로운 보기가 필요할 때), task_complete가 포함됩니다.

4. 완료될 때까지 반복

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Apidog로 Holo3 API 호출 테스트하기

Holo3 API를 호출한 후에는 특히 프로덕션 자동화를 위해 통합이 안정적으로 작동하는지 검증해야 합니다. Apidog는 이 작업을 깔끔하게 처리합니다.

엔드포인트 가져오기: Apidog에서 https://api.hcompany.ai/v1/computer-use로 새 HTTP 요청을 생성하세요. 키를 하드코딩하지 않도록 Authorization 헤더를 환경 변수로 추가하세요.

요청 유효성 검사 설정: Apidog의 테스트 어설션(assertions)을 사용하면 응답 구조를 자동으로 확인할 수 있습니다:

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

개발 중 API 목(Mock) 사용: Apidog의 Smart Mock을 사용하여 실제 API를 호출하지 않고도 현실적인 Holo3 응답을 생성하세요. 이를 통해 통합 테스트 중 크레딧을 절약하고 프런트엔드 또는 오케스트레이션 계층이 병렬로 개발될 수 있습니다.

테스트 시나리오 실행: Apidog 테스트 시나리오에서 여러 Holo3 요청을 연결하여 완전한 다단계 작업 루프를 시뮬레이션하세요. 실제 머신에서 실행하기 전에 단계별 액션 시퀀스가 일관적인지 검증할 수 있습니다.

Holo3 vs Claude Computer Use vs OpenAI Operator 비교

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78.85%	~55% (예상)	~65%	~62%
API 접근	예	예 (무료 등급)	예	예
공개 가중치	아니요	예 (Apache 2.0)	아니요	아니요
자체 호스팅 가능	아니요	예	아니요	아니요
GPT-5.4 대비 비용	더 낮음	훨씬 낮음	비슷함	GPT-5.4 가격
가장 적합한 용도	프로덕션 엔터프라이즈	개발/테스트/오픈 소스	Anthropic 생태계	OpenAI 생태계

실용적인 선택은 사용자의 스택에 따라 달라집니다:

Holo3-122B는 복잡한 다중 앱 워크플로우에서 최고의 정확도가 필요하고, 비용보다 안정성이 우선일 때 적합합니다.
Holo3-35B는 개발, 테스트, 오픈 소스 프로젝트 또는 자체 호스팅을 원할 때 적합합니다.
Claude Computer Use는 Anthropic 생태계에 깊이 관여하고 있고 통합 API 청구를 원할 때 적합합니다.
OpenAI Operator는 다른 곳에서 GPT-5.4를 사용하고 있고 단일 공급업체 관계를 원할 때 적합합니다.

엔터프라이즈 사용 사례

Holo3는 깔끔한 API 기반 솔루션이 없는 워크플로우를 포괄합니다:

레거시 시스템 데이터 입력 — REST API가 없는 2000년대 ERP 및 CRM 시스템. Holo3는 현대화 프로젝트 없이도 데스크톱 UI를 탐색하고 데이터를 입력하거나 추출할 수 있습니다.

교차 플랫폼 조정 — PDF에서 수치를 가져와 내부 스프레드시트와 대조하고, 타사 대시보드를 업데이트합니다. Holo3는 전체 시퀀스를 자율적으로 처리합니다.

웹 앱 회귀 테스트 — 요소 ID에 묶인 취약한 셀레늄 스크립트를 유지하는 대신, Holo3를 일반 언어 작업 설명과 함께 스테이징 환경에 연결하세요. 선택자 업데이트 없이 UI 변경 사항에 적응합니다.

경쟁 정보 분석 — 표준 스크래핑을 차단하는 웹사이트에서 구조화된 데이터를 체계적으로 탐색하고 추출합니다.

H Company의 H 기업 벤치마크는 Holo3가 전자상거래, 비즈니스 소프트웨어, 협업 및 다중 앱의 네 가지 모든 카테고리에서 강력한 결과를 달성했음을 보여줍니다. 다중 앱 워크플로우는 경쟁사 대비 가장 큰 성능 격차를 보였는데, 이는 상태를 잃지 않고 여러 애플리케이션에 걸쳐 추론해야 하는 작업에서 훈련 방법론이 가장 큰 효과를 발휘하기 때문입니다.

다음 단계: 적응형 에이전시

H Company는 Holo3 이후의 계획에 대해 명확하게 밝히고 있습니다. 현재 그들의 작업은 적응형 에이전시(Adaptive Agency)에 집중되어 있습니다. 이는 이전에 본 소프트웨어를 탐색하는 것을 넘어, 완전히 새로운 맞춤형 엔터프라이즈 소프트웨어를 실시간으로 탐색하는 방법을 학습하는 모델입니다.

Holo3를 포함한 현재의 컴퓨터 사용 모델은 여전히 유한한 소프트웨어 환경 세트에서 훈련됩니다. 이전에 본 적 없는 맞춤형 내부 도구를 접하는 에이전트는 표준 앱보다 성공률이 낮을 것입니다. 적응형 에이전시는 이러한 격차를 해소하는 것을 목표로 합니다. 즉, 모델은 첫 접촉 시 소프트웨어 구조에 대해 추론하고, 작동 방식에 대한 작업 모델을 구축하며, 사전 훈련 데이터 없이 작업을 실행할 것입니다.

H Company가 이를 실현한다면, 엔터프라이즈 배포를 위한 컴퓨터 사용 AI의 주요 남은 한계가 제거될 것입니다.

결론

Holo3는 데스크톱 컴퓨터 사용 분야에서 새로운 기준을 제시합니다. OSWorld-Verified에서 78.85%를 기록하며, 복잡한 다단계 작업에서 Claude 및 GPT 기반 대안보다 훨씬 우수합니다. Holo3-35B-A3B의 무료 등급과 Apache 2.0 공개 가중치는 개발자들이 초기 비용 없이 테스트할 수 있도록 접근성을 높여줍니다.

통합 패턴은 간단합니다: 스크린샷을 찍고, API에 POST 요청을 보내고, 반환된 액션을 실행한 다음, 반복합니다. Apidog는 응답 구조를 검증하고, 개발 중에 목(mock)을 사용하며, 실제 시스템에 배포하기 전에 테스트 시나리오를 실행하여 이러한 통합을 안정적으로 만드는 데 도움을 줍니다.

데스크톱 GUI와 관련된 것을 구축하고 있다면, Apidog를 무료로 사용해보고 Holo3 통합을 프로덕션에 적용하기 전에 테스트해보세요.

button

자주 묻는 질문 (FAQ)

Holo3는 무엇인가요?Holo3는 H Company의 컴퓨터 사용 AI 모델로, 스크린샷을 입력으로 받아 데스크톱 또는 브라우저에서 작업을 완료하기 위한 액션(클릭, 키 입력, 스크롤)을 반환합니다. OSWorld-Verified 벤치마크에서 78.85%를 기록했으며, 이는 해당 테스트에서 기록된 최고 점수입니다.

Holo3는 오픈 소스인가요?더 작은 변형인 Holo3-35B-A3B는 Apache 2.0 라이선스 하에 공개 가중치로 HuggingFace에서 다운로드할 수 있습니다. 주력 모델인 Holo3-122B-A10B는 API로만 제공됩니다. 두 모델 모두 H Company의 추론 API를 통해 사용할 수 있으며, 35B 모델에는 무료 등급이 있습니다.

OSWorld 벤치마크는 어떻게 작동하나요?OSWorld는 AI 에이전트를 실제 컴퓨터 작업(웹 내비게이션, 파일 관리, 교차 앱 워크플로우)에서 테스트합니다. 성공 여부는 에이전트 실행 후 실제 시스템 상태를 확인하여 검증되며, 출력 텍스트를 평가하는 방식이 아닙니다. 작업은 단일 앱 작업부터 장기적인 다중 앱 시퀀스까지 다양합니다.

Holo3는 Claude Computer Use와 어떻게 비교되나요?Holo3-122B는 OSWorld-Verified에서 더 높은 점수(78.85% 대 Claude의 약 65%)를 기록했습니다. 또한 작업당 비용도 더 저렴합니다. Claude Computer Use는 이미 Anthropic API를 사용하고 있고 단일 청구 관계를 원하는 팀에게 여전히 강력한 옵션입니다.

Holo3를 로컬에서 실행할 수 있나요?네, Holo3-35B-A3B를 사용한다면 가능합니다. 가중치는 Apache 2.0 라이선스 하에 HuggingFace에 있습니다. 122B 모델은 추론 API로만 제공됩니다.

컴퓨터 사용 API의 주요 사용 사례는 무엇인가요?레거시 시스템 자동화(REST API 사용 불가), 교차 앱 데이터 워크플로우, 취약한 선택자 없는 웹 앱 회귀 테스트, 경쟁 정보 스크래핑, 그리고 현재 수동 인간 상호작용이 필요한 모든 데스크톱 워크플로우입니다.

Holo3 API 통합은 어떻게 테스트하나요?Apidog를 사용하여 엔드포인트를 가져오고, 응답 유효성 검사 어설션(assertions)을 설정하고, 개발 중에 API를 목(mock)하며, 요청을 테스트 시나리오로 연결하세요. 이를 통해 실제 머신에서 자동화를 실행하기 전에 통합 문제를 발견할 수 있습니다.

Holo3 로드맵에서 "적응형 에이전시(Adaptive Agency)"는 무엇인가요?H Company는 이전에 본 적 없는 엔터프라이즈 소프트웨어를 탐색하고, 사전 훈련 데이터에 의존하지 않고 실시간으로 UI 구조를 학습할 수 있는 모델을 개발 중입니다. 이는 완전 맞춤형 엔터프라이즈 배포를 위한 컴퓨터 사용 AI의 주요 남은 한계를 제거할 것입니다.