Holo3:最高のコンピューター利用モデル?

Ashley Innocent

Ashley Innocent

2 4月 2026

Holo3:最高のコンピューター利用モデル?

TL;DR

H Companyは2026年3月31日にHolo3を発売しました。これは、主要なデスクトップコンピューター利用ベンチマークであるOSWorld-Verifiedで78.85%という過去最高スコアを記録した、混合エキスパートモデルです。GPT-5.4とOpus 4.6をわずかなコストで凌駕します。APIは現在利用可能で、35BバリアントはApache 2.0ライセンスのもとHuggingFaceでオープンウェイトとして公開されています。

ほとんどの開発者が解決できていないコンピューター利用のギャップ

APIの自動化は完了し、CI/CDパイプラインもクリーンに実行されていることでしょう。しかし、あらゆる自動化を阻むタスクが依然として存在します。それは、APIを持たないレガシーなエンタープライズソフトウェア、REST以前のデスクトップアプリ、そして5つの異なるUIを横断する多段階ワークフローなどです。

従来のRPAツール(UiPath、Automation Anywhere)は、UIが変更されるたびに壊れてしまう脆い画面座標スクリプトでこれに対処していました。その代替策は手作業でした。

コンピューター利用AIはその状況を変えます。スクリーンショットを見てクリック、入力、スクロールのアクションを発行するモデルは、APIを必要とせずにあらゆるGUIを操作できます。パリを拠点とするH Companyが2026年3月31日にリリースしたHolo3は、現在この種のタスクで最も強力な公開モデルです。

💡
自動化ワークフローやデスクトップソフトウェアに関わるテストパイプラインを構築しているなら、Holo3のAPIは今すぐ理解する価値があります。また、APIの設計とテストにApidogを使用している場合は、以下のセクションでHolo3呼び出しをワークフローに正確に組み込む方法を紹介します。
button

Holo3とは?

Holo3はコンピューター利用モデルです。デスクトップやブラウザのスクリーンショットを与え、完了させたいタスクを指示すると、その画面で実行するアクション(クリック、キーストローク、スクロールコマンド)を返します。結果をキャプチャし、再度スクリーンショットを撮り、タスクが完了するまで繰り返します。

H Companyは2つのバリアントを提供しています。

MoE(混合エキスパート)アーキテクチャは、トークンごとにパラメータのごく一部のみが起動することを意味するため、モデルは総パラメータ数から示唆されるよりもはるかに安価に実行できます。H Companyは、Holo3-122B-A10BがタスクあたりのコストでGPT-5.4やOpus 4.6よりも低いと述べています。

OSWorld-Verified: ベンチマークが実際に測定するもの

OSWorld-Verifiedは、AIのコンピューター利用を評価するための主要なベンチマークです。出力テキストでスコアを付けるベンチマークとは異なり、OSWorldは実行をテストします。エージェントは実際のコンピューターで実際のタスクを完了する必要があり、成功はタスク後のシステムの実状態を確認することで検証されます。

タスクはあらゆる複雑な範囲を網羅しています。

Holo3-122B-A10BはOSWorld-Verifiedで78.85%を記録しました。これを文脈で説明すると、最近まで40%を超えるスコアは最先端とされていました。AnthropicとOpenAIの以前の主要モデルは60-65%の範囲でした。

この差は、ベンチマークの難しい部分で最も重要になります。H Companyの社内H企業ベンチマーク(Eコマース、ビジネスソフトウェア、コラボレーション、マルチアプリワークフローにわたる486のタスク)では、Holo3が特にマルチアプリタスク(複数のアプリケーション間で同時にデータを調整する必要があるタスク)で優位に立っていることが示されています。

Holo3のトレーニング方法: エージェント学習フライホイール

ほとんどのコンピューター利用モデルは静的なデモンストレーションで訓練されます。H Companyは、エージェント学習フライホイールと呼ぶ継続的な訓練ループを構築しました。

  1. 合成ナビゲーションデータ — 人間と生成された指示により、シナリオに特化したナビゲーション例が作成されます。
  2. ドメイン外拡張 — シナリオは、予期せぬUI状態やエッジケースをカバーするためにプログラム的に拡張されます。
  3. キュレーションされた強化学習 — 各データサンプルはフィルタリングされ、タスク完了率を直接最大化するためにRLパイプラインで使用されます。

トレーニングデータは、合成環境ファクトリーから供給されます。これは、コーディングエージェントがシナリオ仕様に基づいて完全なエンタープライズWebアプリケーションをゼロから構築するシステムです。これらの環境には、エンドツーエンドの検証スクリプトを備えた検証可能なタスクが含まれており、モデルはおもちゃのような例ではなく、現実的なビジネスワークフローで訓練されます。

その結果、Holo3は同じベンチマークタスクにおいて、より大きなパラメータ数を持つベースのQwen3.5モデルを上回ります。このギャップはアーキテクチャだけでは説明できません。トレーニング方法論がその理由です。

Holo3 APIの呼び出し方

Holo3 APIは、標準的なスクリーンショット-アクションループパターンに従います。基本的な流れは以下の通りです。

1. 認証のセットアップ

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

APIキーはhcompany.ai/holo-models-apiで取得してください。無料枠はHolo3-35B-A3Bを対象としています。

2. タスクを伴うスクリーンショットの送信

import base64
import httpx

# Capture your screen (example using pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. アクションの解析と実行

APIは、ホストマシンで実行する構造化されたアクションを返します。

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

アクションタイプには、click(クリック)、double_click(ダブルクリック)、right_click(右クリック)、type(入力)、key(キー操作)、scroll(スクロール)、screenshot_request(モデルが新しいビューを必要とする場合)、およびtask_complete(タスク完了)があります。

4. 完了するまでループ

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Apidogを使用したHolo3 API呼び出しのテスト

Holo3 APIを呼び出すようになったら、特に本番自動化のために、統合が確実に機能することを検証する必要があります。Apidogがこれをクリーンに処理します。

エンドポイントのインポート:Apidogでhttps://api.hcompany.ai/v1/computer-useへの新しいHTTPリクエストを作成します。キーをハードコードしないように、Authorizationヘッダーを環境変数として追加します。

リクエスト検証のセットアップ:Apidogのテストアサーションを使用すると、応答構造を自動的に確認できます。

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

開発中のAPIモック:Apidogのスマートモックを使用して、ライブAPIにアクセスせずに現実的なHolo3応答を生成します。これにより、統合テスト中のクレジットが節約され、フロントエンドまたはオーケストレーションレイヤーが並行して開発できます。

テストシナリオの実行:Apidogテストシナリオで複数のHolo3リクエストを連鎖させ、完全な多段階タスクループをシミュレートします。アクションシーケンスが、実機で実行する前に各ステップ間で整合性があることを検証できます。

Holo3 vs Claude Computer Use vs OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78.85% 約55%(推定) 約65% 約62%
APIアクセス はい はい(無料枠あり) はい はい
オープンウェイト いいえ はい(Apache 2.0) いいえ いいえ
セルフホスト可能 いいえ はい いいえ いいえ
GPT-5.4との比較コスト 低い はるかに低い 同等 GPT-5.4の価格設定
最適な用途 本番エンタープライズ 開発/テスト/OSS Anthropicエコシステム OpenAIエコシステム

実用的な選択は、あなたのスタックに依存します。

エンタープライズでのユースケース

Holo3は、クリーンなAPIベースの解決策がないワークフローをカバーします。

H CompanyのH企業ベンチマークでは、Holo3がEコマース、ビジネスソフトウェア、コラボレーション、マルチアプリの4つのカテゴリすべてで強力な結果を達成していることが示されています。マルチアプリワークフローでは、競合他社との間で最大のパフォーマンス差が見られます。複数のアプリケーション間で状態を失わずに推論を必要とするタスクにおいて、トレーニング方法論が最も効果を発揮します。

次なる展開: アダプティブエージェンシー

H CompanyはHolo3の次に何が来るかについて明確に述べています。彼らの現在の研究は、アダプティブエージェンシー(Adaptive Agency)を中心としています。これは、以前に見たことのあるソフトウェアを操作するだけでなく、完全に新しいオーダーメイドのエンタープライズソフトウェアをリアルタイムで操作することを学習するモデルです。

Holo3を含む現在のコンピューター利用モデルは、限られたソフトウェア環境のセットで訓練されています。見たことのないカスタムの社内ツールに遭遇した場合、エージェントは標準的なアプリよりも成功率が低くなります。アダプティブエージェンシーは、そのギャップを埋めることを目指しています。モデルは初回接触時にソフトウェア構造について推論し、その動作方法の実用モデルを構築し、事前の訓練データなしでタスクを実行できるようになります。

もしH Companyがこれを実現すれば、エンタープライズ導入におけるコンピューター利用AIの主要な残された制約が取り除かれるでしょう。

結論

Holo3は、デスクトップコンピューター利用の新しい基準を打ち立てました。OSWorld-Verifiedで78.85%を記録し、複雑な多段階タスクにおいて、ClaudeやGPTベースの代替製品よりも著しく優れています。Holo3-35B-A3Bの無料枠とApache 2.0オープンウェイトにより、開発者は事前のコストなしでテストできるようになります。

統合パターンは簡単です。スクリーンショットを撮り、APIにPOSTし、返されたアクションを実行し、これを繰り返します。Apidogは、応答構造の検証、開発中のモック、本番システムにデプロイする前のテストシナリオの実行など、この統合を信頼性の高いものにするのに役立ちます。

デスクトップGUIに触れるものを構築しているなら、Apidogを無料で試して、本番環境に投入する前にHolo3統合をテストしてください。

button

よくある質問

Holo3とは何ですか?Holo3はH Companyが提供するコンピューター利用AIモデルで、スクリーンショットを入力として受け取り、デスクトップやブラウザでタスクを完了するためのアクション(クリック、キーストローク、スクロール)を返します。OSWorld-Verifiedベンチマークで78.85%という、そのテストで記録された最高の結果を達成しています。

Holo3はオープンソースですか?より小型のバリアントであるHolo3-35B-A3Bは、Apache 2.0のもとオープンウェイトで、HuggingFaceからダウンロード可能です。フラッグシップのHolo3-122B-A10BはAPIのみです。どちらもH Companyの推論APIを通じて利用でき、35Bモデルには無料枠があります。

OSWorldベンチマークはどのように機能しますか?OSWorldは、AIエージェントを実際のコンピュータータスク、すなわちウェブナビゲーション、ファイル管理、クロスアプリワークフローでテストします。成功は、エージェント実行後の実際のシステム状態を確認することによって検証され、出力テキストを評価するわけではありません。タスクは、単一アプリ操作から長期間にわたるマルチアプリケーションシーケンスまで多岐にわたります。

Holo3はClaude Computer Useと比べてどうですか?Holo3-122BはOSWorld-Verifiedでより高いスコア(78.85%に対し、Claudeは約65%)を記録しています。また、タスクあたりのコストも安いです。Claude Computer Useは、すでにAnthropic APIを使用しており、単一の請求関係を望むチームにとって強力な選択肢であり続けます。

Holo3をローカルで実行できますか?はい、Holo3-35B-A3Bを使用する場合は可能です。重みはApache 2.0のもとHuggingFaceで公開されています。122Bモデルは推論APIのみです。

コンピューター利用APIの主なユースケースは何ですか?レガシーシステムの自動化(利用可能なREST APIがない場合)、クロスアプリデータワークフロー、脆いセレクターに依存しないWebアプリの回帰テスト、競合情報スクレイピング、および現在手動での人間による操作が必要なあらゆるデスクトップワークフローです。

Holo3 API統合をテストするにはどうすればよいですか?Apidogを使用してエンドポイントをインポートし、応答検証アサーションを設定し、開発中にAPIをモックし、リクエストをテストシナリオに連鎖させます。これにより、実機で自動化を実行する前に統合の問題を捕捉できます。

Holo3のロードマップにおける「アダプティブエージェンシー」とは何ですか?H Companyは、過去に見たことのないエンタープライズソフトウェアを操作できるモデルを開発しており、事前の訓練データに頼るのではなく、リアルタイムでUI構造を学習します。これにより、完全にカスタムなエンタープライズ展開におけるコンピューター利用AIの主要な残された制約が取り除かれるでしょう。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる