Holo3: Mô Hình Sử Dụng Máy Tính Tốt Nhất?

Ashley Innocent

Ashley Innocent

2 tháng 4 2026

Holo3: Mô Hình Sử Dụng Máy Tính Tốt Nhất?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Tóm tắt

H Company đã ra mắt Holo3 vào ngày 31 tháng 3 năm 2026, một mô hình "hỗn hợp chuyên gia" đạt 78.85% trên OSWorld-Verified, điểm số cao nhất từng được ghi nhận trên chuẩn mực hàng đầu về sử dụng máy tính để bàn. Nó vượt trội hơn GPT-5.4 và Opus 4.6 với chi phí chỉ bằng một phần nhỏ. API hiện đã hoạt động, và biến thể 35B là mã nguồn mở trên HuggingFace theo giấy phép Apache 2.0.

Khoảng cách trong việc sử dụng máy tính mà hầu hết các nhà phát triển chưa giải quyết được

Bạn đã tự động hóa các API của mình. Hệ thống CI/CD của bạn chạy mượt mà. Nhưng vẫn còn một loại tác vụ làm hỏng mọi quá trình tự động hóa: phần mềm doanh nghiệp cũ không có API, ứng dụng máy tính để bàn ra đời trước REST, quy trình làm việc nhiều bước vượt qua năm giao diện người dùng khác nhau.

Các công cụ RPA truyền thống (UiPath, Automation Anywhere) xử lý vấn đề này bằng các kịch bản tọa độ màn hình dễ vỡ, luôn bị hỏng mỗi khi giao diện người dùng thay đổi. Giải pháp thay thế là công việc thủ công.

AI sử dụng máy tính đã thay đổi phương trình đó. Các mô hình có thể xem ảnh chụp màn hình và thực hiện các hành động nhấp, gõ, cuộn có thể điều hướng bất kỳ giao diện đồ họa nào mà không cần API. Holo3, được H Company có trụ sở tại Paris phát hành vào ngày 31 tháng 3 năm 2026, hiện là mô hình mạnh nhất hiện có công khai cho loại tác vụ này.

💡
Nếu bạn đang xây dựng quy trình tự động hóa hoặc kiểm thử pipeline có liên quan đến phần mềm máy tính để bàn, API của Holo3 rất đáng để tìm hiểu ngay bây giờ. Và nếu bạn sử dụng Apidog để thiết kế và kiểm thử các API của mình, các phần dưới đây sẽ chỉ cho bạn cách tích hợp các lệnh gọi Holo3 vào quy trình làm việc của bạn.
Tải ứng dụng

Holo3 là gì?

Holo3 là một mô hình sử dụng máy tính: bạn cung cấp cho nó một ảnh chụp màn hình của máy tính để bàn hoặc trình duyệt, cho nó biết tác vụ cần hoàn thành, và nó sẽ trả về các hành động (nhấp chuột, gõ phím, lệnh cuộn) để thực hiện trên màn hình đó. Bạn chụp kết quả, chụp màn hình lại và lặp lại cho đến khi tác vụ hoàn thành.

H Company cung cấp hai biến thể:

Kiến trúc MoE (hỗn hợp chuyên gia) có nghĩa là chỉ một phần nhỏ các tham số được kích hoạt cho mỗi token, vì vậy mô hình có chi phí vận hành rẻ hơn đáng kể so với tổng số tham số của nó. H Company tuyên bố Holo3-122B-A10B có chi phí thấp hơn GPT-5.4 và Opus 4.6 trên cơ sở mỗi tác vụ.

OSWorld-Verified: chuẩn mực này thực sự đo lường điều gì

OSWorld-Verified là chuẩn mực hàng đầu để đánh giá việc sử dụng máy tính bằng AI. Không giống như các chuẩn mực chấm điểm dựa trên văn bản đầu ra, OSWorld kiểm tra việc thực thi: tác nhân phải hoàn thành các tác vụ thực tế trên một máy tính thực, và sự thành công được xác minh bằng cách kiểm tra trạng thái thực tế của hệ thống sau đó.

Các tác vụ bao gồm toàn bộ phạm vi phức tạp:

Holo3-122B-A10B đạt **78.85%** trên OSWorld-Verified. Để đặt vào ngữ cảnh: các điểm số trên 40% được coi là tiên tiến cho đến gần đây. Các mô hình hàng đầu trước đây từ Anthropic và OpenAI nằm trong khoảng 60-65%.

Khoảng cách này quan trọng nhất ở phần khó của chuẩn mực. Các chuẩn mực nội bộ của H Company (H Corporate Benchmarks) với 486 tác vụ thuộc Thương mại điện tử, Phần mềm doanh nghiệp, Hợp tác và quy trình làm việc Đa ứng dụng, cho thấy Holo3 đặc biệt vượt trội trong các tác vụ đa ứng dụng — những tác vụ yêu cầu phối hợp dữ liệu giữa nhiều ứng dụng cùng lúc.

Holo3 được đào tạo như thế nào: Chu trình học tập Agentic

Hầu hết các mô hình sử dụng máy tính được đào tạo dựa trên các minh họa tĩnh. H Company đã xây dựng một vòng lặp đào tạo liên tục mà họ gọi là Chu trình học tập Agentic:

  1. Dữ liệu Điều hướng Tổng hợp — Hướng dẫn của con người và được tạo ra tạo ra các ví dụ điều hướng cụ thể theo kịch bản.
  2. Mở rộng Ngoài Miền — Các kịch bản được mở rộng theo chương trình để bao gồm các trạng thái giao diện người dùng không mong đợi và các trường hợp biên.
  3. Học Tăng cường được Tuyển chọn — Mỗi mẫu dữ liệu được lọc và sử dụng trong một pipeline RL để trực tiếp tối đa hóa tỷ lệ hoàn thành tác vụ.

Dữ liệu đào tạo đến từ **Nhà máy Môi trường Tổng hợp** — một hệ thống nơi các tác nhân mã hóa xây dựng các ứng dụng web doanh nghiệp hoàn chỉnh từ đầu dựa trên các thông số kỹ thuật kịch bản. Các môi trường này bao gồm các tác vụ có thể xác minh với các tập lệnh xác thực đầu cuối, vì vậy mô hình được đào tạo trên các quy trình làm việc kinh doanh thực tế chứ không phải các ví dụ đồ chơi.

Kết quả: Holo3 vượt trội hơn các mô hình Qwen3.5 cơ bản có số lượng tham số lớn hơn trên cùng các tác vụ chuẩn. Kiến trúc đơn thuần không giải thích được khoảng cách; phương pháp đào tạo mới làm được điều đó.

Cách gọi API Holo3

API Holo3 tuân theo mô hình vòng lặp chụp màn hình-hành động tiêu chuẩn. Dưới đây là luồng cơ bản:

1. Thiết lập xác thực

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Lấy khóa API của bạn tại hcompany.ai/holo-models-api. Gói miễn phí bao gồm Holo3-35B-A3B.

2. Gửi ảnh chụp màn hình kèm tác vụ

import base64
import httpx

# Capture your screen (example using pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Phân tích cú pháp và thực thi hành động

API trả về các hành động có cấu trúc mà bạn thực thi trên máy chủ:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

Các loại hành động bao gồm: click (nhấp chuột), double_click (nhấp đúp), right_click (nhấp chuột phải), type (gõ), key (phím), scroll (cuộn), screenshot_request (khi mô hình cần một cái nhìn mới), và task_complete (hoàn thành tác vụ).

4. Lặp lại cho đến khi hoàn thành

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Kiểm thử các lệnh gọi API Holo3 với Apidog

Khi bạn đã gọi API Holo3, bạn cần xác thực rằng tích hợp của mình hoạt động đáng tin cậy, đặc biệt là cho tự động hóa sản xuất. Apidog xử lý điều này một cách gọn gàng.

Nhập endpoint: Trong Apidog, tạo một yêu cầu HTTP mới tới https://api.hcompany.ai/v1/computer-use. Thêm tiêu đề Authorization của bạn dưới dạng biến môi trường để bạn không phải mã hóa cứng các khóa.

Thiết lập xác thực yêu cầu: Các xác nhận kiểm thử của Apidog cho phép bạn kiểm tra cấu trúc phản hồi một cách tự động:

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Giả lập API trong quá trình phát triển: Sử dụng Smart Mock của Apidog để tạo ra các phản hồi Holo3 thực tế mà không cần truy cập API trực tiếp. Điều này giúp tiết kiệm tín dụng trong quá trình kiểm thử tích hợp và cho phép lớp frontend hoặc điều phối của bạn phát triển song song.

Chạy các kịch bản kiểm thử: Xâu chuỗi nhiều yêu cầu Holo3 trong một Kịch bản kiểm thử Apidog để mô phỏng một vòng lặp tác vụ nhiều bước hoàn chỉnh. Bạn có thể xác thực rằng chuỗi hành động nhất quán giữa các bước trước khi chạy nó trên một máy thực.

Holo3 so với Claude Computer Use so với OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78.85% ~55% (ước tính) ~65% ~62%
Truy cập API Có (gói miễn phí)
Mã nguồn mở (trọng số) Không Có (Apache 2.0) Không Không
Có thể tự lưu trữ Không Không Không
Chi phí so với GPT-5.4 Thấp hơn Thấp hơn nhiều Tương đương Giá của GPT-5.4
Tốt nhất cho Doanh nghiệp sản xuất Phát triển/kiểm thử/OSS Hệ sinh thái Anthropic Hệ sinh thái OpenAI

Lựa chọn thực tế phụ thuộc vào hệ thống của bạn:

Các trường hợp sử dụng trong doanh nghiệp

Holo3 bao gồm các quy trình làm việc không có giải pháp dựa trên API rõ ràng:

Nhập dữ liệu hệ thống cũ — Các hệ thống ERP và CRM từ những năm 2000 không có REST API. Holo3 có thể điều hướng giao diện người dùng máy tính để bàn và nhập hoặc trích xuất dữ liệu mà không cần dự án hiện đại hóa.

Đối chiếu đa nền tảng — Lấy một số liệu từ PDF, kiểm tra nó với bảng tính nội bộ, cập nhật bảng điều khiển của bên thứ ba. Holo3 xử lý toàn bộ chuỗi một cách tự động.

Kiểm thử hồi quy cho ứng dụng web — Thay vì duy trì các tập lệnh Selenium dễ vỡ gắn liền với ID phần tử, hãy chỉ Holo3 vào môi trường dàn dựng của bạn với mô tả tác vụ bằng ngôn ngữ tự nhiên. Nó thích ứng với các thay đổi giao diện người dùng mà không cần cập nhật bộ chọn.

Thông tin cạnh tranh — Duyệt và trích xuất dữ liệu có cấu trúc một cách có hệ thống từ các trang web chặn việc cạo dữ liệu tiêu chuẩn.

Các Chuẩn mực Doanh nghiệp H của H Company cho thấy Holo3 đạt được kết quả mạnh mẽ trên cả bốn danh mục: Thương mại điện tử, Phần mềm doanh nghiệp, Hợp tác và Đa ứng dụng. Các quy trình làm việc Đa ứng dụng cho thấy khoảng cách hiệu suất lớn nhất so với các đối thủ cạnh tranh — các tác vụ yêu cầu suy luận trên nhiều ứng dụng mà không mất trạng thái là nơi phương pháp đào tạo mang lại hiệu quả cao nhất.

Điều gì tiếp theo: Cơ chế thích ứng

H Company nói rõ về những gì sẽ đến sau Holo3. Công việc hiện tại của họ tập trung vào **Cơ chế thích ứng** — các mô hình không chỉ điều hướng phần mềm mà chúng đã từng thấy trước đây, mà còn học cách điều hướng phần mềm doanh nghiệp mới, tùy chỉnh hoàn toàn trong thời gian thực.

Các mô hình sử dụng máy tính hiện tại, bao gồm Holo3, vẫn được đào tạo trên một tập hợp hữu hạn các môi trường phần mềm. Một tác nhân gặp phải một công cụ nội bộ tùy chỉnh mà nó chưa từng thấy sẽ có tỷ lệ thành công thấp hơn so với trên các ứng dụng tiêu chuẩn. Cơ chế thích ứng nhằm mục đích thu hẹp khoảng cách đó: mô hình sẽ suy luận về cấu trúc phần mềm ngay từ lần tiếp xúc đầu tiên, xây dựng một mô hình hoạt động của nó và thực hiện các tác vụ mà không cần dữ liệu đào tạo trước.

Nếu H Company thực hiện được điều này, nó sẽ loại bỏ giới hạn chính còn lại của AI sử dụng máy tính cho việc triển khai trong doanh nghiệp.

Kết luận

Holo3 đặt ra một tiêu chuẩn mới cho việc sử dụng máy tính để bàn. Với 78.85% trên OSWorld-Verified, nó tốt hơn đáng kể so với các lựa chọn thay thế dựa trên Claude và GPT trong các tác vụ nhiều bước phức tạp. Gói miễn phí trên Holo3-35B-A3B và trọng số mở Apache 2.0 giúp các nhà phát triển dễ dàng kiểm thử mà không tốn chi phí trả trước.

Mẫu tích hợp rất đơn giản: chụp màn hình, POST tới API, thực thi hành động trả về, lặp lại. Apidog giúp việc tích hợp đó trở nên đáng tin cậy — xác thực cấu trúc phản hồi, giả lập trong quá trình phát triển và chạy các kịch bản kiểm thử trước khi bạn triển khai trên các hệ thống trực tiếp.

Nếu bạn đang xây dựng bất cứ thứ gì liên quan đến GUI máy tính để bàn, hãy dùng thử Apidog miễn phí và kiểm thử tích hợp Holo3 của bạn trước khi đưa vào sản xuất.

Tải ứng dụng

Câu hỏi thường gặp

Holo3 là gì? Holo3 là một mô hình AI sử dụng máy tính từ H Company, nhận ảnh chụp màn hình làm đầu vào và trả về các hành động (nhấp chuột, gõ phím, cuộn) để hoàn thành các tác vụ trên máy tính để bàn hoặc trình duyệt. Nó đạt 78.85% trên chuẩn mực OSWorld-Verified, kết quả cao nhất được ghi nhận trên thử nghiệm đó.

Holo3 có phải là mã nguồn mở không? Biến thể nhỏ hơn, Holo3-35B-A3B, là mã nguồn mở theo giấy phép Apache 2.0 và có thể tải xuống từ HuggingFace. Phiên bản hàng đầu Holo3-122B-A10B chỉ có sẵn qua API. Cả hai đều có sẵn thông qua API suy luận của H Company, với gói miễn phí cho mô hình 35B.

Chuẩn mực OSWorld hoạt động như thế nào? OSWorld kiểm tra các tác nhân AI trên các tác vụ máy tính thực tế — điều hướng web, quản lý tệp, quy trình làm việc đa ứng dụng. Thành công được xác minh bằng cách kiểm tra trạng thái hệ thống thực tế sau khi tác nhân chạy, chứ không phải bằng cách đánh giá văn bản đầu ra. Các tác vụ bao gồm từ các hoạt động một ứng dụng đến các chuỗi đa ứng dụng dài hạn.

Holo3 so với Claude Computer Use như thế nào? Holo3-122B đạt điểm cao hơn trên OSWorld-Verified (78.85% so với khoảng 65% của Claude). Nó cũng rẻ hơn cho mỗi tác vụ. Claude Computer Use vẫn là một lựa chọn mạnh mẽ cho các nhóm đã sử dụng API của Anthropic và muốn có một mối quan hệ thanh toán duy nhất.

Tôi có thể chạy Holo3 cục bộ không? Có, nếu bạn sử dụng Holo3-35B-A3B. Các trọng số có trên HuggingFace theo giấy phép Apache 2.0. Mô hình 122B chỉ có sẵn qua API suy luận.

Các trường hợp sử dụng chính cho API sử dụng máy tính là gì? Tự động hóa hệ thống cũ (không có REST API), quy trình làm việc dữ liệu đa ứng dụng, kiểm thử hồi quy ứng dụng web mà không cần bộ chọn dễ vỡ, thu thập thông tin cạnh tranh, và bất kỳ quy trình làm việc máy tính để bàn nào hiện đang yêu cầu tương tác thủ công của con người.

Làm cách nào để kiểm thử tích hợp API Holo3 của tôi? Sử dụng Apidog để nhập endpoint, thiết lập các xác nhận xác thực phản hồi, giả lập API trong quá trình phát triển và xâu chuỗi các yêu cầu thành các kịch bản kiểm thử. Điều này giúp phát hiện các vấn đề tích hợp trước khi bạn chạy tự động hóa trên các máy trực tiếp.

"Cơ chế thích ứng" trong lộ trình của Holo3 là gì? H Company đang nghiên cứu các mô hình có thể điều hướng phần mềm doanh nghiệp mà chúng chưa từng thấy trước đây, học cấu trúc giao diện người dùng trong thời gian thực thay vì dựa vào dữ liệu đào tạo trước đó. Điều này sẽ loại bỏ giới hạn chính còn lại của AI sử dụng máy tính cho việc triển khai doanh nghiệp tùy chỉnh hoàn toàn.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API