Holo3: O Melhor Modelo de Uso do Computador?

Ashley Innocent

Ashley Innocent

2 abril 2026

Holo3: O Melhor Modelo de Uso do Computador?

RESUMO

A H Company lançou o Holo3 em 31 de março de 2026, um modelo de mistura de especialistas que alcançou 78,85% no OSWorld-Verified, a pontuação mais alta já registrada no principal benchmark de uso de computador desktop. Ele supera o GPT-5.4 e o Opus 4.6 por uma fração do custo. A API está ativa agora, e a variante 35B é de código aberto (open-weight) no HuggingFace sob a licença Apache 2.0.

A lacuna de uso de computador que a maioria dos desenvolvedores não resolveu

Você automatizou suas APIs. Seu pipeline de CI/CD funciona perfeitamente. Mas ainda existe uma classe de tarefas que quebra toda automação: software empresarial legado sem API, aplicativos de desktop que antecedem o REST, fluxos de trabalho multi-etapas que cruzam cinco interfaces de usuário diferentes.

Ferramentas de RPA tradicionais (UiPath, Automation Anywhere) lidam com isso com scripts de coordenadas de tela frágeis que quebram toda vez que a UI muda. A alternativa tem sido o trabalho manual.

A IA de uso de computador muda essa equação. Modelos que veem capturas de tela e emitem ações de clique, digitação e rolagem podem navegar em qualquer GUI sem precisar de uma API. O Holo3, lançado em 31 de março de 2026 pela H Company, com sede em Paris, é atualmente o modelo mais forte disponível publicamente para esta classe de tarefas.

💡
Se você está construindo fluxos de trabalho de automação ou pipelines de teste que interagem com software desktop, vale a pena entender a API do Holo3 agora. E se você usa o Apidog para projetar e testar suas APIs, as seções abaixo mostram exatamente como integrar chamadas do Holo3 ao seu fluxo de trabalho.
botão

O que é Holo3?

Holo3 é um modelo de uso de computador: você fornece uma captura de tela de um desktop ou navegador, informa qual tarefa deve ser concluída, e ele retorna ações (cliques, toques de tecla, comandos de rolagem) para executar nessa tela. Você captura o resultado, tira outra captura de tela e repete até que a tarefa seja concluída.

A H Company oferece duas variantes:

A arquitetura MoE (mixture of experts - mistura de especialistas) significa que apenas uma fração dos parâmetros é ativada por token, portanto, o modelo é significativamente mais barato de executar do que o número total de parâmetros sugere. A H Company afirma que o Holo3-122B-A10B custa menos que o GPT-5.4 e o Opus 4.6 por tarefa.

OSWorld-Verified: o que o benchmark realmente mede

O OSWorld-Verified é o principal benchmark para avaliar o uso de IA em computadores. Diferente de benchmarks que pontuam em texto de saída, o OSWorld testa a execução: o agente deve completar tarefas reais em um computador real, e o sucesso é verificado checando o estado real do sistema posteriormente.

As tarefas abrangem toda a faixa de complexidade:

O Holo3-122B-A10B alcança 78,85% no OSWorld-Verified. Para contextualizar: pontuações acima de 40% eram consideradas de última geração até recentemente. Modelos líderes anteriores da Anthropic e OpenAI ficavam na faixa de 60-65%.

A diferença importa mais na parte mais difícil do benchmark. Os Benchmarks Corporativos Internos da H Company (486 tarefas em E-commerce, software de negócios, Colaboração e fluxos de trabalho Multi-App) mostram o Holo3 especialmente se destacando em tarefas multi-aplicativo — aquelas que exigem a coordenação de dados em vários aplicativos simultaneamente.

Como o Holo3 foi treinado: o Ciclo de Aprendizagem Agêntico

A maioria dos modelos de uso de computador é treinada em demonstrações estáticas. A H Company construiu um ciclo de treinamento contínuo que eles chamam de Ciclo de Aprendizagem Agêntico:

  1. Dados de Navegação Sintéticos — Instruções humanas e geradas produzem exemplos de navegação específicos para cenários.
  2. Aumento Fora do Domínio — Os cenários são estendidos programaticamente para cobrir estados de UI inesperados e casos de borda.
  3. Aprendizado por Reforço Curado — Cada amostra de dados é filtrada e usada em um pipeline de RL para maximizar diretamente as taxas de conclusão de tarefas.

Os dados de treinamento vêm da Fábrica de Ambientes Sintéticos — um sistema onde agentes de codificação constroem aplicativos web empresariais completos do zero com base em especificações de cenário. Esses ambientes incluem tarefas verificáveis com scripts de validação de ponta a ponta, para que o modelo treine em fluxos de trabalho de negócios realistas em vez de exemplos de brinquedo.

O resultado: o Holo3 supera os modelos base Qwen3.5 com maiores contagens de parâmetros nas mesmas tarefas de benchmark. A arquitetura sozinha não explica a lacuna; a metodologia de treinamento explica.

Como chamar a API do Holo3

A API do Holo3 segue um padrão padrão de loop de captura de tela-ação. Aqui está o fluxo básico:

1. Configurar autenticação

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Obtenha sua chave de API em hcompany.ai/holo-models-api. O nível gratuito cobre o Holo3-35B-A3B.

2. Enviar uma captura de tela com uma tarefa

import base64
import httpx

# Capture your screen (example using pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Analisar e executar a ação

A API retorna ações estruturadas que você executa na máquina host:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

Os tipos de ação incluem: click (clicar), double_click (clique duplo), right_click (clique direito), type (digitar), key (tecla), scroll (rolar), screenshot_request (quando o modelo precisa de uma nova visualização), e task_complete (tarefa concluída).

4. Repetir até a conclusão

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Testando chamadas da API do Holo3 com Apidog

Uma vez que você está chamando a API do Holo3, você precisa validar que sua integração funciona de forma confiável, especialmente para automação de produção. O Apidog lida com isso de forma limpa.

Importar o endpoint: No Apidog, crie uma nova requisição HTTP para https://api.hcompany.ai/v1/computer-use. Adicione seu cabeçalho Authorization como uma variável de ambiente para que você não precise codificar as chaves diretamente.

Configurar validação da requisição: As asserções de teste do Apidog permitem que você verifique a estrutura da resposta automaticamente:

// No script pós-resposta do Apidog
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Simular a API durante o desenvolvimento: Use o Smart Mock do Apidog para gerar respostas realistas do Holo3 sem acessar a API real. Isso economiza créditos durante o teste de integração e permite que sua camada de frontend ou orquestração se desenvolva em paralelo.

Executar cenários de teste: Encadeie múltiplas requisições do Holo3 em um Cenário de Teste do Apidog para simular um loop completo de tarefas multi-etapas. Você pode validar se a sequência de ações é coerente entre as etapas antes de executá-la em uma máquina real.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

Holo3-122B Holo3-35B Claude Computer Use OpenAI Operator
OSWorld-Verified 78,85% ~55% (est.) ~65% ~62%
Acesso à API Sim Sim (nível gratuito) Sim Sim
Pesos abertos Não Sim (Apache 2.0) Não Não
Auto-hospedável Não Sim Não Não
Custo vs. GPT-5.4 Menor Muito menor Comparável Preço do GPT-5.4
Melhor para Empresas em produção Desenvolvimento/testes/OSS Ecossistema Anthropic Ecossistema OpenAI

A escolha prática depende da sua pilha de tecnologia:

Casos de uso empresariais

O Holo3 cobre fluxos de trabalho que não possuem uma solução limpa baseada em API:

Entrada de dados em sistemas legados — Sistemas ERP e CRM dos anos 2000 sem API REST. O Holo3 pode navegar na UI do desktop e inserir ou extrair dados sem exigir um projeto de modernização.

Reconciliação entre plataformas — Extrair um valor de um PDF, verificar em uma planilha interna, atualizar um painel de controle de terceiros. O Holo3 lida com a sequência completa de forma autônoma.

Testes de regressão para aplicativos web — Em vez de manter scripts Selenium frágeis vinculados a IDs de elementos, aponte o Holo3 para seu ambiente de teste com uma descrição de tarefa em linguagem natural. Ele se adapta às mudanças da UI sem atualizações de seletores.

Inteligência competitiva — Navegar e extrair sistematicamente dados estruturados de websites que bloqueiam a raspagem padrão.

Os Benchmarks Corporativos da H Company mostram o Holo3 alcançando resultados sólidos em todas as quatro categorias: E-commerce, Software de Negócios, Colaboração e Multi-Aplicativo. Os fluxos de trabalho Multi-Aplicativo mostram a maior diferença de desempenho em relação aos concorrentes — tarefas que exigem raciocínio em vários aplicativos sem perder o estado são onde a metodologia de treinamento mais compensa.

Próximos passos: Agência Adaptativa

A H Company é direta sobre o que vem depois do Holo3. Seu trabalho atual se concentra na Agência Adaptativa — modelos que não apenas navegam em softwares que já viram, mas aprendem a navegar em softwares empresariais totalmente novos e personalizados em tempo real.

Os modelos atuais de uso de computador, incluindo o Holo3, ainda são treinados em um conjunto finito de ambientes de software. Um agente que interage com uma ferramenta interna personalizada que nunca viu terá taxas de sucesso menores do que em aplicativos padrão. A Agência Adaptativa visa preencher essa lacuna: o modelo raciocinaria sobre a estrutura do software no primeiro contato, construiria um modelo funcional de como ele opera e executaria tarefas sem dados de treinamento prévios.

Se a H Company cumprir isso, eliminará a principal limitação restante da IA de uso de computador para implantação empresarial.

Conclusão

O Holo3 estabelece um novo padrão para o uso de computador desktop. Com 78,85% no OSWorld-Verified, é comprovadamente melhor que as alternativas baseadas em Claude e GPT em tarefas complexas de múltiplas etapas. O nível gratuito no Holo3-35B-A3B e os pesos abertos Apache 2.0 o tornam acessível para desenvolvedores testarem sem custo inicial.

O padrão de integração é simples: captura de tela, POST para a API, executar a ação retornada, repetir. O Apidog ajuda a tornar essa integração confiável — validando estruturas de resposta, simulando durante o desenvolvimento e executando cenários de teste antes de implantar em sistemas ativos.

Se você está construindo algo que interage com GUIs de desktop, experimente o Apidog gratuitamente e teste sua integração Holo3 antes de colocá-la em produção.

botão

FAQ

O que é Holo3?O Holo3 é um modelo de IA de uso de computador da H Company que recebe capturas de tela como entrada e retorna ações (cliques, toques de tecla, rolagens) para completar tarefas em um desktop ou navegador. Ele alcança 78,85% no benchmark OSWorld-Verified, o resultado mais alto registrado nesse teste.

O Holo3 é de código aberto?A variante menor, Holo3-35B-A3B, é de código aberto (open-weight) sob a licença Apache 2.0 e pode ser baixada do HuggingFace. O carro-chefe Holo3-122B-A10B é apenas via API. Ambos estão disponíveis através da API de inferência da H Company, com um nível gratuito para o modelo de 35B.

Como funciona o benchmark OSWorld?O OSWorld testa agentes de IA em tarefas reais de computador — navegação web, gerenciamento de arquivos, fluxos de trabalho entre aplicativos. O sucesso é verificado checando o estado real do sistema após a execução do agente, e não avaliando o texto de saída. As tarefas variam de operações de aplicativo único a sequências multi-aplicativo de longo horizonte.

Como o Holo3 se compara ao Claude Computer Use?O Holo3-122B pontua mais alto no OSWorld-Verified (78,85% vs. aproximadamente 65% para o Claude). Também é mais barato por tarefa. O Claude Computer Use continua sendo uma forte opção para equipes que já usam a API Anthropic e desejam um relacionamento de cobrança único.

Posso executar o Holo3 localmente?Sim, se você usar o Holo3-35B-A3B. Os pesos estão no HuggingFace sob a licença Apache 2.0. O modelo de 122B é apenas via API de inferência.

Quais são os principais casos de uso para APIs de uso de computador?Automação de sistemas legados (sem API REST disponível), fluxos de trabalho de dados entre aplicativos, testes de regressão de aplicativos web sem seletores frágeis, raspagem de inteligência competitiva e qualquer fluxo de trabalho de desktop que atualmente exija interação humana manual.

Como testar minha integração da API do Holo3?Use o Apidog para importar o endpoint, configurar asserções de validação de resposta, simular a API durante o desenvolvimento e encadear requisições em cenários de teste. Isso detecta problemas de integração antes de executar a automação em máquinas ativas.

O que é "Agência Adaptativa" no roadmap do Holo3?A H Company está trabalhando em modelos que podem navegar em softwares empresariais que nunca viram antes, aprendendo a estrutura da UI em tempo real em vez de depender de dados de treinamento prévios. Isso eliminaria a principal limitação restante da IA de uso de computador para implantações empresariais totalmente personalizadas.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs