Holo3: ¿El Mejor Modelo de Uso de Computadoras?

EN RESUMEN

H Company lanzó Holo3 el 31 de marzo de 2026, un modelo de mezcla de expertos que obtuvo un 78.85% en OSWorld-Verified, la puntuación más alta jamás registrada en el principal benchmark de uso de ordenadores de escritorio. Supera a GPT-5.4 y Opus 4.6 a una fracción del coste. La API ya está activa, y la variante 35B es de código abierto en HuggingFace bajo la licencia Apache 2.0.

La brecha en el uso de ordenadores que la mayoría de los desarrolladores no han resuelto

Has automatizado tus APIs. Tu pipeline de CI/CD funciona sin problemas. Pero todavía hay una clase de tarea que rompe toda automatización: software empresarial heredado sin API, aplicaciones de escritorio anteriores a REST, flujos de trabajo de varios pasos que cruzan cinco interfaces de usuario diferentes.

Las herramientas tradicionales de RPA (UiPath, Automation Anywhere) manejan esto con scripts de coordenadas de pantalla frágiles que se rompen cada vez que cambia la interfaz de usuario. La alternativa ha sido el trabajo manual.

La IA de uso de ordenadores cambia esa ecuación. Los modelos que ven capturas de pantalla y emiten acciones de clic, escritura y desplazamiento pueden navegar por cualquier GUI sin necesidad de una API. Holo3, lanzado el 31 de marzo de 2026 por H Company, con sede en París, es actualmente el modelo más potente disponible públicamente para esta clase de tareas.

💡

Si estás construyendo flujos de trabajo de automatización o pipelines de prueba que tocan software de escritorio, vale la pena entender la API de Holo3 ahora. Y si usas Apidog para diseñar y probar tus APIs, las secciones siguientes te muestran exactamente cómo conectar las llamadas de Holo3 a tu flujo de trabajo.

botón

¿Qué es Holo3?

Holo3 es un modelo de uso de ordenadores: le das una captura de pantalla de un escritorio o navegador, le dices qué tarea debe completar y devuelve acciones (clics, pulsaciones de teclas, comandos de desplazamiento) para ejecutar en esa pantalla. Capturas el resultado, vuelves a hacer una captura de pantalla y repites hasta que la tarea esté hecha.

Holo3 toma una captura de pantalla y una tarea y devuelve acciones de la interfaz de usuario (clic, escritura, desplazamiento) para ejecutarlas en la máquina host.

H Company envía dos variantes:

Holo3-122B-A10B — el modelo estrella. 122B de parámetros totales, 10B activos (MoE disperso). API alojada solo en hcompany.ai/holo-models-api. Establece el récord actual de benchmark.
Holo3-35B-A3B — 35B totales, 3B activos. Código abierto en HuggingFace bajo la licencia Apache 2.0. Nivel gratuito en la API de inferencia de H Company. Autoalojable.

La arquitectura MoE (mezcla de expertos) significa que solo una fracción de los parámetros se activan por token, por lo que el modelo es significativamente más barato de ejecutar de lo que sugiere su recuento total de parámetros. H Company afirma que Holo3-122B-A10B cuesta menos que GPT-5.4 y Opus 4.6 por tarea.

OSWorld-Verified: qué mide realmente el benchmark

OSWorld-Verified es el benchmark líder para evaluar el uso de ordenadores por parte de la IA. A diferencia de los benchmarks que puntúan el texto de salida, OSWorld prueba la ejecución: el agente debe completar tareas reales en un ordenador real, y el éxito se verifica comprobando el estado real del sistema después.

Las tareas abarcan toda la gama de complejidad:

Tareas de una sola aplicación (abrir un archivo, rellenar un formulario, copiar datos entre celdas)
Flujos de trabajo entre aplicaciones (recuperar un valor de un PDF, actualizar una hoja de cálculo, enviar un correo electrónico de confirmación)
Secuencias de varias aplicaciones de largo horizonte que requieren razonamiento a través de varios sistemas sin perder el contexto

Holo3-122B-A10B obtiene un 78.85% en OSWorld-Verified. Para ponerlo en contexto: las puntuaciones superiores al 40% se consideraban de vanguardia hasta hace poco. Los modelos líderes anteriores de Anthropic y OpenAI se situaban en el rango del 60-65%.

Holo3 supera a los competidores, incluidos los modelos basados en GPT, en el benchmark OSWorld-Verified de uso de ordenadores, con una puntuación del 78.85%.

La brecha importa más en el extremo difícil del benchmark. Los benchmarks corporativos internos de H Company (486 tareas en comercio electrónico, software empresarial, colaboración y flujos de trabajo de varias aplicaciones) muestran que Holo3 se adelanta especialmente en las tareas de varias aplicaciones, las que requieren coordinar datos entre varias aplicaciones simultáneamente.

Cómo se entrenó Holo3: el volante de aprendizaje agéntico

La mayoría de los modelos de uso de ordenadores se entrenan con demostraciones estáticas. H Company construyó un bucle de entrenamiento continuo que llaman el Volante de Aprendizaje Agéntico:

Datos de Navegación Sintética — Instrucciones humanas y generadas producen ejemplos de navegación específicos para escenarios.
Aumento Fuera de Dominio — Los escenarios se extienden programáticamente para cubrir estados de UI inesperados y casos extremos.
Aprendizaje por Refuerzo Curado — Cada muestra de datos se filtra y se utiliza en un pipeline de RL para maximizar directamente las tasas de finalización de tareas.

Los datos de entrenamiento provienen de la Fábrica de Entornos Sintéticos — un sistema donde los agentes de codificación construyen aplicaciones web empresariales completas desde cero basándose en las especificaciones del escenario. Estos entornos incluyen tareas verificables con scripts de validación de extremo a extremo, por lo que el modelo se entrena en flujos de trabajo empresariales realistas en lugar de ejemplos de juguete.

El resultado: Holo3 supera a los modelos base de Qwen3.5 con mayor número de parámetros en las mismas tareas de benchmark. La arquitectura por sí sola no explica la brecha; la metodología de entrenamiento sí lo hace.

Cómo llamar a la API de Holo3

La API de Holo3 sigue un patrón estándar de bucle de captura de pantalla y acción. Este es el flujo básico:

1. Configurar la autenticación

# URL base de la API de inferencia de H Company
https://api.hcompany.ai/v1

# Cabecera
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Obtén tu clave API en hcompany.ai/holo-models-api. El nivel gratuito cubre Holo3-35B-A3B.

2. Enviar una captura de pantalla con una tarea

import base64
import httpx

# Captura tu pantalla (ejemplo usando pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Analizar y ejecutar la acción

La API devuelve acciones estructuradas que ejecutas en la máquina host:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "El icono de la carpeta de facturas es visible en esta posición"
}

Los tipos de acción incluyen: click (clic), double_click (doble clic), right_click (clic derecho), type (escribir), key (tecla), scroll (desplazar), screenshot_request (cuando el modelo necesita una vista nueva) y task_complete (tarea completada).

4. Repetir hasta completar

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Hecho en {step + 1} pasos")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Tarea no completada dentro del límite de pasos")

Probando las llamadas a la API de Holo3 con Apidog

Una vez que estés llamando a la API de Holo3, necesitas validar que tu integración funciona de forma fiable, especialmente para la automatización de producción. Apidog lo maneja de forma limpia.

Importa el endpoint: En Apidog, crea una nueva solicitud HTTP a https://api.hcompany.ai/v1/computer-use. Añade tu cabecera Authorization como una variable de entorno para no codificar las claves.

Configura la validación de la solicitud: Las aserciones de prueba de Apidog te permiten comprobar la estructura de la respuesta automáticamente:

// En el script post-respuesta de Apidog
pm.test("El tipo de acción es válido", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Las coordenadas están dentro de los límites de la pantalla", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Simula la API durante el desarrollo: Utiliza Smart Mock de Apidog para generar respuestas realistas de Holo3 sin acceder a la API en vivo. Esto ahorra créditos durante las pruebas de integración y permite que tu capa de frontend u orquestación se desarrolle en paralelo.

Ejecuta escenarios de prueba: Encadena múltiples solicitudes de Holo3 en un Escenario de Prueba de Apidog para simular un bucle completo de tareas de varios pasos. Puedes validar que la secuencia de acciones es coherente en todos los pasos antes de ejecutarla en una máquina en vivo.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78.85%	~55% (est.)	~65%	~62%
Acceso API	Sí	Sí (nivel gratuito)	Sí	Sí
Pesos abiertos	No	Sí (Apache 2.0)	No	No
Autoalojable	No	Sí	No	No
Costo vs GPT-5.4	Menor	Mucho menor	Comparable	Precio de GPT-5.4
Mejor para	Empresas de producción	Desarrollo/pruebas/OSS	Ecosistema Anthropic	Ecosistema OpenAI

La elección práctica depende de tu stack:

Holo3-122B si necesitas máxima precisión en flujos de trabajo complejos de varias aplicaciones y el costo es secundario a la fiabilidad.
Holo3-35B para desarrollo, pruebas, proyectos de código abierto, o cuando quieras autoalojarlo.
Claude Computer Use si ya estás inmerso en el ecosistema Anthropic y quieres una facturación API unificada.
OpenAI Operator si estás utilizando GPT-5.4 en otros lugares y quieres una única relación con un proveedor.

Casos de uso empresarial

Holo3 cubre flujos de trabajo que no tienen una solución limpia basada en API:

Entrada de datos en sistemas heredados — Sistemas ERP y CRM de los años 2000 sin API REST. Holo3 puede navegar por la interfaz de usuario de escritorio e introducir o extraer datos sin necesidad de un proyecto de modernización.

Conciliación multiplataforma — Extraer una cifra de un PDF, cotejarla con una hoja de cálculo interna, actualizar un panel de control de terceros. Holo3 maneja la secuencia completa de forma autónoma.

Pruebas de regresión para aplicaciones web — En lugar de mantener scripts de Selenium frágiles ligados a IDs de elementos, apunta Holo3 a tu entorno de staging con una descripción de tarea en lenguaje natural. Se adapta a los cambios de UI sin actualizaciones de selectores.

Inteligencia competitiva — Navegar sistemáticamente y extraer datos estructurados de sitios web que bloquean el scraping estándar.

Los benchmarks corporativos internos de H Company muestran que Holo3 logra resultados sólidos en las cuatro categorías: comercio electrónico, software empresarial, colaboración y flujos de trabajo de varias aplicaciones. Los flujos de trabajo de varias aplicaciones muestran la mayor brecha de rendimiento con respecto a la competencia; las tareas que requieren razonamiento a través de varias aplicaciones sin perder el estado son donde la metodología de entrenamiento más rinde frutos.

Qué sigue: Agencia Adaptativa

H Company es directa sobre lo que viene después de Holo3. Su trabajo actual se centra en la Agencia Adaptativa — modelos que no solo navegan por software que ya han visto, sino que aprenden a navegar por software empresarial completamente nuevo y a medida en tiempo real.

Los modelos actuales de uso de ordenadores, incluido Holo3, todavía se entrenan en un conjunto finito de entornos de software. Un agente que se encuentre con una herramienta interna personalizada que nunca ha visto tendrá tasas de éxito más bajas que en aplicaciones estándar. La Agencia Adaptativa tiene como objetivo cerrar esa brecha: el modelo razonaría sobre la estructura del software en el primer contacto, construiría un modelo funcional de cómo opera y ejecutaría tareas sin datos de entrenamiento previos.

Si H Company cumple con esto, eliminará la principal limitación restante de la IA de uso de ordenadores para la implementación empresarial.

Conclusión

Holo3 establece un nuevo estándar para el uso de ordenadores de escritorio. Con un 78.85% en OSWorld-Verified, es mediblemente mejor que las alternativas basadas en Claude y GPT en tareas complejas de varios pasos. El nivel gratuito de Holo3-35B-A3B y los pesos abiertos de Apache 2.0 lo hacen accesible para que los desarrolladores lo prueben sin costo inicial.

El patrón de integración es sencillo: captura de pantalla, POST a la API, ejecuta la acción devuelta, repite. Donde Apidog ayuda es a hacer que esa integración sea fiable: validando las estructuras de respuesta, simulando durante el desarrollo y ejecutando escenarios de prueba antes de desplegar en sistemas en vivo.

Si estás construyendo algo que interactúa con GUIs de escritorio, prueba Apidog gratis y testea tu integración de Holo3 antes de que llegue a producción.

botón

Preguntas Frecuentes

¿Qué es Holo3?Holo3 es un modelo de IA de uso de ordenadores de H Company que toma capturas de pantalla como entrada y devuelve acciones (clics, pulsaciones de teclas, desplazamientos) para completar tareas en un escritorio o navegador. Obtiene un 78.85% en el benchmark OSWorld-Verified, el resultado más alto registrado en esa prueba.

¿Es Holo3 de código abierto?La variante más pequeña, Holo3-35B-A3B, es de código abierto bajo la licencia Apache 2.0 y se puede descargar desde HuggingFace. El modelo estrella Holo3-122B-A10B es solo API. Ambos están disponibles a través de la API de inferencia de H Company, con un nivel gratuito para el modelo 35B.

¿Cómo funciona el benchmark OSWorld?OSWorld prueba a los agentes de IA en tareas informáticas reales: navegación web, gestión de archivos, flujos de trabajo entre aplicaciones. El éxito se verifica comprobando el estado real del sistema después de que el agente se ejecuta, no evaluando el texto de salida. Las tareas van desde operaciones de una sola aplicación hasta secuencias de varias aplicaciones de largo horizonte.

¿Cómo se compara Holo3 con Claude Computer Use?Holo3-122B obtiene una puntuación más alta en OSWorld-Verified (78.85% frente a aproximadamente el 65% de Claude). También es más barato por tarea. Claude Computer Use sigue siendo una opción sólida para equipos que ya utilizan la API de Anthropic y desean una única relación de facturación.

¿Puedo ejecutar Holo3 localmente?Sí, si utilizas Holo3-35B-A3B. Los pesos están en HuggingFace bajo la licencia Apache 2.0. El modelo 122B es solo para API de inferencia.

¿Cuáles son los principales casos de uso para las APIs de uso de ordenadores?Automatización de sistemas heredados (sin API REST disponible), flujos de trabajo de datos entre aplicaciones, pruebas de regresión de aplicaciones web sin selectores frágiles, scraping de inteligencia competitiva y cualquier flujo de trabajo de escritorio que actualmente requiera interacción humana manual.

¿Cómo pruebo mi integración de la API de Holo3?Utiliza Apidog para importar el endpoint, configurar aserciones de validación de respuesta, simular la API durante el desarrollo y encadenar solicitudes en escenarios de prueba. Esto detecta problemas de integración antes de ejecutar la automatización en máquinas en vivo.

¿Qué es la "Agencia Adaptativa" en la hoja de ruta de Holo3?H Company está trabajando en modelos que pueden navegar por software empresarial que nunca antes han visto, aprendiendo la estructura de la interfaz de usuario en tiempo real en lugar de depender de datos de entrenamiento previos. Esto eliminaría la principal limitación restante de la IA de uso de ordenadores para implementaciones empresariales totalmente personalizadas.