Holo3: Das beste Computernutzungsmodell?

TL;DR

H Company hat Holo3 am 31. März 2026 auf den Markt gebracht, ein Mixture-of-Experts-Modell, das auf OSWorld-Verified 78,85 % erreicht hat, den höchsten Wert, der jemals auf dem führenden Benchmark für die Nutzung von Desktop-Computern erzielt wurde. Es übertrifft GPT-5.4 und Opus 4.6 zu einem Bruchteil der Kosten. Die API ist jetzt live, und die 35B-Variante ist Open-Weight auf HuggingFace unter Apache 2.0.

Die Lücke bei der Computernutzung, die die meisten Entwickler noch nicht geschlossen haben

Sie haben Ihre APIs automatisiert. Ihre CI/CD-Pipeline läuft fehlerfrei. Aber es gibt immer noch eine Aufgabenklasse, die jede Automatisierung sprengt: alte Unternehmenssoftware ohne API, Desktop-Anwendungen, die vor REST existierten, mehrstufige Workflows, die sich über fünf verschiedene Benutzeroberflächen erstrecken.

Herkömmliche RPA-Tools (UiPath, Automation Anywhere) lösen dies mit anfälligen Bildschirmkoordinaten-Skripten, die jedes Mal kaputtgehen, wenn sich die Benutzeroberfläche ändert. Die Alternative war manuelle Arbeit.

KI zur Computernutzung ändert diese Gleichung. Modelle, die Screenshots sehen und Klick-, Tipp- und Scroll-Aktionen ausführen können, navigieren durch jede GUI, ohne eine API zu benötigen. Holo3, am 31. März 2026 von der Pariser H Company veröffentlicht, ist derzeit das stärkste öffentlich verfügbare Modell für diese Aufgabenklasse.

💡

Wenn Sie Automatisierungs-Workflows oder Test-Pipelines erstellen, die Desktop-Software betreffen, lohnt es sich, die API von Holo3 jetzt zu verstehen. Und wenn Sie Apidog verwenden, um Ihre APIs zu entwerfen und zu testen, zeigen Ihnen die folgenden Abschnitte genau, wie Sie Holo3-Aufrufe in Ihren Workflow einbinden.

Schaltfläche

Was ist Holo3?

Holo3 ist ein Computernutzungsmodell: Sie geben ihm einen Screenshot eines Desktops oder Browsers, teilen ihm mit, welche Aufgabe zu erledigen ist, und es gibt Aktionen (Klicks, Tastenanschläge, Scroll-Befehle) zurück, die auf diesem Bildschirm ausgeführt werden sollen. Sie erfassen das Ergebnis, erstellen erneut einen Screenshot und wiederholen dies, bis die Aufgabe erledigt ist.

H Company liefert zwei Varianten:

Holo3-122B-A10B — das Flaggschiff. 122 Milliarden Gesamtparameter, 10 Milliarden aktiv (sparse MoE). Nur gehostete API unter hcompany.ai/holo-models-api. Setzt den aktuellen Benchmark-Rekord.
Holo3-35B-A3B — 35 Milliarden Gesamtparameter, 3 Milliarden aktiv. Open-Weight auf HuggingFace unter Apache 2.0. Kostenlose Stufe der Inference API von H Company. Selbst hostbar.

Die MoE-Architektur (Mixture of Experts) bedeutet, dass nur ein Bruchteil der Parameter pro Token aktiviert wird, sodass das Modell deutlich günstiger zu betreiben ist, als die Gesamtzahl seiner Parameter vermuten lässt. H Company gibt an, dass Holo3-122B-A10B pro Aufgabe weniger kostet als GPT-5.4 und Opus 4.6.

OSWorld-Verified: Was der Benchmark tatsächlich misst

OSWorld-Verified ist der führende Benchmark zur Bewertung der KI-Computernutzung. Im Gegensatz zu Benchmarks, die auf Ausgabetext bewerten, testet OSWorld die Ausführung: Der Agent muss reale Aufgaben auf einem realen Computer erledigen, und der Erfolg wird anschließend durch Überprüfung des tatsächlichen Systemzustands verifiziert.

Die Aufgaben umfassen die gesamte Komplexitätsbreite:

Einzel-App-Aufgaben (Datei öffnen, Formular ausfüllen, Daten zwischen Zellen kopieren)
App-übergreifende Workflows (Wert aus einem PDF abrufen, Tabellenkalkulation aktualisieren, Bestätigungs-E-Mail senden)
Langfristige Multi-App-Sequenzen, die logisches Denken über mehrere Systeme hinweg erfordern, ohne den Kontext zu verlieren

Holo3-122B-A10B erreicht 78,85 % auf OSWorld-Verified. Um dies in den Kontext zu setzen: Werte über 40 % galten bis vor Kurzem als Stand der Technik. Frühere führende Modelle von Anthropic und OpenAI lagen im Bereich von 60-65 %.

Der Unterschied ist am wichtigsten am schwierigeren Ende des Benchmarks. Die internen H Corporate Benchmarks von H Company (486 Aufgaben aus den Bereichen E-Commerce, Unternehmenssoftware, Kollaboration und Multi-App-Workflows) zeigen, dass Holo3 insbesondere bei Multi-App-Aufgaben die Nase vorn hat – jenen, die die gleichzeitige Koordination von Daten über mehrere Anwendungen hinweg erfordern.

Wie Holo3 trainiert wurde: das Agentic Learning Flywheel

Die meisten Computernutzungsmodelle werden anhand statischer Demonstrationen trainiert. H Company hat eine kontinuierliche Trainingsschleife entwickelt, die sie das Agentic Learning Flywheel nennen:

Synthetische Navigationsdaten — Menschliche und generierte Anweisungen erzeugen szenariospezifische Navigationsbeispiele.
Out-of-Domain-Erweiterung — Die Szenarien werden programmatisch erweitert, um unerwartete UI-Zustände und Grenzfälle abzudecken.
Kuratiertes Reinforcement Learning — Jede Datenprobe wird gefiltert und in einer RL-Pipeline verwendet, um die Aufgabenabschlussraten direkt zu maximieren.

Die Trainingsdaten stammen aus der Synthetic Environment Factory — einem System, in dem Code-Agenten vollständige Unternehmens-Webanwendungen von Grund auf basierend auf Szenario-Spezifikationen erstellen. Diese Umgebungen umfassen verifizierbare Aufgaben mit End-to-End-Validierungsskripten, sodass das Modell an realistischen Geschäftsworkflows statt an Spielzeugbeispielen trainiert wird.

Das Ergebnis: Holo3 übertrifft Basismodelle von Qwen3.5 mit größeren Parameteranzahlen bei denselben Benchmark-Aufgaben. Die Architektur allein erklärt den Unterschied nicht; die Trainingsmethodik tut es.

So rufen Sie die Holo3 API auf

Die Holo3 API folgt einem Standard-Screenshot-Aktionsschleifenmuster. Hier ist der grundlegende Ablauf:

1. Authentifizierung einrichten

# H Company Inference API base URL
https://api.hcompany.ai/v1

# Header
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json

Holen Sie sich Ihren API-Schlüssel unter hcompany.ai/holo-models-api. Die kostenlose Stufe deckt Holo3-35B-A3B ab.

2. Senden Sie einen Screenshot mit einer Aufgabe

import base64
import httpx

# Capture your screen (example using pyautogui)
import pyautogui
screenshot = pyautogui.screenshot()
screenshot.save("/tmp/screen.png")

with open("/tmp/screen.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

response = httpx.post(
    "https://api.hcompany.ai/v1/computer-use",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={
        "model": "holo3-122b-a10b",
        "task": "Open the invoice folder and find the most recent PDF",
        "screenshot": image_b64,
        "screen_width": 1920,
        "screen_height": 1080
    }
)

action = response.json()
print(action)

3. Aktion parsen und ausführen

Die API gibt strukturierte Aktionen zurück, die Sie auf der Hostmaschine ausführen:

{
  "action_type": "click",
  "coordinate": [245, 380],
  "reasoning": "The invoice folder icon is visible at this position"
}

Aktionstypen umfassen: click, double_click, right_click, type, key, scroll, screenshot_request (wenn das Modell eine neue Ansicht benötigt) und task_complete.

4. Schleife bis zur Fertigstellung

def run_computer_use_task(task: str, max_steps: int = 20):
    for step in range(max_steps):
        screenshot = capture_screen()
        response = call_holo3_api(task, screenshot)
        action = response["action"]

        if action["action_type"] == "task_complete":
            print(f"Done in {step + 1} steps")
            return response["result"]

        execute_action(action)

    raise TimeoutError("Task not completed within step limit")

Holo3 API-Aufrufe mit Apidog testen

Sobald Sie die Holo3 API aufrufen, müssen Sie sicherstellen, dass Ihre Integration zuverlässig funktioniert, insbesondere für die Produktionsautomatisierung. Apidog erledigt dies sauber.

Endpunkt importieren: Erstellen Sie in Apidog eine neue HTTP-Anfrage an https://api.hcompany.ai/v1/computer-use. Fügen Sie Ihren Authorization-Header als Umgebungsvariable hinzu, damit Sie keine Schlüssel fest codieren.

Anfragevalidierung einrichten: Mit den Test-Assertions von Apidog können Sie die Antwortstruktur automatisch überprüfen:

// In Apidog's post-response script
pm.test("Action type is valid", () => {
    const validActions = ["click", "type", "key", "scroll", "task_complete", "screenshot_request"];
    pm.expect(validActions).to.include(pm.response.json().action.action_type);
});

pm.test("Coordinates are within screen bounds", () => {
    const action = pm.response.json().action;
    if (action.coordinate) {
        pm.expect(action.coordinate[0]).to.be.within(0, 1920);
        pm.expect(action.coordinate[1]).to.be.within(0, 1080);
    }
});

Die API während der Entwicklung mocken: Verwenden Sie Apidogs Smart Mock, um realistische Holo3-Antworten zu generieren, ohne die Live-API aufzurufen. Das spart Credits beim Integrationstesting und ermöglicht es Ihrer Frontend- oder Orchestrierungsschicht, parallel zu entwickeln.

Testszenarien ausführen: Verketten Sie mehrere Holo3-Anfragen in einem Apidog-Testszenario, um einen vollständigen mehrstufigen Aufgabenzyklus zu simulieren. Sie können überprüfen, ob die Aktionssequenz über die Schritte hinweg kohärent ist, bevor Sie sie auf einer Live-Maschine ausführen.

Holo3 vs. Claude Computer Use vs. OpenAI Operator

	Holo3-122B	Holo3-35B	Claude Computer Use	OpenAI Operator
OSWorld-Verified	78.85%	~55% (gesch.)	~65%	~62%
API-Zugriff	Ja	Ja (kostenlose Stufe)	Ja	Ja
Offene Gewichte	Nein	Ja (Apache 2.0)	Nein	Nein
Selbst hostbar	Nein	Ja	Nein	Nein
Kosten vs. GPT-5.4	Niedriger	Viel niedriger	Vergleichbar	GPT-5.4 Preisgestaltung
Am besten für	Produktion in Unternehmen	Entwicklung/Tests/OSS	Anthropic-Ökosystem	OpenAI-Ökosystem

Die praktische Wahl hängt von Ihrem Stack ab:

Holo3-122B, wenn Sie höchste Genauigkeit bei komplexen Multi-App-Workflows benötigen und Kosten zweitrangig gegenüber der Zuverlässigkeit sind.
Holo3-35B für Entwicklung, Tests, Open-Source-Projekte oder wenn Sie selbst hosten möchten.
Claude Computer Use, wenn Sie bereits tief im Anthropic-Ökosystem verwurzelt sind und eine einheitliche API-Abrechnung wünschen.
OpenAI Operator, wenn Sie GPT-5.4 an anderer Stelle verwenden und eine einzige Anbieterbeziehung wünschen.

Anwendungsfälle für Unternehmen

Holo3 deckt Workflows ab, die keine saubere API-basierte Lösung haben:

Dateneingabe in Altsystemen — ERP- und CRM-Systeme aus den 2000er Jahren ohne REST-API. Holo3 kann die Desktop-Benutzeroberfläche navigieren und Daten eingeben oder extrahieren, ohne ein Modernisierungsprojekt zu erfordern.

Plattformübergreifender Abgleich — Eine Zahl aus einem PDF abrufen, mit einer internen Tabellenkalkulation abgleichen, ein Drittanbieter-Dashboard aktualisieren. Holo3 handhabt die gesamte Sequenz autonom.

Regressionstests für Web-Apps — Anstatt anfällige Selenium-Skripte zu pflegen, die an Element-IDs gebunden sind, richten Sie Holo3 mit einer Klartext-Aufgabenbeschreibung auf Ihre Staging-Umgebung aus. Es passt sich UI-Änderungen an, ohne Selektor-Updates zu erfordern.

Wettbewerbsanalyse — Systematisches Durchsuchen und Extrahieren strukturierter Daten von Websites, die Standard-Scraping blockieren.

Die H Corporate Benchmarks von H Company zeigen, dass Holo3 in allen vier Kategorien starke Ergebnisse erzielt: E-Commerce, Unternehmenssoftware, Zusammenarbeit und Multi-App. Multi-App-Workflows zeigen den größten Leistungsvorsprung gegenüber Wettbewerbern – Aufgaben, die logisches Denken über mehrere Anwendungen hinweg erfordern, ohne den Zustand zu verlieren, sind die, bei denen sich die Trainingsmethodik am meisten auszahlt.

Was kommt als Nächstes: Adaptive Agentur

H Company ist offen darüber, was nach Holo3 kommt. Ihre aktuelle Arbeit konzentriert sich auf Adaptive Agentur — Modelle, die nicht nur Software navigieren, die sie zuvor gesehen haben, sondern lernen, völlig neue, maßgeschneiderte Unternehmenssoftware in Echtzeit zu navigieren.

Aktuelle Computernutzungsmodelle, einschließlich Holo3, werden immer noch an einem endlichen Satz von Softwareumgebungen trainiert. Ein Agent, der auf ein benutzerdefiniertes internes Tool trifft, das er noch nie zuvor gesehen hat, wird niedrigere Erfolgsquoten haben als bei Standard-Apps. Adaptive Agentur zielt darauf ab, diese Lücke zu schließen: Das Modell würde beim ersten Kontakt über die Softwarestruktur nachdenken, ein Arbeitsmodell ihrer Funktionsweise erstellen und Aufgaben ohne vorherige Trainingsdaten ausführen.

Wenn H Company dies liefert, beseitigt es die größte verbleibende Einschränkung der KI zur Computernutzung für den Unternehmenseinsatz.

Fazit

Holo3 setzt einen neuen Maßstab für die Desktop-Computernutzung. Mit 78,85 % auf OSWorld-Verified ist es bei komplexen mehrstufigen Aufgaben messbar besser als Claude und GPT-basierte Alternativen. Die kostenlose Stufe von Holo3-35B-A3B und die offenen Gewichte unter Apache 2.0 machen es Entwicklern zugänglich, es ohne Vorabkosten zu testen.

Das Integrationsmuster ist unkompliziert: Screenshot, POST an die API, die zurückgegebene Aktion ausführen, wiederholen. Apidog hilft dabei, diese Integration zuverlässig zu gestalten – durch Validierung von Antwortstrukturen, Mocking während der Entwicklung und Ausführung von Testszenarien, bevor Sie gegen Live-Systeme deployen.

Wenn Sie etwas entwickeln, das Desktop-GUIs betrifft, testen Sie Apidog kostenlos und prüfen Sie Ihre Holo3-Integration, bevor sie in Produktion geht.

Schaltfläche

Häufig gestellte Fragen

Was ist Holo3?Holo3 ist ein KI-Modell zur Computernutzung von H Company, das Screenshots als Eingabe entgegennimmt und Aktionen (Klicks, Tastenanschläge, Scrollen) zurückgibt, um Aufgaben auf einem Desktop oder Browser zu erledigen. Es erreicht 78,85 % auf dem OSWorld-Verified-Benchmark, dem höchsten Ergebnis, das bei diesem Test verzeichnet wurde.

Ist Holo3 Open Source?Die kleinere Variante, Holo3-35B-A3B, ist Open-Weight unter Apache 2.0 und kann von HuggingFace heruntergeladen werden. Das Flaggschiff Holo3-122B-A10B ist nur über API verfügbar. Beide sind über die Inference API von H Company erhältlich, wobei für das 35B-Modell eine kostenlose Stufe angeboten wird.

Wie funktioniert der OSWorld-Benchmark?OSWorld testet KI-Agenten bei realen Computeraufgaben – Web-Navigation, Dateiverwaltung, App-übergreifende Workflows. Der Erfolg wird durch Überprüfung des tatsächlichen Systemzustands nach dem Ausführen des Agenten verifiziert, nicht durch Bewertung des Ausgabetextes. Die Aufgaben reichen von Einzel-App-Operationen bis hin zu langfristigen Multi-Anwendungssequenzen.

Wie schneidet Holo3 im Vergleich zu Claude Computer Use ab?Holo3-122B erzielt auf OSWorld-Verified höhere Werte (78,85 % vs. ca. 65 % für Claude). Es ist auch pro Aufgabe günstiger. Claude Computer Use bleibt eine starke Option für Teams, die bereits die Anthropic API nutzen und eine einzige Abrechnungsbeziehung wünschen.

Kann ich Holo3 lokal ausführen?Ja, wenn Sie Holo3-35B-A3B verwenden. Die Gewichte sind auf HuggingFace unter Apache 2.0 verfügbar. Das 122B-Modell ist nur über die Inference API verfügbar.

Was sind die Hauptanwendungsfälle für Computernutzungs-APIs?Automatisierung von Altsystemen (keine REST-API verfügbar), App-übergreifende Daten-Workflows, Regressionstests für Web-Apps ohne anfällige Selektoren, Scraping für Wettbewerbsanalysen und jeder Desktop-Workflow, der derzeit manuelle menschliche Interaktion erfordert.

Wie teste ich meine Holo3 API-Integration?Verwenden Sie Apidog, um den Endpunkt zu importieren, Antwortvalidierungs-Assertions einzurichten, die API während der Entwicklung zu mocken und Anfragen zu Testszenarien zu verketten. Dies fängt Integrationsprobleme ab, bevor Sie die Automatisierung auf Live-Maschinen ausführen.

Was ist „Adaptive Agentur“ in Holo3s Roadmap?H Company arbeitet an Modellen, die Unternehmenssoftware navigieren können, die sie noch nie zuvor gesehen haben, indem sie die UI-Struktur in Echtzeit lernen, anstatt sich auf frühere Trainingsdaten zu verlassen. Dies würde die größte verbleibende Einschränkung der KI zur Computernutzung für vollständig angepasste Unternehmensbereitstellungen beseitigen.