Elon Musks xAI hat Grok-3 vorgestellt, die neueste Iteration seines KI-Chatbots, und behauptet, dass er Konkurrenten wie OpenAIs GPT-4o, Googles Gemini und Anthoropics Claude in wichtigen Benchmarks übertrifft. Diese Veröffentlichung markiert einen bedeutenden Sprung in den Bereichen Reasoning, Coding und Problemlösungsfähigkeiten und positioniert Grok-3 als einen beeindruckenden Akteur in der generativen KI-Landschaft. Im Folgenden analysieren wir seine Benchmark-Leistung, die reale Benutzerfreundlichkeit und die ersten Benutzererfahrungen, um zu beurteilen, ob er dem Hype gerecht wird.
Quick Review of Grok-3 Benchmarks

Grok-3 zeigt überlegene Leistung in standardisierten Benchmarks in Mathematik, Naturwissenschaften und Programmierung.
- Beim AIME’24-Mathematikwettbewerb erzielte es 52 Punkte (im Vergleich zu GPT-4o mit 48), während sein naturwissenschaftlicher Benchmark (GPQA) mit 75 Punkten die Konkurrenten wie DeepSeek-V3 (68) und Claude 3.5 Sonnet (70) deutlich übertrifft.
- Die Programmierfähigkeit, getestet über das LCB Oct-Feb-Dataset, zeigt, dass Grok-3 57 Punkte erreicht, was einen bemerkenswerten Vorsprung vor Gemini-2 Pro (49) und GPT-4o (52) darstellt.
Die leichte Grok-3 mini-Variante beeindruckt ebenfalls und erzielt 40, 65 und 41 Punkte in diesen Kategorien – immer noch vor den meisten Konkurrenzmodellen.

Bemerkenswert ist, dass Grok-3 die erste KI war, die die 1400-Punkte-Schwelle auf der Chatbot Arena (LMSYS) durchbrach, einer Plattform zur Bewertung großer Sprachmodelle. Seine frühe Version erreichte 1402 Punkte und übertraf damit DeepSeek-R1 (1385) und OpenAIs o3-mini-high (1390).
Diese Dominanz erstreckt sich auf spezialisierte Aufgaben wie Long-Context-Abfragen, Multi-Turn-Dialoge und Instruction Following, bei denen Grok-3 durchweg an erster Stelle steht.
Wo können Sie Grok-3 jetzt verwenden?
Grok 3 ist jetzt für alle Premium+-Abonnenten auf X kostenlos verfügbar.

Wie gut ist Grok-3 eigentlich?
1. Wie gut ist Grok-3 im Denken?
Grok-3s "Think"-Modus zeigt fortschrittliche Reasoning-Fähigkeiten und löst komplexe Probleme, die andere Modelle ins Stocken bringen. Zum Beispiel:
- ✅ Board Game Design: Auf die Frage, eine Webseite mit einem hexagonalen Settlers of Catan-ähnlichen Raster mit dynamischen Ringanpassungen über einen Schieberegler zu erstellen, generierte Grok-3 funktionierenden HTML/JavaScript-Code – eine Aufgabe, die DeepSeek-R1 und Gemini 2.0 Flash Thinking nicht bewältigten. OpenAIs o1-pro (200 $/Monat-Tarif) war ebenfalls erfolgreich, aber Grok-3 erreichte die gleiche Leistung zu einem Bruchteil der Kosten.
- ✅ Tic-Tac-Toe-Analyse: Das Modell löste korrekte Tic-Tac-Toe-Boards und generierte gültige Spielzustände. Als es jedoch herausgefordert wurde, "knifflige" Boards zu erstellen, produzierte es unsinnige Layouts – ein Fehler, der von o1-pro geteilt wurde und eine häufige LLM-Einschränkung bei der Erstellung abstrakter Strategien hervorhebt.
- ❌ Emoji Mystery Puzzle: Grok-3 hatte Schwierigkeiten, eine in Unicode-Variationsselektoren versteckte Nachricht zu entschlüsseln, selbst mit Rust-Code-Hinweisen. DeepSeek-R1 löste diese Aufgabe teilweise und deutete auf Verbesserungspotenzial im Bereich der kryptografischen Argumentation hin.
- ✅ Computational Estimation: Bei der Schätzung der Trainings-FLOPs von GPT-2 – eine Aufgabe, die eine Token-Zähl-Extrapolation und Mathematik erfordert – lieferte Grok-3 mit dem "Think"-Modus genaue Berechnungen (~1e21 FLOPs). GPT-4o scheiterte daran vollständig, während o1-pro inkonsistente Ergebnisse lieferte.
Ein herausragendes Merkmal ist Grok-3s Bereitschaft, ungelöste Probleme anzugehen. Im Gegensatz zu Claude oder Gemini, die die Riemann-Hypothese sofort als außerhalb ihres Rahmens abtun, versucht Grok-3 mutig, Schritt für Schritt zu argumentieren, bevor es Einschränkungen zugesteht – eine Eigenschaft, die es mit DeepSeek-R1 teilt.
2. Deep Research mit Grok-3 ausprobieren
Die DeepSearch-Funktion kombiniert Web-Recherche mit strukturiertem Reasoning, ähnlich wie OpenAIs Deep Research und Perplexitys DeepResearch. Frühe Tests zeigen:
- ✅ Current Events: Anfragen wie "Was ist mit dem bevorstehenden Apple-Launch los? Irgendwelche Gerüchte?" lieferten detaillierte, zitierte Antworten über spekulierte AR-Brillen und iOS 19-Funktionen.
- ✅ Niche Queries: "Welche Zahnpasta verwendet Bryan Johnson?" lieferte präzise Antworten (Produkte auf Hydroxyapatit-Basis), obwohl Quellen nicht immer zitiert wurden.
- ❌ Pop Culture Limitations: "Singles Inferno Season 4 cast: Where are they now?" führte zu Halluzinationen, einschließlich falscher Behauptungen über Cast-Beziehungen. In ähnlicher Weise führten Anfragen nach Simon Willisons Speech-to-Text-Präferenzen zu unvollständigen Antworten.
Während DeepSearch in der Breite mit Perplexity mithalten kann, hinkt es OpenAIs Angebot in Bezug auf die Zuverlässigkeit hinterher. Halluzinierte URLs und weggelassene Selbstreferenzen (z. B. der Ausschluss von xAI aus einer Liste großer LLM-Labore) unterstreichen den Bedarf an laufender Verfeinerung.
3. Testen von Edge Cases und "Gotcha"-Abfragen
Grok-3s Leistung bei skurrilen, für Menschen einfachen Rätseln zeigt sowohl Stärken als auch Eigenheiten:
- ✅ Linguistic Challenges: Es identifizierte korrekt drei "r"s in "strawberry", zählte aber anfangs die "L"s in "LOLLAPALOOZA" falsch. Die Aktivierung des "Think"-Modus behob dies.
- ✅ Numerical Comparison: Das Modell behauptete anfangs 9.11 > 9.9 – ein häufiger LLM-Fehler – korrigierte sich aber selbst mit aktivierter Argumentation.
- ✅ Family Puzzles: Löste "Sally hat 3 Brüder; jeder Bruder hat 2 Schwestern. Wie viele Schwestern hat Sally?" sofort, im Gegensatz zu GPT-4o, das oft falsch antwortet.
- ❌ Humor Generation: Witze wie "Warum ist das Huhn einer Band beigetreten? Um ein Cluck-Star zu sein!" spiegeln anhaltende Mode-Collapse-Probleme wider, mit oder ohne "Think"-Modus.
- ❌ Ethical Sensitivity: Auf die Frage, ob Misgendering gerechtfertigt werden könnte, um Leben zu retten, entschied sich Grok-3 standardmäßig für eine ausführliche Ablehnung – ein Kontrast zu Claudes prägnanten ethischen Rahmenbedingungen.
- ❌ SVG Generation: Anfragen nach einem "pelican riding a bicycle" SVG erzeugten unzusammenhängende Gliedmaßen und Räder, obwohl Claudes Ergebnisse in dieser Nische überlegen bleiben.
Zusammenfassung: Grok-3s Platz in der KI-Landschaft
Grok-3 stellt eine seismische Verschiebung in der Geschwindigkeit der KI-Entwicklung dar. Nur 17 Monate nach seinem Vorgänger veröffentlicht, erreicht oder übertrifft es Modelle wie o1-pro in Bezug auf Reasoning und Coding und unterbietet gleichzeitig deren Preise. Zu den wichtigsten Erkenntnissen gehören:
- Benchmark Dominanz: Noch nie dagewesene Ergebnisse in Mathematik-, Naturwissenschafts- und Programmier-Benchmarks positionieren Grok-3 als führend in Bezug auf die reine Leistungsfähigkeit.
- Practical Utility: Stärken in der rechnerischen Schätzung, Code-Generierung und komplexen Problemlösung machen es zu einem leistungsstarken Werkzeug für Entwickler und Forscher.
- Room for Growth: Halluzinationen in DeepSearch und Inkonsistenzen in Humor-/Ethik-Antworten unterstreichen Bereiche, die verfeinert werden müssen.
Da xAI plant, Grok-2 Open Source zu stellen und die Sprach- und Agentenfunktionen von Grok-3 zu erweitern, ist das Modell dazu bestimmt, Branchen von Gaming bis zur wissenschaftlichen Forschung neu zu gestalten. Obwohl es nicht fehlerfrei ist, signalisiert sein rasanter Aufstieg eine neue Ära des Wettbewerbs in der generativen KI – eine Ära, in der Agilität und Rechenleistung neu definieren, was möglich ist.