xAI d'Elon Musk a dévoilé Grok-3, la dernière itération de son chatbot d'IA, affirmant qu'il surpasse les concurrents comme GPT-4o d'OpenAI, Gemini de Google et Claude d'Anthropic dans les principaux benchmarks. Cette sortie marque un bond significatif en matière de raisonnement, de codage et de résolution de problèmes, positionnant Grok-3 comme un acteur redoutable dans le paysage de l'IA générative. Ci-dessous, nous analysons ses performances en matière de benchmarks, son utilisabilité dans le monde réel et les premières expériences des utilisateurs pour évaluer s'il est à la hauteur du battage médiatique.
Aperçu rapide des benchmarks de Grok-3

Grok-3 démontre des performances supérieures sur les benchmarks standardisés en mathématiques, en sciences et en codage.
- Lors de la compétition de mathématiques AIME’24, il a obtenu un score de 52 (contre 48 pour GPT-4o), tandis que son résultat au benchmark scientifique (GPQA) de 75 surpasse significativement les concurrents comme DeepSeek-V3 (68) et Claude 3.5 Sonnet (70).
- La compétence en codage, testée via le jeu de données LCB Oct-Feb, montre que Grok-3 atteint 57 points, une avance notable sur Gemini-2 Pro (49) et GPT-4o (52).
La variante légère Grok-3 mini impressionne également, avec des scores de 40, 65 et 41 dans ces catégories, toujours devant la plupart des modèles rivaux.

Notamment, Grok-3 est devenu la première IA à franchir le seuil des 1400 points sur Chatbot Arena (LMSYS), une plateforme d'évaluation des grands modèles de langage. Sa première version a atteint 1402 points, surpassant DeepSeek-R1 (1385) et o3-mini-high d'OpenAI (1390).
Cette domination s'étend aux tâches spécialisées comme les requêtes à long contexte, les dialogues à plusieurs tours et le suivi des instructions, où Grok-3 se classe constamment en premier.
Où pouvez-vous utiliser Grok-3 maintenant ?
Grok 3 est désormais disponible gratuitement pour tous les abonnés Premium+ sur X.

À quel point Grok-3 est-il vraiment bon ?
1. À quel point Grok-3 est-il bon pour réfléchir ?
Le mode "Think" de Grok-3 met en valeur des capacités de raisonnement avancées, résolvant des problèmes complexes qui bloquent d'autres modèles. Par exemple :
- ✅ Conception de jeux de société : Lorsqu'on lui a demandé de créer une page web de grille hexagonale de style Settlers of Catan avec des ajustements dynamiques de l'anneau via un curseur, Grok-3 a généré du code HTML/JavaScript fonctionnel, une tâche échouée par DeepSeek-R1 et Gemini 2.0 Flash Thinking. o1-pro d'OpenAI (niveau 200 $/mois) a également réussi, mais Grok-3 a égalé ses performances à une fraction du coût.
- ✅ Analyse du morpion : Le modèle a correctement résolu les tableaux de morpion de base et généré des états de jeu valides. Cependant, lorsqu'il a été mis au défi de créer des tableaux "difficiles", il a produit des mises en page absurdes, un échec partagé par o1-pro, soulignant une limitation courante des LLM dans la génération de stratégies abstraites.
- ❌ Puzzle mystère Emoji : Grok-3 a eu du mal à décoder un message caché dans les sélecteurs de variantes Unicode, même avec des indices de code Rust. DeepSeek-R1 a partiellement résolu cette tâche, suggérant une marge d'amélioration du raisonnement cryptographique.
- ✅ Estimation computationnelle : Lors de l'estimation des FLOPs d'entraînement de GPT-2, une tâche nécessitant une extrapolation du nombre de jetons et des mathématiques, Grok-3 avec le mode "Think" a fourni des calculs précis (~1e21 FLOPs). GPT-4o a complètement échoué, tandis que o1-pro a produit des résultats incohérents.
Une caractéristique remarquable est la volonté de Grok-3 de s'attaquer à des problèmes non résolus. Contrairement à Claude ou Gemini, qui rejettent immédiatement l'hypothèse de Riemann comme étant hors de leur portée, Grok-3 tente courageusement un raisonnement étape par étape avant d'admettre des limites, un trait partagé avec DeepSeek-R1.
2. Essayer la recherche approfondie avec Grok-3
La fonctionnalité DeepSearch combine la recherche web avec un raisonnement structuré, semblable à Deep Research d'OpenAI et DeepResearch de Perplexity. Les premiers tests révèlent :
- ✅ Événements actuels : Des requêtes comme "Quoi de neuf avec le prochain lancement d'Apple ? Des rumeurs ?" ont donné des réponses détaillées, étayées par des citations, sur les lunettes AR spéculatives et les fonctionnalités d'iOS 19.
- ✅ Requêtes de niche : "Quel dentifrice Bryan Johnson utilise-t-il ?" a renvoyé des réponses précises (produits à base d'hydroxyapatite), bien que les sources n'aient pas toujours été citées.
- ❌ Limitations de la culture pop : "Distribution de Singles Inferno Saison 4 : Où en sont-ils maintenant ?" a conduit à des hallucinations, notamment de fausses affirmations sur les relations des acteurs. De même, les demandes de renseignements sur les préférences de Simon Willison en matière de synthèse vocale ont donné des réponses incomplètes.
Bien que DeepSearch corresponde à Perplexity en termes d'étendue, il est à la traîne de l'offre d'OpenAI en termes de fiabilité. Les URL hallucinées et les auto-références omises (par exemple, excluant xAI d'une liste des principaux laboratoires LLM) soulignent les besoins d'amélioration continue.
3. Tester les cas limites et les requêtes "Gotcha"
Les performances de Grok-3 sur des énigmes bizarres et faciles pour les humains révèlent à la fois des forces et des bizarreries :
- ✅ Défis linguistiques : Il a correctement identifié trois "r" dans "fraise" mais a initialement mal compté les "L" dans "LOLLAPALOOZA". L'activation du mode "Think" a corrigé cela.
- ✅ Comparaison numérique : Le modèle a initialement affirmé que 9,11 > 9,9, une erreur courante des LLM, mais s'est auto-corrigé avec le raisonnement activé.
- ✅ Énigmes familiales : Résolu "Sally a 3 frères ; chaque frère a 2 sœurs. Combien de sœurs Sally a-t-elle ?" instantanément, contrairement à GPT-4o, qui répond souvent de manière incorrecte.
- ❌ Génération d'humour : Des blagues comme "Pourquoi le poulet a-t-il rejoint un groupe ? Pour être une cluck-star !" reflètent des problèmes persistants d'effondrement de mode, avec ou sans le mode "Think".
- ❌ Sensibilité éthique : Lorsqu'on lui a demandé si le fait de se tromper de genre pouvait être justifié pour sauver des vies, Grok-3 a opté par défaut pour un refus verbeux, contrairement aux cadres éthiques concis de Claude.
- ❌ Génération SVG : Les demandes d'un SVG "pélican à vélo" ont produit des membres et des roues disjoints, bien que les résultats de Claude restent supérieurs dans cette niche.
Résumé : la place de Grok-3 dans le paysage de l'IA
Grok-3 représente un changement sismique dans la vitesse de développement de l'IA. Sorti seulement 17 mois après son prédécesseur, il égale ou dépasse les modèles de pointe comme o1-pro en matière de raisonnement et de codage tout en réduisant leurs prix. Les principaux points à retenir incluent :
- Dominance des benchmarks : Des scores sans précédent en mathématiques, en sciences et en benchmarks de codage positionnent Grok-3 comme un leader en termes de capacité brute.
- Utilité pratique : Les points forts en matière d'estimation computationnelle, de génération de code et de résolution de problèmes complexes en font un outil puissant pour les développeurs et les chercheurs.
- Marge de croissance : Les hallucinations dans DeepSearch et les incohérences dans les réponses en matière d'humour/d'éthique mettent en évidence les domaines nécessitant un affinement.
Avec xAI qui prévoit de rendre open source Grok-2 et d'étendre les capacités vocales et d'agent de Grok-3, le modèle est sur le point de remodeler les industries, des jeux à la recherche scientifique. Bien que non parfait, son ascension rapide signale une nouvelle ère de concurrence dans l'IA générative, une ère où l'agilité et la puissance de calcul redéfinissent ce qui est possible.