イーロン・マスクのxAIが最新のAIチャットボット「Grok-3」を発表し、競合であるOpenAIのGPT-4o、GoogleのGemini、AnthropicのClaudeを重要なベンチマークで上回ると主張しています。このリリースは、推論、コーディング、問題解決の能力において大きな飛躍を意味し、Grok-3を生成的AIの領域における強力なプレーヤーとして位置づけています。以下では、そのベンチマーク性能、実世界での使いやすさ、そして初期のユーザー体験を分析し、期待に応えるかどうかを評価します。
Grok-3ベンチマークの簡単なレビュー

Grok-3は、数学、科学、コーディングの標準化されたベンチマーク全体で優れたパフォーマンスを示しています。
- AIME’24数学競技では、52を獲得(GPT-4oの48と比較)し、科学ベンチマーク(GPQA)の結果は75で、DeepSeek-V3(68)やClaude 3.5 Sonnet(70)などの競合を大きく上回りました。
- コーディング能力は、LCB Oct-Febデータセットを通じてテストされ、Grok-3は57ポイントを達成し、Gemini-2 Pro(49)やGPT-4o(52)に対して顕著なリードを示しました。
軽量なGrok-3 miniバリアントも印象的で、これらのカテゴリで40、65、41を得点し、ほとんどの競合モデルを上回っています。

特筆すべきは、Grok-3がChatbot Arena(LMSYS)で1400ポイントの閾値を突破した最初のAIとなったことです。初期バージョンでは1402ポイントを達成し、DeepSeek-R1(1385)やOpenAIのo3-mini-high(1390)を上回りました。
この優位性は、長文コンテキストクエリ、多ターンダイアログ、指示遵守などの専門的なタスクにも及び、Grok-3は常に1位を誇ります。
Grok-3は今どこで使えるのか?
Grok-3は現在、XのすべてのPremium+サブスクライバーに無料で提供されています。

Grok-3は実際にどれほど優れているのか?
1. Grok-3の思考能力はどれほど優れているか?
Grok-3の「Think」モードは、高度な推論能力を示し、他のモデルが行き詰まる複雑な問題を解決します。例えば:
- ✅ ボードゲームデザイン: Settlers of Catanスタイルの六角形グリッドのウェブページをスライダーでダイナミックに調整するように依頼されたところ、Grok-3は機能的なHTML/JavaScriptコードを生成しました。この課題はDeepSeek-R1やGemini 2.0 Flash Thinkingでは失敗しました。OpenAIのo1-pro($200/月のプラン)も成功しましたが、Grok-3はそのパフォーマンスをかなり安価に実現しました。
- ✅ 三目並べ分析: モデルは基本的な三目並べボードを正しく解決し、有効なゲーム状態を生成しました。しかし、「トリッキー」なボードを作成するように挑戦された際には、意味不明なレイアウトを生成しました。この失敗はo1-proにも共通しており、抽象的な戦略生成における一般的なLLMの制限を浮き彫りにしています。
- ❌ 絵文字謎解きパズル: Grok-3はUnicodeのバリエーションセレクタに隠されたメッセージの解読に苦戦し、Rustコードのヒントがあっても困難を抱えました。DeepSeek-R1はこのタスクを部分的に解決しましたが、暗号推理における改善の余地を示唆しています。
- ✅ 計算推定: GPT-2のトレーニングでのFLOPを推定する際、トークン数の外挿や数学が必要であり、Grok-3の「Think」モードは正確な計算を提供しました(約1e21 FLOP)。GPT-4oはこれを完全に失敗した一方で、o1-proは一貫性のない結果を出しました。
Grok-3の顕著な特徴は、未解決問題に取り組む意欲です。ClaudeやGeminiのようにリーマン予想をすぐに超えた問題とみなすのではなく、Grok-3は勇敢にステップバイステップで推論し、制限を認める前に挑戦します。これはDeepSeek-R1と共有する特性です。
2. Grok-3で深いリサーチを試してみる
DeepSearch機能は、OpenAIのDeep ResearchやPerplexityのDeepResearchのように、ウェブリサーチと構造化された推論を組み合わせています。初期テストが明らかにしたことは:
- ✅ 現在のイベント: "今度のApple Launchはどうなっている?噂はあるか?"というクエリは、ARグラスやiOS 19の機能に関する詳細な、引用付きの回答を生み出しました。
- ✅ ニッチクエリ: "ブライアン・ジョンソンはどの歯磨き粉を使っていますか?"という質問には、正確な回答(ハイドロキシアパタイトベースの製品)が返されましたが、出典が必ずしも引用されていませんでした。
- ❌ ポップカルチャーの制限: "シングルインフェルノシーズン4のキャスト: 現在彼らはどこにいる?"という質問は、キャストの関係についての誤った主張を含む幻覚を引き起こしました。同様に、サイモン・ウィリソンの音声からテキストへの好みに関する質問は不完全な回答を引き起こしました。
DeepSearchは範囲ではPerplexityに対抗していますが、信頼性ではOpenAIの提供に遅れています。幻覚的なURLや自己参照の省略(例えば、主要なLLMラボのリストからxAIを除外する)など、継続的な改善が必要な領域を浮き彫りにしています。
3. エッジケースと「ガチャ」クエリのテスト
Grok-3の気まぐれで人間にとって簡単なパズルへのパフォーマンスは、その強みと奇妙さの両方を示しています:
- ✅ 言語的チャレンジ: 「strawberry」の中の「r」を3つ正しく特定しましたが、「LOLLAPALOOZA」の中の「L」を最初に誤って数えました。「Think」モードを有効にすると修正されました。
- ✅ 数値比較: モデルは最初に9.11 > 9.9を主張しました—一般的なLLMのエラーですが、自己修正を行いました。
- ✅ 家族パズル: "サリーには3人の兄弟がいます。それぞれの兄弟は2人の姉妹を持っています。サリーには何人の姉妹がいますか?"を瞬時に解決しました。一方でGPT-4oはしばしば誤った回答をします。
- ❌ ユーモア生成: "なぜ鶏がバンドに参加したのか? クラックスターになるためさ!"というジョークは、持続的なモード崩壊の問題を反映しており、「Think」モードの有無に関わらず問題があります。
- ❌ 倫理感度: 声を間違えることが命を救うために正当化されるかどうか尋ねられた際、Grok-3は冗長な拒否をデフォルトとしました—Claudeの簡潔な倫理フレームワークとは対照的です。
- ❌ SVG生成: "自転車に乗っているペリカン"のSVGをリクエストした結果、ばらばらな四肢や車輪が生成されましたが、Claudeの出力はこのニッチでは優れています。
まとめ:Grok-3のAIランドスケープにおける位置
Grok-3はAI開発の速度における大きな変化を示しています。前のモデルからわずか17ヶ月後にリリースされ、推論やコーディングにおいてo1-proのような最先端モデルと同等かそれ以上の能力を持ちながら、価格を下回っています。主なポイントは次の通りです:
- ベンチマークの支配: 数学、科学、コーディングのベンチマークで前例のないスコアを得たことで、Grok-3は生の能力のリーダーとして位置付けられています。
- 実用的なユーティリティ: 計算推定、コード生成、複雑な問題解決における強みが、開発者や研究者にとって強力なツールとなっています。
- 成長の余地: DeepSearchにおける幻覚や、ユーモア・倫理に対する反応の一貫性の欠如は、改善が必要な領域を浮き彫りにしています。
xAIがGrok-2をオープンソース化し、Grok-3の音声やエージェント機能を拡張する計画を立てていることから、このモデルはゲームから科学研究に至るまでの業界を再形成する準備が整っています。完璧ではありませんが、その急速な台頭は生成的AIにおける新しい競争時代を告げており、機敏さと計算力が可能性を再定義することを示唆しています。