ما مدى كفاءة Grok-3؟ أين يمكنك استخدام Grok-3؟

أطلقت شركة xAI التابعة لإيلون ماسك Grok-3، الإصدار الأحدث من روبوت المحادثة الذكي الخاص بها، مدعية أنه يتفوق على المنافسين مثل GPT-4o من OpenAI، وGemini من Google، وClaude من Anthropic في مؤشرات الأداء الأساسية. يمثل هذا الإصدار قفزة مهمة في قدرات التفكير والترميز وحل المشكلات، مما يضع Grok-3 كلاعب قوي في مجال الذكاء الاصطناعي التوليدي. أدناه، نقوم بتحليل أدائه في المؤشرات، واستخدامه في العالم الحقيقي، وتجارب المستخدمين الأوائل لتقييم ما إذا كان يرقى إلى مستوى الضجة.

💡

قم بتنزيل apidog مجانًا اليوم وزود سير العمل الخاص بك في اختبار SSE. ليس apidog مجرد أداة اختبار عادية - بل هو مصمم لتبسيط وتحسين عملية تطويرك. فلنبدأ الآن في هذا البرنامج التعليمي المتعمق حيث نقارن الميزات، وخطوات التثبيت، وحالات الاستخدام العملية لكل أداة.

زر

مراجعة سريعة لمؤشرات أداء Grok-3

يظهر Grok-3 أداءً متفوقًا عبر مؤشرات الأداء الموحدة في الرياضيات، والعلوم، والترميز.

في مسابقة الرياضيات AIME’24، حصل على 52 (مقارنةً بـ 48 لـ GPT-4o)، بينما كان نتيجة مؤشرات أدائه في العلوم (GPQA) 75، مما يتفوق بشكل كبير على منافسين مثل DeepSeek-V3 (68) وClaude 3.5 Sonnet (70).
تظهر كفاءة البرمجة، التي تم اختبارها عبر مجموعة بيانات LCB Oct-Feb، أن Grok-3 حقق 57 نقطة، وهو تقدم ملحوظ على Gemini-2 Pro (49) وGPT-4o (52).

كذلك، فإن نسخة Grok-3 المصغرة ت impress بالإضافة إلى الأداء، محققةً 40، و65، و41 في هذه الفئات - ما زالت تتفوق على معظم النماذج المنافسة.

من الجدير بالذكر أن Grok-3 أصبح أول ذكاء اصطناعي يكسر 1400 نقطة على Chatbot Arena (LMSYS)، وهي منصة لتقييم نماذج اللغة الكبيرة. حقق الإصدار الأولي له 1402 نقاط، متفوقًا على DeepSeek-R1 (1385) وo3-mini-high من OpenAI (1390).

يمتد هذا التفوق إلى المهام المتخصصة مثل استعلامات السياق الطويل، والحوارات متعددة الأدوار، واتباع التعليمات، حيث يحتل Grok-3 باستمرار المركز الأول.

أين يمكنك استخدام Grok-3 الآن؟

Grok 3 متاح الآن لجميع المشتركين في Premium+ على X مجانًا.

ما مدى جودة Grok-3 في الواقع؟

1. ما مدى جودة Grok-3 في التفكير؟

يعرض وضع "التفكير" في Grok-3 قدرات متقدمة في التفكير، حيث يحل مشاكل معقدة تعجز النماذج الأخرى عن حلها. على سبيل المثال:

✅ تصميم لعبة الطاولة: عند الطلب لإنشاء صفحة ويب بنمط شبكة سداسية مستوحاة من Settlers of Catan مع تعديلات ديناميكية على الحلقات عبر شريط التمرير، أوجد Grok-3 كود HTML/JavaScript وظيفي - وهو مهمّة فشلت فيها DeepSeek-R1 وGemini 2.0 Flash Thinking. كما نجح o1-pro من OpenAI ($200/شهر) أيضًا، لكن Grok-3 تساوى أداؤه بتكلفة أقل بكثير.
✅ تحليل لعبة Tic-Tac-Toe: حدد النموذج بشكل صحيح لوحات tic-tac-toe الأساسية وأنشأ حالات لعب صالحة. ومع ذلك، عندما تحدى لإنشاء لوحات "معقدة"، أنتج تصميمات غير منطقية - وهو فشل مشترك مع o1-pro، مما يبرز قيدًا شائعًا في توليد الاستراتيجيات المجردة.
❌ لغز الرموز التعبيرية: واجه Grok-3 صعوبة في فك شفرة رسالة مخفية في محددات تنوع Unicode، حتى مع تلميحات كود Rust. قامت DeepSeek-R1 بحل جزئي لهذه المهمة، مما يشير إلى وجود مجال للتحسين في التفكير التشفيري.
✅ التقدير الحسابي: عند تقدير FLOPs التدريب لـ GPT-2 - وهي مهمة تتطلب استقراء عدد الرموز والرياضيات - قدمت Grok-3 في وضع "التفكير" حسابات دقيقة (~1e21 FLOPs). بينما فشل GPT-4o في هذا تمامًا، وأنتج o1-pro نتائج غير متناسقة.

تعتبر ميزة بارزة هي استعداد Grok-3 لمواجهة المشاكل غير المحلولة. على عكس Claude أو Gemini، اللذان يرفضان مباشرة فرضية ريمان باعتبارها خارج نطاق قدرتهما، يحاول Grok-3 ببسالة التفكير خطوة بخطوة قبل الاقرار بالحدود - وهي صفة مشتركة مع DeepSeek-R1.

2. تجربة البحث العميق مع Grok-3

تجمع ميزة DeepSearch بين البحث عبر الويب والتفكير المنظم، على غرار Deep Research من OpenAI وDeepResearch من Perplexity. تكشف الاختبارات الأولى:

✅ الأحداث الحالية: أسئلة مثل "ما الجديد بشأن إطلاق Apple القادم؟ أي شائعات؟" أدت إلى استجابات تفصيلية مدعومة بالاستشهادات حول نظارات الواقع المعزز المزعومة وميزات iOS 19.
✅ الاستفسارات المتخصصة: "ما معجون الأسنان الذي يستخدمه برايان جونسون؟" أرجع إجابات دقيقة (منتجات تعتمد على هيدروكسيباتيت)، رغم أنه لم يتم دائمًا الاستشهاد بالمصادر.
❌ قيود الثقافة الشعبية: "أعضاء موسم 4 من Singles Inferno: أين هم الآن؟" أدت إلى ظهور هلاوس، بما في ذلك مزاعم خاطئة حول علاقات الطاقم. وبالمثل، أدت الاستفسارات حول تفضيلات سيمون ويلسون بين الكلام والنص إلى إجابات غير مكتملة.

بينما يتوافق DeepSearch مع Perplexity في النطاق، إلا أنه يتخلف عن عرض OpenAI من حيث الموثوقية. تؤكد الروابط الهلوسية والاستشهادات الذاتية المفقودة (على سبيل المثال، استبعاد xAI من قائمة مختبرات LLM الرئيسية) الحاجة المستمرة للتحسين.

3. اختبار الحالات المتطرفة والاستفسارات المعقدة

يكشف أداء Grok-3 في الألغاز الغريبة وسهلة الفهم عن نقاط قوة وغرائب:

✅ تحديات لغوية: حدد بشكل صحيح ثلاثة "r" في "f" لكن أخطأ في البداية في عد "L" في "LOLLAPALOOZA". تم تفعيل هذا الوضع "التفكير" لإصلاح المشكلة.
✅ مقارنة عددية: ادعى النموذج في البداية 9.11 > 9.9 - وهو خطأ شائع لذرة LLM - لكن قام بتصحيحه ذاتيًا عندما تم تفعيل التفكير.
✅ الألغاز العائلية: حل "سالي لديها 3 إخوة؛ كل أخ لديه 2 شقيقات. كم عدد الشقيقات التي تمتلكها سالي؟" على الفور، على عكس GPT-4o، الذي يجيب غالبًا بشكل غير صحيح.
❌ توليد الفكاهة: نكات مثل "لماذا انضمت الدجاجة إلى فرقة موسيقية؟ لتكون نجم الدجاج!" تعكس مشاكل متكررة في انهيار الوضع، سواء مع تفعيل التفكير أو بدونه.
❌ الحساسية الأخلاقية: عندما سُئل إذا كان يمكن تبرير عدم تحديد الجنس لإنقاذ الأرواح، لجأ Grok-3 إلى رفض مطول - مما يتناقض مع الأطر الأخلاقية المختصرة لـ Claude.
❌ توليد SVG: أدت الطلبات للحصول على SVG "ببغاء يركب دراجة" إلى إنتاج أطراف وعجلات مشوشة، رغم أن نتائج Claude تظل متفوقة في هذه الفئة.

ملخص: مكانة Grok-3 في مشهد الذكاء الاصطناعي

يمثل Grok-3 تحولًا كبيرًا في سرعة تطوير الذكاء الاصطناعي. تم إصداره بعد 17 شهرًا فقط من سلفه، ويتطابق أو يتفوق على النماذج الرائدة مثل o1-pro في التفكير والترميز، بينما يُقلل من تسعيرها. تشمل الخلاصات الرئيسية:

هيمنة في المؤشرات: درجات غير مسبوقة في الرياضيات والعلوم ومؤشرات البرمجة تضع Grok-3 كقائد في القدرة الخام.
المنفعة العملية: نقاط القوة في التقدير الحسابي، وتوليد الكود، وحل المشكلات المعقدة تجعلها أداة قوية للمطورين والباحثين.
فرص للنمو: الهلوسة في DeepSearch وعدم الاتساق في استجابات الفكاهة/الأخلاق تبرز المجالات التي تحتاج إلى تحسين.

مع تخطيط xAI لفتح مصدر Grok-2 وتوسيع قدرات الصوت والعميل لـ Grok-3، فإن النموذج مستعد لإعادة تشكيل الصناعات من الألعاب إلى البحث العلمي. على الرغم من أنه ليس خاليًا من العيوب، إلا أن صعوده السريع يدل على عصر جديد من المنافسة في الذكاء الاصطناعي التوليدي - حيث يعيد الرشاقة والقوة الحاسوبية تعريف الممكن.