ما هو Gemini Omni؟ نموذج الفيديو الأول من جوجل

Ashley Innocent

Ashley Innocent

20 مايو 2026

ما هو Gemini Omni؟ نموذج الفيديو الأول من جوجل

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

نشرت مدونة Google للتو Gemini Omni، وهو نموذج جديد يربط حزمة استنتاجات الشركة بالإخراج التوليدي. يأخذ المتغير الأول، Gemini Omni Flash، النصوص أو الصور أو الصوت أو الفيديو كمدخل ويعطيك فيديو في المقابل. وهو متوفر بالفعل داخل تطبيق Gemini وGoogle Flow وYouTube Shorts وتطبيق YouTube Create، مع توفر واجهة برمجة التطبيقات للمطورين في الأسابيع القادمة.

إذا كنت تقوم بالبناء باستخدام Apidog، فقد قمت بالفعل بربط نماذج النصوص، ومولدات الصور مثل Nano Banana 2، ونماذج الفيديو مثل Veo 3.1. Gemini Omni هي نقطة النهاية التالية التي يجب التخطيط لها، والتصميم مختلف بشكل كبير عن أي شيء أطلقته Google من قبل. يشرح هذا المنشور ما يفعله Omni، وأين يتواجد اليوم، ومتى ستصل واجهة برمجة التطبيقات، وكيف يرتبط بـ Gemini 3 Pro، وكيفية إعداد مساحة عمل Apidog الخاصة بك بحيث يمكنك توصيله بمجرد توفر المفاتيح.

ملخص سريع

Gemini Omni هي عائلة نماذج Google الجديدة التي تجمع بين قدرة Gemini على الاستدلال والتوليد الأصلي متعدد الوسائط. الإصدار الأول، Gemini Omni Flash، يقبل مدخلات نصية وصورية وصوتية ومرئية وينتج مخرجات فيديو، مع التخطيط لإخراج الصور والصوت. وهو متوفر الآن في تطبيق Gemini وGoogle Flow لمشتركي AI Plus وPro وUltra، ومجانًا في YouTube Shorts وYouTube Create، مع إطلاق واجهات برمجة التطبيقات للمطورين والمؤسسات في الأسابيع القادمة.

ما هو Gemini Omni

Gemini Omni هو نوع مختلف من النماذج التوليدية. معظم مولدات الفيديو تأخذ توجيهًا (prompt) وتنتج إطارات. أما Omni فيستدل على التوجيه بالطريقة التي يفعلها نموذج اللغة، ثم يولد الناتج. يصف فريق Google DeepMind بقيادة كوراي كافوكوكوغلو Omni بأنه نموذج يفكر فيما يجب أن يحدث بعد ذلك باستخدام معرفة Gemini بالعالم بالإضافة إلى فهم بديهي للفيزياء مثل الجاذبية والطاقة الحركية وديناميات السوائل.

فكر في الأمر بهذه الطريقة. Veo 3 ممتاز في إنتاج حركة تبدو حقيقية. Omni مصمم بحيث تتصرف الحركة أيضًا بالطريقة التي يتصرف بها العالم. إذا طلبت من Omni أن يظهر كرة ترتد من درج، فإنه لا يقوم بتحريك الإطارات بشكل أعمى. بل يستدل على فقدان الزخم في كل خطوة، ثم يرسم كيف يجب أن يبدو ذلك. هذه هي الفجوة التي تبيعها Google: التوليد المدفوع بالاستدلال، وليس استيفاء الإطارات.

التسمية تتبع نمط Google. Gemini 3 Pro للمهام الثقيلة، Gemini 3 Flash للسرعة والتكلفة. Gemini Omni Flash يندرج في نفس فئة Flash، مما يعني زمن استجابة منخفض، وتوفر واسع، ونقطة سعر ستعكس على الأرجح عائلة Gemini 3 Flash بمجرد إطلاق واجهة برمجة التطبيقات. من المرجح أن تكون هناك متغيرات Omni أكبر على خارطة الطريق. لم تعلن Google عنها.

تفصل بعض السمات المميزة Omni عن أعمال Google الفيديو السابقة:

كيف يختلف عن Veo 3 وGemini 3 Pro

إذا كنت قد أطلقت تطبيقات باستخدام إصدارات Google النموذجية الأخيرة، فإن العائلة الآن ذات ثلاثة رؤوس:

النموذج ما هو مخصص له الإدخال الإخراج الاستدلال
Gemini 3 Pro النصوص الثقيلة + الاستدلال متعدد الوسائط نص، صورة، صوت، فيديو، كود نص، كود قوي (يتوفر Deep Think)
Veo 3.1 توليد الفيديو الخالص نص، صورة فيديو محدود؛ يعتمد على التوجيه
Gemini Omni Flash الاستدلال + التوليد الإبداعي نص، صورة، صوت، فيديو فيديو (صورة/صوت قادم) أصلي، مطبق على التوليد

لا يزال Veo 3 يتفوق في فيديو اللقطة الواحدة بأعلى دقة. وقد غطينا ذلك بالتفصيل في دليل واجهة برمجة تطبيقات Veo 3 وتغطية إصدار Veo 3.1. ما يضيفه Omni هو حلقة الاستدلال. يمكن إخبار النموذج "ابنِ لي فيديو إرشادي للمنتج مدته 30 ثانية حيث تتبع الكاميرا فتح علبة الهاتف وتتفاعل مع التعليق الصوتي للمستخدم"، وسيقوم بتخطيط اللقطات قبل توليدها.

يمكنك أيضًا تزويد Omni بتعديلات وسيطة بلغة عادية. مع Veo، تقوم بإعادة التوجيه وإعادة التوليد. مع Omni، يمكنك متابعة المحادثة. لهذا السبب، تصف Google المنتج بأنه "متعاون إبداعي" بدلاً من كونه مولدًا.

بالنسبة للعمل النصي الخالص، لا يزال Gemini 3 Pro هو الخيار الصحيح. أما بالنسبة للفيديو الخالص حيث تعرف بالضبط ما تريده، فلا يزال Veo 3.1 أرخص وأسرع. Omni مخصص للحالة التي تتطلب فيها الموجهات تفسيرًا ويحتاج الإخراج إلى التفاعل مع السياق.

ما يمكنك بناؤه به اليوم

Omni Flash متاح حاليًا في أربعة أماكن:

  1. تطبيق Gemini. أنشئ مقاطع فيديو تفاعلية، وقم بتحسينها من خلال جولات متابعة.
  2. Google Flow. سطح عمل Google لصناعة الأفلام لربط لقطات متعددة في تسلسل.
  3. YouTube Shorts. مجاني لأي منشئ محتوى على المنصة.
  4. تطبيق YouTube Create. توليد مجاني، يأتي أولاً للهواتف المحمولة.

بالنسبة للخطط المدفوعة، يتم تضمين الوصول إلى Omni في اشتراكات Google AI Plus وPro وUltra. يحصل منشئو المحتوى المجانيون عليه مباشرة عبر YouTube. هذه خطوة توزيع ملحوظة. تضع Google النموذج أمام ملايين منشئي المحتوى القصير قبل حتى شحن واجهة برمجة تطبيقات المطورين.

يحمل كل فيديو ينتجه Omni علامة مائية SynthID. يمكنك التحقق من المصدر عبر تطبيق Gemini، أو Gemini في Chrome، أو بحث Google. إذا كنت تبني أي شيء يهم فيه مصدر المحتوى (مراجعة الامتثال، سلامة العلامة التجارية، التحقق من الأخبار)، فهذه أداة أساسية مفيدة. SynthID غير مرئي للمشاهدين ولكنه قابل للقراءة بواسطة كاشفات Google.

هناك أيضًا ميزة تسمى "Avatars" (الصور الرمزية). يمكنك بناء نسخة رقمية منك بصوتك الخاص، ثم إنشاء مقاطع فيديو تتحدث فيها تلك الصورة الرمزية سطورًا جديدة. تعمل نفس البنية الأساسية للشخصيات ذات العلامات التجارية. لم تكشف Google كيف سيبدو تدفق الموافقة والتحقق لطبقة واجهة برمجة التطبيقات، ولكن الإصدار الاستهلاكي يتطلب إعداد صوت صريح قبل أن تتمكن أي صورة رمزية من استخدام صورتك.

فكرة الاستدلال بالإضافة إلى التوليد، بعبارات بسيطة

لماذا تعتبر "الاستدلال + التوليد" مهمة؟ لنأخذ مثالاً ملموسًا.

الموجه: "أرني كوب ماء ينقلب من حافة طاولة ويهبط على أرضية خشبية."

نموذج توليدي محض يقوم باستيفاء إطارات تبدو وكأنها كوب ينقلب. نموذج استدلال يجيب أولاً على سلسلة من الأسئلة الداخلية. ما مدى سرعة انقلاب كوب نصف ممتلئ عندما يعبر مركز كتلته الحافة؟ هل يغادر الماء الكوب قبل أو بعد اصطدام الحافة بالأرض؟ هل ينكسر الكوب أم يرتد؟ ما الصوت الذي يصدره؟ ثم يولد إطارات تتفق مع تلك الإجابات.

هذا ما تعنيه Google بـ "الفهم البديهي للفيزياء". لا يقوم Omni بتشغيل محاكاة فيزيائية تحت الغطاء. لقد تم تدريبه على التنبؤ بالنتائج بالطريقة التي يتنبأ بها شخص ذو حدس فيزيائي، وهذا التنبؤ يوجه التوليد.

ستلاحظ هذا بشكل أكبر في ثلاثة أماكن:

ومع ذلك، فإن Omni ليس محرك فيزياء. لا يزال يخلط الحركة في اللقطات الطويلة، وينتهك أحيانًا ديمومة الكائن عند التسليم، ولن يحل محل مسار عمل VFX مناسب. الحد الذي يبلغه هو "يبدو معقولاً دون الحاجة إلى هندسة كل التفاصيل في الموجه".

أين يعمل Gemini Omni Flash الآن

نظرة سريعة على مستويات الوصول عند الإطلاق:

السطح التكلفة الوصول
YouTube Shorts مجاني أي منشئ محتوى
تطبيق YouTube Create مجاني منشئو المحتوى على الجوال
تطبيق Gemini مدفوع AI Plus / Pro / Ultra
Google Flow مدفوع AI Plus / Pro / Ultra
واجهة برمجة تطبيقات المطورين سيتم الإعلان عنها في الأسابيع القادمة
واجهة برمجة تطبيقات المؤسسات سيتم الإعلان عنها في الأسابيع القادمة

واجهة برمجة تطبيقات المطورين هي ما يهتم به معظم قراء هذه المدونة. لم تلتزم Google بتاريخ محدد يتجاوز "في الأسابيع القادمة". توقع نقاط نهاية في Google AI Studio وVertex AI أولاً، باتباع نمط طرح Gemini 3.

أثناء انتظارك، قم بإعداد مساحة عمل واجهة برمجة التطبيقات الخاصة بك. قم بتنزيل Apidog، واستورد مخطط Gemini API الموجود الذي تستخدمه لـ Gemini 3 Pro أو Veo 3، وستكون جاهزًا لإضافة نقطة نهاية Omni بمجرد إصدار مواصفات OpenAPI. يتعامل استيراد Apidog مع المصادقة ومتغيرات البيئة والاستجابات الوهمية، بحيث يمكنك بناء استجابات توليد الفيديو الوهمية قبل وجود نقطة النهاية الحية.

الوصول إلى واجهة برمجة التطبيقات للمطورين: ما نعرفه

إليك كل ما أكدته Google بخصوص وصول المطورين حتى الآن:

إذا كانت خطة عملك الحالية تعتمد على Veo 3.1 أو نموذج فيديو تابع لجهة خارجية، فإن مسار الترحيل مباشر من حيث المبدأ. نفس بنية التوجيه، مدخلات أغنى، مخرجات أغنى. التكاليف وزمن الاستجابة هي المجهول.

الرهان الأكثر أمانًا الآن هو تصميم تطبيقك لتبديل النماذج خلف واجهة داخلية واحدة. قم بتغليف Veo وOmni وأي بدائل مستقبلية خلف خدمة واحدة. اختبر التبديل باستخدام Apidog عن طريق محاكاة شكل نقطة النهاية الجديدة، والتحقق من صحة رمز العميل الخاص بك، وتبديل عنوان URL المباشر فقط بمجرد توفر Omni بشكل عام. لقد غطينا هذا النمط بالضبط في دليل واجهة برمجة تطبيقات تحويل النص إلى فيديو.

دفع نقاط نهاية Omni داخل Apidog

عندما يتم شحن واجهة برمجة تطبيقات Omni، ستحتاج مساحة عمل Apidog الخاصة بك إلى ثلاثة أشياء:

  1. إعداد المصادقة. سواء كانت Google توجه عبر AI Studio (`x-goog-api-key`) أو Vertex (OAuth + حساب الخدمة)، قم بتعيين كليهما في بيئات Apidog. قم بالتبديل بنقرة واحدة بدلاً من تعديل الرؤوس لكل طلب.
  2. تعريف المخطط. استورد مواصفات OpenAPI بمجرد أن تنشرها Google. إذا لم يفعلوا ذلك، ارسم المخطط في المصمم المرئي لـ Apidog باستخدام مواصفات Gemini 3 كخط أساس. نفس النهج عمل عندما تم إطلاق Gemini 3 قبل إصدار OpenAPI الرسمي.
  3. الاستجابات الوهمية. توليد الفيديو بطيء ومكلف. تُرجع المحاكاة الذكية لـ Apidog استجابات base64 أو عناوين URL موقعة مسبقًا حتى يمكن بناء واختبار عميل الواجهة الأمامية دون استهلاك حصة واجهة برمجة تطبيقات حقيقية.

من المرجح أن يبدو طلب Omni النموذجي بهذا الشكل الخام:

curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
        { "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
      ]
    }],
    "generationConfig": {
      "responseMimeType": "video/mp4",
      "durationSeconds": 6
    }
  }'

(هذا الشكل هو توقع من واجهة برمجة تطبيقات Gemini 3 متعددة الوسائط الحالية. قد تقوم Google بتغيير أسماء الحقول.)

ضع ذلك في Apidog كطلب، واحفظه ضمن مجموعة Gemini الخاصة بك، وستحصل على اختبار قابل لإعادة التشغيل يمكنك مشاركته مع الفريق. أضف تأكيدات مرئية على رمز الاستجابة وحجم الحمولة ووجود علامة SynthID المائية. عندما يتم تشغيل نقطة النهاية الحقيقية، تحتاج فقط إلى تحديث عنوان URL.

كيف يتفوق Omni على Sora 2 وVeo 3.1 وNano Banana 2

تعتبر تشكيلة نماذج الفيديو لعام 2026 قوية، لذا فإن المقارنة العادلة مهمة قبل الالتزام:

النموذج المورد الاستدلال إدخال متعدد الوسائط قابل للتحرير علامة مائية
Gemini Omni Flash جوجل أصلي نص، صورة، صوت، فيديو متعدد الأدوار SynthID
Veo 3.1 جوجل محدود نص، صورة إعادة توجيه فقط SynthID
Sora 2 OpenAI بعض الشيء نص، صورة إعادة توجيه فقط C2PA
Nano Banana 2 جوجل بعض الشيء نص، صورة محدود SynthID

يتفوق Veo 3.1 في جودة اللقطة السينمائية الواحدة. يمتلك Sora 2 أقوى محاكاة عالمية وفقًا لوضع OpenAI. وقد تناولناها بالتفصيل في تحليلنا العميق لـ Sora 2. تتمثل المزايا المميزة لـ Omni في الاستدلال، والتحرير متعدد الأدوار، والإدخال الصوتي مع الإخراج المرئي دون مرحلة منفصلة.

إذا كنت تختار نموذجًا لسير عمل الإنتاج اليوم، فإن Veo 3.1 بالإضافة إلى طبقة المحاكاة من Apidog هي الرهان الأكثر استقرارًا. أما إذا كنت تجري تجربة حيث يصف المستخدمون التعديلات بلغة عادية ويتوقعون من النموذج مواكبة ذلك، فإن Omni هو المكان الذي يجب أن تستثمر فيه وقت الاختبار بمجرد إطلاق واجهة برمجة التطبيقات. المقارنة الكاملة موجودة في مواجهة نماذج الفيديو الخاصة بنا.

حالات الاستخدام في العالم الحقيقي

بعض الأنماط التي يمكن توقعها مبكرًا:

أفضل الممارسات والأخطاء الشائعة

إذا كنت تستعد لإطلاق واجهة برمجة تطبيقات Omni، فإن مجموعة من الخيارات ستوفر لك وقتًا حقيقيًا:

خطأ شائع يجب تجنبه: لا تتوقع أن يحل Omni محل خط أنابيب التحرير الخاص بك. إنه نموذج توليدي، وليس محررًا غير خطي. لا يزال يتعين عليك إجراء مراجعة نهائية في DaVinci أو Premiere أو Google Flow للقصص والألوان ومزج الصوت.

الأسئلة المتكررة

ما هو Gemini Omni؟

Gemini Omni هي عائلة نماذج Google الجديدة التي تجمع بين استدلال Gemini والتوليد الأصلي متعدد الوسائط. المتغير الأول، Gemini Omni Flash، يقبل النصوص والصور والصوت والفيديو كمدخل وينتج فيديو كمخرج.

هل Gemini Omni هو نفسه Veo 3؟

لا. Veo هو نموذج مخصص لتوليد الفيديو بقدرة استدلال محدودة. Omni هو نموذج استدلال يقوم بتوليد الفيديو؛ يمكنه تفسير التوجيهات المعقدة، والتحرير عبر الأدوار المتعددة، وقبول أنواع مدخلات أغنى. انظر إلى دليل واجهة برمجة تطبيقات Veo 3 الخاص بنا لمعرفة الاختلافات العملية.

متى سيتم إطلاق واجهة برمجة تطبيقات Gemini Omni؟

تقول Google "في الأسابيع القادمة" اعتبارًا من إعلان مايو 2026. سيتم إطلاق واجهات برمجة التطبيقات للمطورين والمؤسسات معًا. لا يوجد تاريخ محدد.

كم تكلفة Gemini Omni؟

بالنسبة للمستهلكين، فهو مجاني في YouTube Shorts وYouTube Create، ويُدرج في اشتراكات Google AI Plus وPro وUltra. لم يتم الإعلان عن تسعير واجهة برمجة التطبيقات. عادة ما تحمل طبقة Flash أدنى سعر لكل استدعاء لدى Google.

هل يمكن لـ Gemini Omni توليد الصوت؟

ليس بعد. الإخراج هو فيديو فقط عند الإطلاق. إخراج الصوت والصور مدرج في خارطة الطريق ولكن بدون تاريخ.

هل لدى Gemini Omni علامة مائية؟

نعم. تحمل جميع مقاطع الفيديو التي تم إنشاؤها بواسطة Omni علامة SynthID المائية، والتي يمكن التحقق منها عبر تطبيق Gemini، وGemini في Chrome، وبحث Google. العلامة المائية غير مرئية للمشاهدين ولكنها قابلة للقراءة بواسطة كاشفات Google.

هل ستدعم Apidog واجهة برمجة تطبيقات Gemini Omni؟

نعم، بنفس الطريقة التي تدعم بها Apidog نقاط نهاية Gemini 3 وVeo 3 وNano Banana اليوم. في اللحظة التي تنشر فيها Google مواصفات OpenAPI لـ Omni، يمكنك استيرادها مباشرة. في غضون ذلك، ارسم المخطط، قم بمحاكاة الاستجابات، واجعل كود العميل الخاص بك جاهزًا.

كيف يتعامل Gemini Omni مع الفيزياء؟

لقد تم تدريب النموذج على التنبؤ بالنتائج بالطريقة التي يتنبأ بها شخص ذو حدس فيزيائي، ثم توليد إطارات تتفق مع هذا التنبؤ. إنه لا يدير محاكاة فيزيائية، ولكنه يتعامل بشكل صحيح مع الجاذبية وديناميكيات السوائل وسلوك التصادم في كثير من الأحيان أكثر من النماذج التوليدية الخالصة.

خاتمة

Gemini Omni هو النموذج الأكثر إثارة للاهتمام الذي أصدرته Google هذا الربع. إنه أكثر من مجرد Veo أسرع. إنه بنية مختلفة تستدل قبل أن تولد، وتقبل أي مدخلات لديك، وتقوم بالتحرير عبر محادثات متعددة الأدوار. القيود الحالية (إخراج الفيديو فقط، عدم وجود واجهة برمجة تطبيقات عامة بعد) ستزول في الأسابيع القادمة.

خمسة أشياء يجب عليك فعلها هذا الأسبوع إذا كنت تبني نماذج فيديو:

  1. راقب لوحة تحكم Google AI Studio بحثًا عن نقطة نهاية Omni Flash.
  2. قم بإعداد المصادقة ومتغيرات البيئة الخاصة بك في Apidog الآن حتى تتمكن من تبديل النماذج دون تغييرات في الكود لاحقًا.
  3. قم بمحاكاة شكل طلب Omni المتوقع وتحقق من تكامل عميلك.
  4. قرر أين يوفر لك التوليد القائم على الاستدلال شيئًا يفوق Veo 3.1.
  5. خطط للتحقق من SynthID في خط أنابيب الثقة والسلامة الخاص بك.

عند شحن واجهة برمجة التطبيقات، ستكون الفرق التي قامت بالعمل التحضيري في الإنتاج في غضون ساعات. بينما سيكون الباقون يقرأون الوثائق.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات