نشرت مدونة Google للتو Gemini Omni، وهو نموذج جديد يربط حزمة استنتاجات الشركة بالإخراج التوليدي. يأخذ المتغير الأول، Gemini Omni Flash، النصوص أو الصور أو الصوت أو الفيديو كمدخل ويعطيك فيديو في المقابل. وهو متوفر بالفعل داخل تطبيق Gemini وGoogle Flow وYouTube Shorts وتطبيق YouTube Create، مع توفر واجهة برمجة التطبيقات للمطورين في الأسابيع القادمة.
إذا كنت تقوم بالبناء باستخدام Apidog، فقد قمت بالفعل بربط نماذج النصوص، ومولدات الصور مثل Nano Banana 2، ونماذج الفيديو مثل Veo 3.1. Gemini Omni هي نقطة النهاية التالية التي يجب التخطيط لها، والتصميم مختلف بشكل كبير عن أي شيء أطلقته Google من قبل. يشرح هذا المنشور ما يفعله Omni، وأين يتواجد اليوم، ومتى ستصل واجهة برمجة التطبيقات، وكيف يرتبط بـ Gemini 3 Pro، وكيفية إعداد مساحة عمل Apidog الخاصة بك بحيث يمكنك توصيله بمجرد توفر المفاتيح.
ملخص سريع
Gemini Omni هي عائلة نماذج Google الجديدة التي تجمع بين قدرة Gemini على الاستدلال والتوليد الأصلي متعدد الوسائط. الإصدار الأول، Gemini Omni Flash، يقبل مدخلات نصية وصورية وصوتية ومرئية وينتج مخرجات فيديو، مع التخطيط لإخراج الصور والصوت. وهو متوفر الآن في تطبيق Gemini وGoogle Flow لمشتركي AI Plus وPro وUltra، ومجانًا في YouTube Shorts وYouTube Create، مع إطلاق واجهات برمجة التطبيقات للمطورين والمؤسسات في الأسابيع القادمة.
ما هو Gemini Omni
Gemini Omni هو نوع مختلف من النماذج التوليدية. معظم مولدات الفيديو تأخذ توجيهًا (prompt) وتنتج إطارات. أما Omni فيستدل على التوجيه بالطريقة التي يفعلها نموذج اللغة، ثم يولد الناتج. يصف فريق Google DeepMind بقيادة كوراي كافوكوكوغلو Omni بأنه نموذج يفكر فيما يجب أن يحدث بعد ذلك باستخدام معرفة Gemini بالعالم بالإضافة إلى فهم بديهي للفيزياء مثل الجاذبية والطاقة الحركية وديناميات السوائل.
فكر في الأمر بهذه الطريقة. Veo 3 ممتاز في إنتاج حركة تبدو حقيقية. Omni مصمم بحيث تتصرف الحركة أيضًا بالطريقة التي يتصرف بها العالم. إذا طلبت من Omni أن يظهر كرة ترتد من درج، فإنه لا يقوم بتحريك الإطارات بشكل أعمى. بل يستدل على فقدان الزخم في كل خطوة، ثم يرسم كيف يجب أن يبدو ذلك. هذه هي الفجوة التي تبيعها Google: التوليد المدفوع بالاستدلال، وليس استيفاء الإطارات.
التسمية تتبع نمط Google. Gemini 3 Pro للمهام الثقيلة، Gemini 3 Flash للسرعة والتكلفة. Gemini Omni Flash يندرج في نفس فئة Flash، مما يعني زمن استجابة منخفض، وتوفر واسع، ونقطة سعر ستعكس على الأرجح عائلة Gemini 3 Flash بمجرد إطلاق واجهة برمجة التطبيقات. من المرجح أن تكون هناك متغيرات Omni أكبر على خارطة الطريق. لم تعلن Google عنها.
تفصل بعض السمات المميزة Omni عن أعمال Google الفيديو السابقة:
- المدخلات متعددة الوسائط أصلية. يمكنك أن تعطي Omni صورة ثابتة ومقطعًا صوتيًا وتطلب فيديو مدته 6 ثوانٍ يتحدث فيه الموضوع في الصورة كلمات المقطع. لا تتطلب مرحلة مزامنة شفاه خارجية.
- مزج المراجع. أسقط لقطتين مرجعيتين، مواصفات لون علامة تجارية، ونصًا. Omni يحافظ على كل ذلك متناسقًا عبر المقطع الذي تم إنشاؤه وعبر التعديلات اللاحقة.
- التحرير متعدد الأدوار. اطلب من Omni مقطعًا، ثم قل "اجعل الخلفية أكثر ثلجية" أو "استبدل القطة بالثعلب". يحافظ على الأجزاء التي لم تذكرها سليمة. هذا أصعب مما يبدو. معظم نماذج الفيديو الحالية تتجاهل التماسك السابق في كل إعادة توليد.
كيف يختلف عن Veo 3 وGemini 3 Pro
إذا كنت قد أطلقت تطبيقات باستخدام إصدارات Google النموذجية الأخيرة، فإن العائلة الآن ذات ثلاثة رؤوس:
| النموذج | ما هو مخصص له | الإدخال | الإخراج | الاستدلال |
|---|---|---|---|---|
| Gemini 3 Pro | النصوص الثقيلة + الاستدلال متعدد الوسائط | نص، صورة، صوت، فيديو، كود | نص، كود | قوي (يتوفر Deep Think) |
| Veo 3.1 | توليد الفيديو الخالص | نص، صورة | فيديو | محدود؛ يعتمد على التوجيه |
| Gemini Omni Flash | الاستدلال + التوليد الإبداعي | نص، صورة، صوت، فيديو | فيديو (صورة/صوت قادم) | أصلي، مطبق على التوليد |
لا يزال Veo 3 يتفوق في فيديو اللقطة الواحدة بأعلى دقة. وقد غطينا ذلك بالتفصيل في دليل واجهة برمجة تطبيقات Veo 3 وتغطية إصدار Veo 3.1. ما يضيفه Omni هو حلقة الاستدلال. يمكن إخبار النموذج "ابنِ لي فيديو إرشادي للمنتج مدته 30 ثانية حيث تتبع الكاميرا فتح علبة الهاتف وتتفاعل مع التعليق الصوتي للمستخدم"، وسيقوم بتخطيط اللقطات قبل توليدها.
يمكنك أيضًا تزويد Omni بتعديلات وسيطة بلغة عادية. مع Veo، تقوم بإعادة التوجيه وإعادة التوليد. مع Omni، يمكنك متابعة المحادثة. لهذا السبب، تصف Google المنتج بأنه "متعاون إبداعي" بدلاً من كونه مولدًا.
بالنسبة للعمل النصي الخالص، لا يزال Gemini 3 Pro هو الخيار الصحيح. أما بالنسبة للفيديو الخالص حيث تعرف بالضبط ما تريده، فلا يزال Veo 3.1 أرخص وأسرع. Omni مخصص للحالة التي تتطلب فيها الموجهات تفسيرًا ويحتاج الإخراج إلى التفاعل مع السياق.
ما يمكنك بناؤه به اليوم
Omni Flash متاح حاليًا في أربعة أماكن:
- تطبيق Gemini. أنشئ مقاطع فيديو تفاعلية، وقم بتحسينها من خلال جولات متابعة.
- Google Flow. سطح عمل Google لصناعة الأفلام لربط لقطات متعددة في تسلسل.
- YouTube Shorts. مجاني لأي منشئ محتوى على المنصة.
- تطبيق YouTube Create. توليد مجاني، يأتي أولاً للهواتف المحمولة.
بالنسبة للخطط المدفوعة، يتم تضمين الوصول إلى Omni في اشتراكات Google AI Plus وPro وUltra. يحصل منشئو المحتوى المجانيون عليه مباشرة عبر YouTube. هذه خطوة توزيع ملحوظة. تضع Google النموذج أمام ملايين منشئي المحتوى القصير قبل حتى شحن واجهة برمجة تطبيقات المطورين.
يحمل كل فيديو ينتجه Omni علامة مائية SynthID. يمكنك التحقق من المصدر عبر تطبيق Gemini، أو Gemini في Chrome، أو بحث Google. إذا كنت تبني أي شيء يهم فيه مصدر المحتوى (مراجعة الامتثال، سلامة العلامة التجارية، التحقق من الأخبار)، فهذه أداة أساسية مفيدة. SynthID غير مرئي للمشاهدين ولكنه قابل للقراءة بواسطة كاشفات Google.
هناك أيضًا ميزة تسمى "Avatars" (الصور الرمزية). يمكنك بناء نسخة رقمية منك بصوتك الخاص، ثم إنشاء مقاطع فيديو تتحدث فيها تلك الصورة الرمزية سطورًا جديدة. تعمل نفس البنية الأساسية للشخصيات ذات العلامات التجارية. لم تكشف Google كيف سيبدو تدفق الموافقة والتحقق لطبقة واجهة برمجة التطبيقات، ولكن الإصدار الاستهلاكي يتطلب إعداد صوت صريح قبل أن تتمكن أي صورة رمزية من استخدام صورتك.
فكرة الاستدلال بالإضافة إلى التوليد، بعبارات بسيطة
لماذا تعتبر "الاستدلال + التوليد" مهمة؟ لنأخذ مثالاً ملموسًا.
الموجه: "أرني كوب ماء ينقلب من حافة طاولة ويهبط على أرضية خشبية."
نموذج توليدي محض يقوم باستيفاء إطارات تبدو وكأنها كوب ينقلب. نموذج استدلال يجيب أولاً على سلسلة من الأسئلة الداخلية. ما مدى سرعة انقلاب كوب نصف ممتلئ عندما يعبر مركز كتلته الحافة؟ هل يغادر الماء الكوب قبل أو بعد اصطدام الحافة بالأرض؟ هل ينكسر الكوب أم يرتد؟ ما الصوت الذي يصدره؟ ثم يولد إطارات تتفق مع تلك الإجابات.
هذا ما تعنيه Google بـ "الفهم البديهي للفيزياء". لا يقوم Omni بتشغيل محاكاة فيزيائية تحت الغطاء. لقد تم تدريبه على التنبؤ بالنتائج بالطريقة التي يتنبأ بها شخص ذو حدس فيزيائي، وهذا التنبؤ يوجه التوليد.
ستلاحظ هذا بشكل أكبر في ثلاثة أماكن:
- المسار. الأجسام المتساقطة تتبع الجاذبية بدلاً من أن تطفو.
- سلوك المواد. القماش ينطوي، الماء يتناثر، الدخان يرتفع بطرق تبدو صحيحة.
- التلامس. عندما يتصادم جسمان، فإن الاستجابة (الارتداد، الالتصاق، التشوه) تتطابق مع التوقعات.
ومع ذلك، فإن Omni ليس محرك فيزياء. لا يزال يخلط الحركة في اللقطات الطويلة، وينتهك أحيانًا ديمومة الكائن عند التسليم، ولن يحل محل مسار عمل VFX مناسب. الحد الذي يبلغه هو "يبدو معقولاً دون الحاجة إلى هندسة كل التفاصيل في الموجه".
أين يعمل Gemini Omni Flash الآن
نظرة سريعة على مستويات الوصول عند الإطلاق:
| السطح | التكلفة | الوصول |
|---|---|---|
| YouTube Shorts | مجاني | أي منشئ محتوى |
| تطبيق YouTube Create | مجاني | منشئو المحتوى على الجوال |
| تطبيق Gemini | مدفوع | AI Plus / Pro / Ultra |
| Google Flow | مدفوع | AI Plus / Pro / Ultra |
| واجهة برمجة تطبيقات المطورين | سيتم الإعلان عنها | في الأسابيع القادمة |
| واجهة برمجة تطبيقات المؤسسات | سيتم الإعلان عنها | في الأسابيع القادمة |
واجهة برمجة تطبيقات المطورين هي ما يهتم به معظم قراء هذه المدونة. لم تلتزم Google بتاريخ محدد يتجاوز "في الأسابيع القادمة". توقع نقاط نهاية في Google AI Studio وVertex AI أولاً، باتباع نمط طرح Gemini 3.
أثناء انتظارك، قم بإعداد مساحة عمل واجهة برمجة التطبيقات الخاصة بك. قم بتنزيل Apidog، واستورد مخطط Gemini API الموجود الذي تستخدمه لـ Gemini 3 Pro أو Veo 3، وستكون جاهزًا لإضافة نقطة نهاية Omni بمجرد إصدار مواصفات OpenAPI. يتعامل استيراد Apidog مع المصادقة ومتغيرات البيئة والاستجابات الوهمية، بحيث يمكنك بناء استجابات توليد الفيديو الوهمية قبل وجود نقطة النهاية الحية.
الوصول إلى واجهة برمجة التطبيقات للمطورين: ما نعرفه
إليك كل ما أكدته Google بخصوص وصول المطورين حتى الآن:
- طبقة واجهة برمجة التطبيقات. سيتم إطلاق Gemini Omni Flash أولاً. لم يتم الإعلان عن متغيرات Omni الأكبر.
- نقاط النهاية. على الأرجح Google AI Studio (للتجربة الأولية) وVertex AI (للإنتاج). اتبعت عائلة Gemini 3 هذا المسار.
- أنماط الإدخال عند الإطلاق. نص، صورة، صوت، فيديو.
- أنماط الإخراج عند الإطلاق. فيديو فقط. سيتم إطلاق إخراج الصور والصوت "في الوقت المناسب"، حسب صياغة Google.
- التسعير. غير مؤكد. عادة ما تكون أسعار طبقة Flash منخفضة؛ توقع فاتورة لكل ثانية من الإخراج مماثلة لـ Veo.
- حدود المعدل. غير مؤكدة.
- توفر المنطقة. غير مؤكد.
إذا كانت خطة عملك الحالية تعتمد على Veo 3.1 أو نموذج فيديو تابع لجهة خارجية، فإن مسار الترحيل مباشر من حيث المبدأ. نفس بنية التوجيه، مدخلات أغنى، مخرجات أغنى. التكاليف وزمن الاستجابة هي المجهول.
الرهان الأكثر أمانًا الآن هو تصميم تطبيقك لتبديل النماذج خلف واجهة داخلية واحدة. قم بتغليف Veo وOmni وأي بدائل مستقبلية خلف خدمة واحدة. اختبر التبديل باستخدام Apidog عن طريق محاكاة شكل نقطة النهاية الجديدة، والتحقق من صحة رمز العميل الخاص بك، وتبديل عنوان URL المباشر فقط بمجرد توفر Omni بشكل عام. لقد غطينا هذا النمط بالضبط في دليل واجهة برمجة تطبيقات تحويل النص إلى فيديو.
دفع نقاط نهاية Omni داخل Apidog
عندما يتم شحن واجهة برمجة تطبيقات Omni، ستحتاج مساحة عمل Apidog الخاصة بك إلى ثلاثة أشياء:
- إعداد المصادقة. سواء كانت Google توجه عبر AI Studio (`x-goog-api-key`) أو Vertex (OAuth + حساب الخدمة)، قم بتعيين كليهما في بيئات Apidog. قم بالتبديل بنقرة واحدة بدلاً من تعديل الرؤوس لكل طلب.
- تعريف المخطط. استورد مواصفات OpenAPI بمجرد أن تنشرها Google. إذا لم يفعلوا ذلك، ارسم المخطط في المصمم المرئي لـ Apidog باستخدام مواصفات Gemini 3 كخط أساس. نفس النهج عمل عندما تم إطلاق Gemini 3 قبل إصدار OpenAPI الرسمي.
- الاستجابات الوهمية. توليد الفيديو بطيء ومكلف. تُرجع المحاكاة الذكية لـ Apidog استجابات base64 أو عناوين URL موقعة مسبقًا حتى يمكن بناء واختبار عميل الواجهة الأمامية دون استهلاك حصة واجهة برمجة تطبيقات حقيقية.
من المرجح أن يبدو طلب Omni النموذجي بهذا الشكل الخام:
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(هذا الشكل هو توقع من واجهة برمجة تطبيقات Gemini 3 متعددة الوسائط الحالية. قد تقوم Google بتغيير أسماء الحقول.)
ضع ذلك في Apidog كطلب، واحفظه ضمن مجموعة Gemini الخاصة بك، وستحصل على اختبار قابل لإعادة التشغيل يمكنك مشاركته مع الفريق. أضف تأكيدات مرئية على رمز الاستجابة وحجم الحمولة ووجود علامة SynthID المائية. عندما يتم تشغيل نقطة النهاية الحقيقية، تحتاج فقط إلى تحديث عنوان URL.
كيف يتفوق Omni على Sora 2 وVeo 3.1 وNano Banana 2
تعتبر تشكيلة نماذج الفيديو لعام 2026 قوية، لذا فإن المقارنة العادلة مهمة قبل الالتزام:
| النموذج | المورد | الاستدلال | إدخال متعدد الوسائط | قابل للتحرير | علامة مائية |
|---|---|---|---|---|---|
| Gemini Omni Flash | جوجل | أصلي | نص، صورة، صوت، فيديو | متعدد الأدوار | SynthID |
| Veo 3.1 | جوجل | محدود | نص، صورة | إعادة توجيه فقط | SynthID |
| Sora 2 | OpenAI | بعض الشيء | نص، صورة | إعادة توجيه فقط | C2PA |
| Nano Banana 2 | جوجل | بعض الشيء | نص، صورة | محدود | SynthID |
يتفوق Veo 3.1 في جودة اللقطة السينمائية الواحدة. يمتلك Sora 2 أقوى محاكاة عالمية وفقًا لوضع OpenAI. وقد تناولناها بالتفصيل في تحليلنا العميق لـ Sora 2. تتمثل المزايا المميزة لـ Omni في الاستدلال، والتحرير متعدد الأدوار، والإدخال الصوتي مع الإخراج المرئي دون مرحلة منفصلة.
إذا كنت تختار نموذجًا لسير عمل الإنتاج اليوم، فإن Veo 3.1 بالإضافة إلى طبقة المحاكاة من Apidog هي الرهان الأكثر استقرارًا. أما إذا كنت تجري تجربة حيث يصف المستخدمون التعديلات بلغة عادية ويتوقعون من النموذج مواكبة ذلك، فإن Omni هو المكان الذي يجب أن تستثمر فيه وقت الاختبار بمجرد إطلاق واجهة برمجة التطبيقات. المقارنة الكاملة موجودة في مواجهة نماذج الفيديو الخاصة بنا.
حالات الاستخدام في العالم الحقيقي
بعض الأنماط التي يمكن توقعها مبكرًا:
- فرق تسويق المنتجات. إنشاء عروض تقديمية للمنتجات مترجمة من نص إنجليزي واحد بالإضافة إلى صورة مرجعية. التكرار مع قائد التسويق من خلال الدردشة مع النموذج.
- المعلمون. شرح مفهوم فيزيائي بطلب من Omni عرضه. خطوة الاستدلال مهمة هنا. تريد أن يكون العرض دقيقًا من الناحية الفيزيائية، وليس نظيفًا بصريًا وخاطئًا فيزيائيًا.
- نجاح العملاء. إنشاء مقاطع فيديو قصيرة للتأهيل مدفوعة بالصور الرمزية ومخصصة لكل عميل. ميزة Avatars هي المفتاح.
- التحقق من الأخبار والمحتوى. تضمين اكتشاف SynthID في خط أنابيب الاعتدال الخاص بك لوضع علامة على المواد التي تم إنشاؤها بواسطة Omni. هذا مهم بشكل خاص لفرق الثقة والسلامة.
- نماذج الألعاب والتطبيقات. حجب التسلسلات السينمائية قبل أن يشارك أي فنان ثلاثي الأبعاد.
أفضل الممارسات والأخطاء الشائعة
إذا كنت تستعد لإطلاق واجهة برمجة تطبيقات Omni، فإن مجموعة من الخيارات ستوفر لك وقتًا حقيقيًا:
- لا تقم بتضمين اسم النموذج بشكل ثابت. ضعه في متغير بيئة. تتغير أسماء نماذج Gemini بين المعاينات والتوافر العام.
- ابدأ بالمحاكاة أولاً. يعد توليد الفيديو أغلى استدعاء في حزمتك. استخدم محاكاة Apidog لبناء واجهة المستخدم واختبار مسارات خطأ العميل قبل ربط نقطة النهاية الحية.
- قم بتخزين الإخراج بشكل مكثف. يجب أن يؤدي نفس التوجيه + نفس المدخلات المرجعية إلى استخدام ذاكرة التخزين المؤقت. تكلف خطوة استدلال Omni أكثر من Veo؛ لا تريد أن تدفع ثمنها مرة أخرى.
- احترس من أخطاء سياسة المحتوى. تحظر مرشحات أمان Google التوليد الذي يتضمن أشخاصًا حقيقيين وشخصيات محمية بحقوق الطبع والنشر وقائمة طويلة من الفئات الحساسة. قم ببناء منطق إعادة المحاولة مع التراجع، وليس صفحات الأخطاء.
- خطط للتحقق من SynthID. إذا قمت بإعادة نشر إخراج Omni، فقرر ما إذا كنت ستعرض مصدر العلامة المائية للمستخدمين النهائيين. بدأت فرق الامتثال في السؤال عن ذلك.
- خصص ميزانية لزمن الاستجابة. توليد الفيديو ليس فوريًا. يمكن أن تستغرق المقاطع التي مدتها ست ثوانٍ أكثر من 30 ثانية من البداية إلى النهاية. تعامل مع الاستدعاء بشكل غير متزامن؛ لا تحظر سلسلة التعليمات الرئيسية الخاصة بك.
خطأ شائع يجب تجنبه: لا تتوقع أن يحل Omni محل خط أنابيب التحرير الخاص بك. إنه نموذج توليدي، وليس محررًا غير خطي. لا يزال يتعين عليك إجراء مراجعة نهائية في DaVinci أو Premiere أو Google Flow للقصص والألوان ومزج الصوت.
الأسئلة المتكررة
ما هو Gemini Omni؟
Gemini Omni هي عائلة نماذج Google الجديدة التي تجمع بين استدلال Gemini والتوليد الأصلي متعدد الوسائط. المتغير الأول، Gemini Omni Flash، يقبل النصوص والصور والصوت والفيديو كمدخل وينتج فيديو كمخرج.
هل Gemini Omni هو نفسه Veo 3؟
لا. Veo هو نموذج مخصص لتوليد الفيديو بقدرة استدلال محدودة. Omni هو نموذج استدلال يقوم بتوليد الفيديو؛ يمكنه تفسير التوجيهات المعقدة، والتحرير عبر الأدوار المتعددة، وقبول أنواع مدخلات أغنى. انظر إلى دليل واجهة برمجة تطبيقات Veo 3 الخاص بنا لمعرفة الاختلافات العملية.
متى سيتم إطلاق واجهة برمجة تطبيقات Gemini Omni؟
تقول Google "في الأسابيع القادمة" اعتبارًا من إعلان مايو 2026. سيتم إطلاق واجهات برمجة التطبيقات للمطورين والمؤسسات معًا. لا يوجد تاريخ محدد.
كم تكلفة Gemini Omni؟
بالنسبة للمستهلكين، فهو مجاني في YouTube Shorts وYouTube Create، ويُدرج في اشتراكات Google AI Plus وPro وUltra. لم يتم الإعلان عن تسعير واجهة برمجة التطبيقات. عادة ما تحمل طبقة Flash أدنى سعر لكل استدعاء لدى Google.
هل يمكن لـ Gemini Omni توليد الصوت؟
ليس بعد. الإخراج هو فيديو فقط عند الإطلاق. إخراج الصوت والصور مدرج في خارطة الطريق ولكن بدون تاريخ.
هل لدى Gemini Omni علامة مائية؟
نعم. تحمل جميع مقاطع الفيديو التي تم إنشاؤها بواسطة Omni علامة SynthID المائية، والتي يمكن التحقق منها عبر تطبيق Gemini، وGemini في Chrome، وبحث Google. العلامة المائية غير مرئية للمشاهدين ولكنها قابلة للقراءة بواسطة كاشفات Google.
هل ستدعم Apidog واجهة برمجة تطبيقات Gemini Omni؟
نعم، بنفس الطريقة التي تدعم بها Apidog نقاط نهاية Gemini 3 وVeo 3 وNano Banana اليوم. في اللحظة التي تنشر فيها Google مواصفات OpenAPI لـ Omni، يمكنك استيرادها مباشرة. في غضون ذلك، ارسم المخطط، قم بمحاكاة الاستجابات، واجعل كود العميل الخاص بك جاهزًا.
كيف يتعامل Gemini Omni مع الفيزياء؟
لقد تم تدريب النموذج على التنبؤ بالنتائج بالطريقة التي يتنبأ بها شخص ذو حدس فيزيائي، ثم توليد إطارات تتفق مع هذا التنبؤ. إنه لا يدير محاكاة فيزيائية، ولكنه يتعامل بشكل صحيح مع الجاذبية وديناميكيات السوائل وسلوك التصادم في كثير من الأحيان أكثر من النماذج التوليدية الخالصة.
خاتمة
Gemini Omni هو النموذج الأكثر إثارة للاهتمام الذي أصدرته Google هذا الربع. إنه أكثر من مجرد Veo أسرع. إنه بنية مختلفة تستدل قبل أن تولد، وتقبل أي مدخلات لديك، وتقوم بالتحرير عبر محادثات متعددة الأدوار. القيود الحالية (إخراج الفيديو فقط، عدم وجود واجهة برمجة تطبيقات عامة بعد) ستزول في الأسابيع القادمة.
خمسة أشياء يجب عليك فعلها هذا الأسبوع إذا كنت تبني نماذج فيديو:
- راقب لوحة تحكم Google AI Studio بحثًا عن نقطة نهاية Omni Flash.
- قم بإعداد المصادقة ومتغيرات البيئة الخاصة بك في Apidog الآن حتى تتمكن من تبديل النماذج دون تغييرات في الكود لاحقًا.
- قم بمحاكاة شكل طلب Omni المتوقع وتحقق من تكامل عميلك.
- قرر أين يوفر لك التوليد القائم على الاستدلال شيئًا يفوق Veo 3.1.
- خطط للتحقق من SynthID في خط أنابيب الثقة والسلامة الخاص بك.
عند شحن واجهة برمجة التطبيقات، ستكون الفرق التي قامت بالعمل التحضيري في الإنتاج في غضون ساعات. بينما سيكون الباقون يقرأون الوثائق.
