أطلقت جوجل Gemini 3.5 Flash في 19 مايو 2026، وجاء ادعاء التسعير الرئيسي جريئًا: "أقل من نصف تكلفة النماذج الرائدة الأخرى" للمهام الوكيلية. هذا هو الخط التسويقي. هذا الدليل يقوم بالحسابات الفعلية.
ستجد هنا أسعار كل رمز (token)، وحدود الطبقة المجانية، وخصم وضع الدفعات (batch mode)، وسيناريوهات التكلفة الواقعية لأعباء العمل الشائعة، ومقارنة تكلفة جنبًا إلى جنب مع GPT-5.5 و Claude Opus 4.7. بحلول النهاية، ستعرف بالضبط تكلفة تشغيل Flash، وأين يمكنك توفير 50% أو أكثر دون التضحية بالكثير.

ملخص سريع
| نوع التكلفة | المعدل |
|---|---|
| إدخال قياسي | ~1.50 دولار / 1 مليون رمز |
| إخراج قياسي | ~9.00 دولار / 1 مليون رمز |
| إدخال وضع الدفعات | ~0.75 دولار / 1 مليون رمز (~خصم 50%) |
| إخراج وضع الدفعات | ~4.50 دولار / 1 مليون رمز (~خصم 50%) |
| إدخال مخزن مؤقتًا | معدل مخفض (يختلف) |
| الطبقة المجانية (AI Studio) | ~1,500 طلب/يوم، 1 مليون رمز/دقيقة، 15 طلب/دقيقة |
| حساب Vertex AI جديد | رصيد 300 دولار على مدى 90 يومًا |
الأسعار الحالية اعتبارًا من مايو 2026 وفقًا لإعلان إطلاق Google وقوائم المجمّعين. تحقق دائمًا من صفحة الأسعار الرسمية قبل تخصيص الميزانية.
أسعار Gemini 3.5 Flash لكل رمز (token)
يستخدم Flash نفس نموذج الدفع حسب الاستخدام الذي استخدمه كل إصدار من Gemini منذ 2.5: تدفع لكل مليون رمز إدخال (input token) ولكل مليون رمز إخراج (output token) بشكل مستقل.
| المستوى | الإدخال ($/1 مليون) | الإخراج ($/1 مليون) |
|---|---|---|
| قياسي | ~1.50 دولار | ~9.00 دولار |
| إدخال مخزن مؤقتًا | مخفض | غير متاح |
| دفعة (غير متزامن) | ~0.75 دولار | ~4.50 دولار |
ملاحظتان عمليتان:
- الرموز (Tokens) ليست كلمات. قاعدة تقريبية: 1,000 رمز ≈ 750 كلمة إنجليزية. رواية مكونة من 100,000 كلمة تحتوي على حوالي 133 ألف رمز إدخال.
- الإخراج أغلى بحوالي 6 أضعاف من الإدخال. المطالبات التي تستدعي إجابات طويلة تكلف أكثر بكثير من المطالبات التي تحصل على إجابات قصيرة. عادةً ما توفر مخططات الإخراج المهيكلة المال مقارنة بالنثر الحر لأن النموذج يكتب أقل.
للاطلاع على خلفية حول كيفية عمل وضع الدفعات في Gemini، راجع وضع الدفعات في Gemini API متوفر الآن وأرخص بنسبة 50%.
الطبقة المجانية: ما تحصل عليه دون دفع
تتوفر الطبقة المجانية من AI Studio مع Flash منذ اليوم الأول. القيود عند الإطلاق:
- 1,500 طلب في اليوم
- 1 مليون رمز في الدقيقة
- 15 طلب في الدقيقة
هذا يكفي لمعظم المشاريع الجانبية، والنماذج الأولية الداخلية، والأتمتة صغيرة النطاق. إذا كانت أعباء عملك تتناسب مع 1,500 مكالمة/يوم، فإنك لا تدفع شيئًا.
تفاصيل الطبقة المجانية:
- لا تتطلب بطاقة ائتمان
- نفس نموذج
gemini-3.5-flashكنقطة النهاية المدفوعة - نفس نمط SDK، فقط مفتاح مختلف
- يمكن استخدام المطالبات لتحسين نماذج Google (إلغاء الاشتراك في إعدادات AI Studio)
- قد تتغير الحصص؛ لا تعتمد على الأرقام الدقيقة لموعد الإطلاق
للاطلاع على دليل الإعداد الكامل، راجع كيفية استخدام Gemini 3.5 Flash مجانًا و كيفية الحصول على مفتاح Gemini API من Google مجانًا.
وضع الدفعات: خصم 50% الذي يغفله معظم الفرق
إذا لم تتطلب أعباء عملك استجابات في الوقت الفعلي، فإن وضع الدفعات يقلل تكاليف Flash إلى النصف تقريبًا.
كيف يعمل:
- أرسل مهمة دفعة واحدة تضم ما يصل إلى 50,000 مطالبة دفعة واحدة
- تعالجها Google في غضون 24 ساعة
- تدفع حوالي 50% أقل لكل رمز، سواء للإدخال أو الإخراج
متى يكون وضع الدفعات منطقيًا:
- تحليل المستندات بالجملة (مراجعة قانونية، فرز تذاكر الدعم، الإشراف على المحتوى)
- إنشاء المحتوى ليلاً للوحات تحكم SaaS
- الحساب المسبق على غرار التضمين (embedding-style)
- مهام الترحيل حيث تقوم بإعادة معالجة البيانات التاريخية
متى لا يكون كذلك:
- واجهات مستخدم الدردشة (المستخدمون لن ينتظروا 24 ساعة)
- حلقات الوكيل المباشر مع تفاعل المستخدم
- أي شيء يواجه المستخدم في الوقت الفعلي
يجب أن تعمل معظم مكدسات الإنتاج في وضع الدفعات لأي عبء عمل يمكنه تحمل زمن الوصول. تتضاعف المدخرات بسرعة على نطاق واسع. تفاصيل الإعداد في دليل وضع الدفعات الخاص بنا.
الإدخال المخزن مؤقتًا: أداة أخرى
إذا كانت مطالباتك (prompts) تشترك في بادئة ثابتة طويلة (مطالبة نظام، مستند مرجعي كبير، تعليمات طويلة)، فإن التخزين المؤقت للسياق (context caching) يمنحك خصمًا على الجزء المخزن مؤقتًا.
النمط:
- تخزين مستند مرجعي بحجم 100 ألف رمز مؤقتًا مرة واحدة
- إعادة استخدامه عبر آلاف الاستعلامات
- ادفع السعر الكامل فقط على السؤال الجديد، وليس على البادئة المخزنة مؤقتًا
تعتمد المدخرات الفعلية على معدل نجاح التخزين المؤقت، ولكن لتطبيقات نمط RAG حيث تعود نفس الأجزاء المسترجعة عبر الاستعلامات، توقع تخفيضًا في تكلفة الإدخال بنسبة 30-60%.
سيناريوهات التكلفة الواقعية
تصبح حسابات الرموز (tokens) مجردة بسرعة. إليك خمسة سيناريوهات واقعية بالأسعار القياسية لـ Flash.
السيناريو الأول: روبوت دردشة دعم العملاء
- 10,000 رسالة مستخدم يوميًا
- متوسط 200 رمز إدخال (رسالة مستخدم + مطالبة نظام)
- متوسط 400 رمز إخراج (استجابة)
التكلفة اليومية:
- الإدخال: 10,000 × 200 × (1.50 دولار / 1 مليون) = 3.00 دولارات/يوم
- الإخراج: 10,000 × 400 × (9.00 دولارات / 1 مليون) = 36.00 دولارًا/يوم
- الإجمالي: ~39 دولارًا/يوم، ~1,170 دولارًا/شهر
شغّل نفس عبء العمل من خلال وضع الدفعات (إذا كنت تستطيع تحمل الاستجابات المجمعة): ~585 دولارًا/شهريًا. أضف التخزين المؤقت للسياق لمطالبة النظام: خصم إضافي بنسبة 20-30%.
السيناريو الثاني: خدمة SaaS للأسئلة والأجوبة للمستندات
- 1,000 مستند يتم تحليلها يوميًا
- متوسط حجم كل مستند 30 ألف رمز (ملف PDF طويل)
- كل سؤال وجواب يعيد 500 رمز إخراج
التكلفة اليومية:
- الإدخال: 1,000 × 30,000 × (1.50 دولار / 1 مليون) = 45.00 دولارًا/يوم
- الإخراج: 1,000 × 500 × (9.00 دولارات / 1 مليون) = 4.50 دولارات/يوم
- الإجمالي: ~50 دولارًا/يوم، ~1,500 دولار/شهر
هنا يبرز سياق Flash الذي يبلغ 1 مليون: لا توجد بنية تحتية لتقسيم المستندات، فقط أرسل المستند بأكمله. مقارنة بـ RAG المجزأ مع نموذج رائد، ستدفع أضعافًا أكثر في API بالإضافة إلى البنية التحتية.
السيناريو الثالث: وكيل مستقل طويل الأمد
- تشغيل وكيل واحد = ~50 دورة نموذج
- متوسط كل دورة 5 آلاف إدخال (سياق متزايد) و 1 ألف إخراج
- 200 عملية تشغيل يوميًا
تكلفة التشغيل الواحد:
- الإدخال: 50 × 5,000 × (1.50 دولار / 1 مليون) = 0.375 دولار
- الإخراج: 50 × 1,000 × (9.00 دولارات / 1 مليون) = 0.45 دولار
- لكل تشغيل: ~0.83 دولار
الإجمالي اليومي: 200 × 0.83 دولار = ~165 دولارًا/يوم، ~4,950 دولارًا/شهر
للمقارنة، نفس عبء العمل على Opus 4.7 (~15 دولارًا / 75 دولارًا لكل مليون) يكلف حوالي 25 دولارًا للتشغيل الواحد، أو 5,000 دولارًا في اليوم. هذه هي فجوة التكلفة الوكيلية التي تشير إليها جوجل.
السيناريو الرابع: خط أنابيب استخراج الرسوم البيانية
- 5,000 لقطة شاشة للوحة القيادة يوميًا
- إدخال كل صورة: ما يعادل ~1,500 رمز
- الإخراج: 300 رمز من JSON المهيكل
التكلفة اليومية:
- الإدخال: 5,000 × 1,500 × (1.50 دولار / 1 مليون) = 11.25 دولارًا/يوم
- الإخراج: 5,000 × 300 × (9.00 دولارات / 1 مليون) = 13.50 دولارًا/يوم
- الإجمالي: ~25 دولارًا/يوم، ~750 دولارًا/شهر
أضف وضع الدفعات وستعمل نفس عبء العمل بتكلفة ~375 دولارًا/شهريًا. يعني استدلال CharXiv بنسبة 84.2% أن الجودة لا تزال ثابتة.
السيناريو الخامس: إنشاء محتوى بكميات كبيرة
- 100,000 مقال قصير يتم إنشاؤه يوميًا
- 500 رمز إدخال، 2,000 رمز إخراج لكل منهم
التكلفة اليومية:
- الإدخال: 100,000 × 500 × (1.50 دولار / 1 مليون) = 75 دولارًا/يوم
- الإخراج: 100,000 × 2,000 × (9.00 دولارات / 1 مليون) = 1,800 دولار/يوم
- الإجمالي: ~1,875 دولارًا/يوم، ~56,250 دولارًا/شهر
انقل هذا إلى وضع الدفعات وسينخفض الفاتورة الشهرية إلى ~28 ألف دولار. على هذا النطاق، قد ترغب أيضًا في اختبار توجيه الأجزاء الروتينية إلى نماذج أرخص مثل 3.1 Flash-Lite وتخصيص Flash للمهام الأكثر صعوبة.
التكلفة مقارنة بـ GPT-5.5 و Opus 4.7
مقارنة الأسعار الرئيسية:
| النموذج | الإدخال ($/1 مليون) | الإخراج ($/1 مليون) | المضاعف مقارنة بـ Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~1.50 دولار | ~9.00 دولار | 1× (الأساس) |
| GPT-5.5 | ~10 دولارات | ~30 دولار | 6.7× إدخال، 3.3× إخراج |
| Claude Opus 4.7 | ~15 دولار | ~75 دولار | 10× إدخال، 8.3× إخراج |
شغّل السيناريو الأول (دردشة دعم العملاء) عبر كل منها:
- Flash: 39 دولارًا/يوم
- GPT-5.5: ~140 دولارًا/يوم (أكثر بـ 3.6 مرات)
- Opus 4.7: ~330 دولارًا/يوم (أكثر بـ 8.5 مرات)
هذه هي فجوة التكلفة الوكيلية التي تدفع خط تسويق Google. النماذج الرائدة تقدم جودة أفضل بشكل هامشي في أصعب المهام؛ أما بالنسبة لأعباء العمل اليومية، فإن Flash يكفي بجزء صغير من السعر.
لمزيد من التفاصيل، راجع تسعير GPT-5.5 ومقارنتنا ثلاثية الأبعاد.
التكلفة مقارنة بإصدارات Gemini الأخرى
| النموذج | الإدخال ($/1 مليون) | الإخراج ($/1 مليون) | متى يُستخدم |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0.40 دولار | ~2.00 دولار | العمل الروتيني بكميات كبيرة |
| Gemini 3 Flash | ~0.50 دولار | ~3.00 دولارات | الجيل السابق، لا يزال قويًا |
| Gemini 3.1 Pro | ~2.00 دولار | ~12.00 دولار | العمل الكثيف الاستدلال قبل 3.5 Pro |
| Gemini 3.5 Flash | ~1.50 دولار | ~9.00 دولار | الافتراضي الجديد لمعظم أعباء العمل |
| Gemini 3.5 Pro (يونيو 2026) | سيُحدد لاحقًا | سيُحدد لاحقًا | أصعب مهام الاستدلال |
Flash أغلى من أسلافه من فئة Flash 3.x ولكنه أرخص بشكل معقول من الفئة Pro السابقة. بالنسبة لمعظم الفرق، هذا هو التوازن الصحيح: أفضل من Flash 3.x، وأقل تكلفة من Pro 3.x.
بالنسبة لخط Gemini الأقدم، راجع 3.1 Flash-Lite، تسعير 3.0 API، و 3 Flash.
تسعير Vertex AI (للإنتاج)
إذا قمت باستدعاء Flash عبر Vertex AI بدلاً من AI Studio، فإن تسعير الرمز الواحد هو نفسه. تكمن الاختلافات في الفواتير وميزات الحساب:
- مصادقة حساب الخدمة بدلاً من مفاتيح API
- سجلات التدقيق في Cloud Logging
- ضوابط إقامة البيانات
- لا توجد طبقة مجانية، ولكن رصيد 300 دولار للحسابات الجديدة يغطي حوالي 90 يومًا من الاستخدام المعتدل
- حصص مخصصة يمكنك التفاوض عليها على نطاق واسع
بالنسبة لمعظم فرق الإنتاج، المسار هو: بناء نموذج أولي على الطبقة المجانية من AI Studio، ثم التبديل إلى AI Studio المدفوع للتوسع، ثم الانتقال إلى Vertex AI عندما تحتاج إلى ضوابط المؤسسات. سلوك النموذج متطابق عبر الثلاثة.
نصائح لتحسين التكلفة
ست عادات ملموسة تقلل فواتير Flash بشكل كبير:
- شغل وضع الدفعات لأي شيء لا يتطلب استجابة فورية. خصم 50%، ولا يوجد فقدان للجودة.
- تخزين البادئات الثابتة الطويلة مؤقتًا. مطالبات النظام، المستندات المرجعية، التعليمات، كلها مرشحات جيدة.
- استخدم مخرج JSON المهيكل. يجبر النموذج على الكتابة أقل، وهو أسرع وأرخص من النثر الحر.
- التوجيه حسب تعقيد المهمة. المهام السهلة إلى Flash-Lite؛ الصعبة إلى Flash؛ المهمة القاتلة النادرة إلى 3.5 Pro عند إطلاقه.
- التحقق المسبق من المدخلات. لا تستهلك الرموز على الطلبات المشوهة. يكتشف Apidog هذه الطلبات قبل وصولها إلى API.
- تتبع تكلفة كل مطالبة. أضف طبقة برمجية وسيطة للتسجيل تسجل رموز الإدخال/الإخراج لكل طلب. تتأتى تجاوزات التكلفة دائمًا تقريبًا من عدد قليل من المطالبات الشاذة.
لسير عمل التحقق من المطالبات، قم بتنزيل Apidog، وقم ببناء سيناريو اختبار لنقطة نهاية Gemini الخاصة بك، وأضف تأكيدات لشكل الاستجابة. استهلاك نفس الطلب المعطل 200 مرة في جلسة تصحيح الأخطاء هو كيف تهدر الفرق حصصها المجانية في فترة ما بعد الظهر واحدة.
عندما لا تكون الطبقة المجانية كافية
ثلاث إشارات للترقية من Flash المجاني إلى المدفوع:
- تصل إلى 1,500 طلب/يوم لعدة أيام متتالية. الدفع حسب الاستخدام رخيص بما يكفي لدرجة أن وقت التطوير الذي يتم إنفاقه في تجنب الحصص يكلف أكثر من الترقية.
- تحتاج إلى إنتاجية أعلى من الطلبات في الدقيقة (RPM). الطبقة المجانية تحدد بـ 15 طلبًا في الدقيقة؛ الطبقات المدفوعة تصل إلى مستويات أعلى بكثير.
- تحتاج إلى إقامة البيانات أو سجلات التدقيق. انتقل إلى Vertex AI على حساب مدفوع.
تجد معظم الفرق أن استخدام Flash المدفوع بتكلفة 50-200 دولار شهريًا يحل محل الكثير من التلاعب بالطبقة المجانية.
مخاطر التسعير وما يجب مراقبته
ثلاثة أمور قد تغير الحسابات:
- تشديد الحصص. قامت Google تاريخيًا بتضييق حصص الطبقة المجانية مع تقدم النماذج في العمر. لا تصمم حلولك بناءً على رقم 1,500/يوم بالضبط.
- تسعير إطلاق Pro. عندما يصل 3.5 Pro في يونيو، قد تتغير أسعار Flash صعودًا أو هبوطًا اعتمادًا على كيفية وضع Google للمستويات.
- رسوم إضافية حسب المنطقة. يختلف تسعير Vertex AI حسب المنطقة. منطقة وسط الولايات المتحدة هي المرجع الأرخص؛ توقع رسومًا إضافية بنسبة 10-20% في بعض المناطق.
قم بإعداد تنبيهات التكلفة من اليوم الأول. يدعم كل من AI Studio (في صفحة حصص المشروع) و Vertex AI (في Cloud Billing) حدود الميزانية اليومية. استخدمها.
خلاصة القول
إن Gemini 3.5 Flash رخيص بما يكفي لدرجة أن معظم أعباء عمل الذكاء الاصطناعي الإنتاجية في عام 2026 يجب أن تبدأ به. الأسعار القياسية (1.50 دولار / 9 دولارات لكل مليون رمز) تقل عن أي خيار آخر من فئة النماذج الرائدة. وضع الدفعات والتخزين المؤقت للسياق يدفعان التكلفة الفعلية إلى مستوى أدنى.
بالنسبة لأعباء العمل التي لا يكفي فيها Flash، فإن الخطوة الصحيحة هي مزج المستويات: Flash للكميات الكبيرة، ونموذج رائد مثل GPT-5.5 أو Opus 4.7 للمهام الأصعب. التوجيه حسب تعقيد المهمة هو أفضل تحسين للتكلفة يمكنك إجراؤه.
لتطبيق ذلك عمليًا:
- قم بتنزيل Apidog واحفظ نقطة نهاية Gemini 3.5 Flash كطلب
- قم ببناء تقييم صغير يقارن Flash بنموذجك الحالي على 20 مطالبة حقيقية
- سجل عدد الرموز؛ استنبط التكلفة الشهرية
- قرر أين يحل Flash محل نموذج أغلى وأين لا يفعل ذلك
هذا عمل ليومين عادة ما يعوض تكلفته في دورة فاتورة واحدة.
