ما هو GPT-Realtime-2 وكيفية استخدام واجهة برمجة التطبيقات GPT-Realtime-2

أصدرت OpenAI جيلًا جديدًا من النماذج الصوتية في 6 نوفمبر 2026، والإصدار الرئيسي هو GPT-Realtime-2: أول نموذج تحويل الكلام إلى كلام مزود بقدرة استدلال من فئة GPT-5، ونافذة سياق بحجم 128,000 رمز، ومستوى جهد استدلال قابل للتكوين يوازن بين زمن الاستجابة وجودة الإجابة. يعمل هذا النموذج على واجهة برمجة تطبيقات Realtime الحالية، لذا إذا كنت قد قمت بالفعل بتوصيل gpt-realtime، فإن الترحيل يتطلب تغيير سلسلة النموذج وبضعة حقول أدوات جديدة.

يغطي هذا الدليل ماهية GPT-Realtime-2، وما الذي تغير مقارنة بالنموذج السابق، وجدول التسعير الكامل، وكيفية استدعائه عبر WebSocket و SIP. كما نُضمّن إعدادًا عاملاً في Apidog حتى تتمكن من إعادة تشغيل جلسات Realtime دون الحاجة إلى إعادة تسجيل الصوت في كل مرة.

للاطلاع على سياق خط نماذج OpenAI الأوسع لعام 2026، راجع ما هو GPT-5.5. وللنسخة متعددة الوسائط، راجع كيفية استخدام واجهة برمجة تطبيقات GPT-Image-2.

ملخص

GPT-Realtime-2 هو نموذج OpenAI الرائد لتحويل الكلام إلى كلام بقدرة استدلال من فئة GPT-5، وسياق 128 ألف رمز، وحد أقصى للإخراج 32 ألف رمز.
تسعير الصوت هو 32 دولارًا لكل مليون رمز إدخال و 64 دولارًا لكل مليون رمز إخراج، مع إدخال مخزن مؤقتًا بسعر 0.40 دولار/مليون.
صوتان جديدان، Cedar و Marin، حصريان لواجهة برمجة تطبيقات Realtime؛ وحصلت الأصوات الثمانية الموجودة على تحديث في الجودة.
خمسة مستويات استدلال: minimal (أدنى)، low (منخفض)، medium (متوسط)، high (عالٍ)، xhigh (عالٍ جدًا). الافتراضي هو low لزمن الاستجابة.
الاتصال عبر WebSocket على wss://api.openai.com/v1/realtime?model=gpt-realtime-2، أو تلقي المكالمات الواردة عبر SIP.
إصدارات مرافقة: GPT-Realtime-Translate (ترجمة مباشرة، 70 لغة إدخال، 0.034 دولار/دقيقة) و GPT-Realtime-Whisper (تحويل الكلام إلى نص مباشر، 0.017 دولار/دقيقة).
استخدم Apidog لبرمجة جلسة WebSocket، والتقاط الإطارات، ومقارنة الأحداث الصوتية بين التشغيلات.

ما هو GPT-Realtime-2؟

GPT-Realtime-2 هو نموذج واحد لتحويل الكلام إلى كلام. تقوم ببث الصوت كإدخال، وبث الصوت كإخراج، ويتولى النموذج مهام النسخ، والاستدلال، واختيار الأدوات، وتوليد الصوت في عملية واحدة. لا توجد "خطوط أنابيب" لتحويل الكلام إلى نص ثم إلى نموذج لغة كبير ثم إلى تحويل النص إلى كلام؛ هذا النمط القديم هو ما حل محله gpt-realtime العام الماضي، وتعمل النسخة الثانية على صقل نفس الواجهة مع نواة استدلال أقوى.

يقبل النموذج النص والصوت والصور كمدخلات، ويُخرج النص والصوت كمخرجات. يُعد إدخال الصور هو النمط الجديد هنا: يمكنك إسقاط صورة أو لقطة شاشة في محادثة مباشرة وطلب من الوكيل وصف ما هو موجود على شاشة المستخدم، ثم متابعة التحدث. وهذا يجعل من الممكن بناء مساعدين صوتيين يرون ما يراه المستخدم، وهي فئة من الوكلاء لم يتمكن النموذج السابق من تشغيلها بشكل شامل.

المواصفات في لمحة:

الخاصية	القيمة
معرف النموذج	`gpt-realtime-2`
نافذة السياق	128,000 رمز
الحد الأقصى للإخراج	32,000 رمز
الوسائط (إدخال)	نص، صوت، صورة
الوسائط (إخراج)	نص، صوت
تاريخ قطع المعرفة	2024-09-30
مستويات الاستدلال	أدنى، منخفض، متوسط، عالٍ، عالٍ جدًا
استدعاء الوظائف	نعم
خوادم MCP عن بعد	نعم
إدخال الصور	نعم
الاتصال الهاتفي عبر SIP	نعم

ما الذي تغير مقارنة بـ gpt-realtime

مكاسب المقارنة حقيقية وليست تجميلية. مقارنة بـ gpt-realtime-1.5، يحقق نموذج v2:

Big Bench Audio (ذكاء الصوت): 81.4% ← 96.6%، قفزة بمقدار 15.2 نقطة.
Audio MultiChallenge (اتباع التعليمات): 34.7% ← 48.5%، قفزة بمقدار 13.8 نقطة.

تم تشغيل هذه النتائج بمستويات استدلال high و xhigh. الإعدادات الافتراضية للإنتاج هي low لزمن الاستجابة، لذا فإن الجودة اليومية تقع بين الطرفين. اكتسب النموذج أيضًا أربعة سلوكيات تستحق الإشارة إليها:

مقدمات (Preambles). يمكن للنموذج قول عبارات حشو قصيرة مثل "دعني أتحقق من ذلك" قبل إنتاج إجابة حقيقية، مما يخفي زمن استجابة الاستدلال عن المستخدم.
استدعاءات أدوات متوازية مع سرد صوتي. يمكن للنموذج إطلاق عدة استدعاءات وظيفية في وقت واحد وسرد التقدم أثناء حلها، بدلاً من الصمت لمدة ثانيتين.
تعافٍ أقوى. يتم التعامل مع المنعطفات الغامضة أو الفاشلة جزئيًا بلطف بدلاً من العودة إلى البداية.
التحكم في نبرة المجال. تظل المصطلحات المتخصصة متسقة عبر جلسة طويلة، ويتكيف النموذج مع طريقة التسليم (رسمي، غير رسمي، بطيء) عندما تطلب ذلك داخل الجلسة.

نموذج السياق نما من 32 ألف رمز إلى 128 ألف رمز، وهو التغيير الذي يتيح لك بناء جلسات صوتية طويلة؛ حالات الاستخدام المصرفية والدعم والتدريس هي المكاسب الواضحة.

التسعير

يتم احتساب تكلفة GPT-Realtime-2 لكل رمز، مع أسعار منفصلة لإدخال النص والصوت والصور.

نوع الرمز	الإدخال	الإدخال المخزن مؤقتًا	الإخراج
نص	$4.00 / 1M	$0.40 / 1M	$24.00 / 1M
صوت	$32.00 / 1M	$0.40 / 1M	$64.00 / 1M
صورة	$5.00 / 1M	$0.50 / 1M	غير متوفر

يقلل الإدخال المخزن مؤقتًا الفاتورة بمقدار 80x للسياق المتكرر، لذا يجب على أي وكيل لديه موجه نظام ثابت أو مستند معاد استخدامه أن يحافظ على دفء ذاكرة التخزين المؤقت. للمقارنة مع بقية خط OpenAI، راجع تسعير GPT-5.5.

تختلف أسعار النماذج المرافقة لأنها تُحسب بالدقيقة:

GPT-Realtime-Translate: 0.034 دولار للدقيقة. يتعامل مع 70 لغة إدخال و 13 لغة إخراج، مع معدل خطأ في الكلمات أقل بنسبة 12.5% من أي نموذج آخر تم اختباره في الهندية والتاميلية والتيلوغوية.
GPT-Realtime-Whisper: 0.017 دولار للدقيقة. تحويل الكلام إلى نص مباشر مصمم للتعليقات المباشرة والنسخ المستمر؛ أسرع من تشغيل Whisper دفعة واحدة على مخزن مؤقت متجدد.

اختر GPT-Realtime-2 عندما تحتاج إلى الاستدلال وتوليد الكلام معًا، و GPT-Realtime-Translate للترجمة الحية متعددة اللغات، و GPT-Realtime-Whisper عندما تحتاج إلى النسخ فقط.

نقاط النهاية والمصادقة

يتوفر GPT-Realtime-2 عبر عدة نقاط نهاية حسب ما تفعله:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

بالنسبة لوكلاء الصوت، فإن نقطة نهاية WebSocket هي التي تريدها. المصادقة هي نفس نمط رمز الحامل الذي تستخدمه OpenAI في كل مكان:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

قم بتعيين OPENAI_API_KEY مرة واحدة وأعد استخدامه.

export OPENAI_API_KEY="sk-proj-..."

الاتصال عبر WebSocket

يبدو عميل Node.js بسيطًا كالتالي:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

الجلسة تعتمد على الأحداث. ترسل إطارات input_audio_buffer.append بينما يتحدث المستخدم، ويُصدر الخادم أحداث response.audio.delta بينما يرد. PCM16 بتردد 24 كيلو هرتز هو الإعداد الافتراضي الآمن؛ كما يدعم G.711 mu-law و A-law، وهو ما يهم عند ربطها بأنظمة الهاتف.

بالنسبة لمكافئ Python، فإن حزمة تطوير البرمجيات openai >= 2.1.0 تُوفر عميل realtime بنفس أسماء الأحداث. إذا كنت ترغب في مقارنة واجهة Realtime بواجهة برمجة تطبيقات Responses، راجع كيفية استخدام واجهة برمجة تطبيقات GPT-5.5.

الأصوات

يتوفر صوتان جديدان مع هذا الإصدار:

Cedar: صوت ذكوري دافئ، متوسط النبرة. الإعداد الافتراضي للوكلاء العامين.
Marin: صوت أنثوي ساطع وواضح. جيد للترجمة والإعلانات.

كلاهما حصريان لواجهة برمجة تطبيقات Realtime. الأصوات الثمانية السابقة (alloy, ash, ballad, coral, echo, sage, shimmer, verse) لا تزال متاحة وتمت إعادة ضبطها لاستخدام مكدس الصوت الجديد للنموذج، لذا تبدو أقل روبوتية بشكل ملحوظ مما كانت عليه في الإصدار الأول.

غيّر الصوت في منتصف الجلسة عن طريق إرسال session.update آخر مع حقل voice الجديد. لا يوجد تأخير إضافي ناتج عن تبديل الصوت.

إدخال الصور

يمكنك إرفاق صورة بأي دور للمستخدم. يرى النموذج الصورة بالطريقة التي يرى بها GPT-4o vision صورة، باستثناء أنه يمكنك الآن طرح أسئلة متابعة بصوت عالٍ ويجيب بصوت عالٍ:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

الأنماط الشائعة التي نراها في إصدارات الإنتاج المبكرة:

ضمان الجودة المدفوع بالصوت. يوجه المختبر كاميرا الهاتف نحو واجهة مستخدم معطلة؛ يروي الوكيل ما يراه ويُملي تقرير الخطأ.
الدعم الميداني. يشارك الفني صورة للوحة أسلاك؛ يرشده الوكيل خلال التشخيص.
إمكانية الوصول. سرد مباشر على غرار قارئ الشاشة للشاشة الحالية للمستخدم أثناء مكالمة الدعم.

لإلقاء نظرة أعمق على مكدس صور OpenAI، راجع كيفية استخدام واجهة برمجة تطبيقات GPT-Image-2.

استدعاء الوظائف و MCP

يدعم GPT-Realtime-2 كلاً من أدوات الوظائف القياسية وخوادم MCP عن بعد في نفس الجلسة.

يعمل استدعاء الوظائف القياسي مثل Chat Completions: تُعلن عن الأدوات في إعدادات الجلسة، ويُصدر النموذج حدث response.function_call_arguments.delta، ثم تقوم بالتنفيذ، وترد بـ conversation.item.create من نوع function_call_output. السلوك الجديد هو الاستدعاءات المتوازية؛ يمكن للنموذج إطلاق اثنين أو ثلاثة في وقت واحد وسرد "التحقق من رصيدك وآخر ثلاث معاملات" بينما يتم حلها.

تُعد خوادم MCP عن بعد هي التغيير الأكبر. قم بتكوين عنوان URL لـ MCP وقائمة بيضاء من الأدوات في الجلسة، وتقوم واجهة برمجة تطبيقات Realtime نفسها بتنفيذ الاستدعاءات؛ لا يحتاج الرمز الخاص بك أبدًا إلى المرور عبر حلقة أحداث استدعاء الوظائف. وهذا يحافظ على استجابة وكلاء الصوت عندما يسحبون من كتالوج أدوات بخمسين نقطة نهاية بدلاً من خمسة.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

إذا كنت تختبر خوادم MCP قبل ربطها بوكيل صوتي، فإن دليل اختبار خادم MCP في Apidog يغطي إعداد إعادة تشغيل الطلب الذي نستخدمه داخليًا.

الاتصال الهاتفي عبر SIP

يمكن لوكلاء الصوت في الوقت الفعلي استقبال مكالمات هاتفية حقيقية. وجه خط SIP الخاص بك إلى بوابة SIP الخاصة بـ OpenAI، وستفتح المكالمات الواردة جلسة WebSocket على wss://api.openai.com/v1/realtime?call_id={call_id}. يقبل النموذج G.711 mu-law و A-law مباشرة، لذلك لا تحتاج إلى تحويل الترميز في جسرك.

هذا هو الجزء الذي يجعل GPT-Realtime-2 نموذجًا موثوقًا لمركز الاتصال بدلاً من عرض توضيحي للمتصفح. إنه يتوافق بشكل طبيعي مع استدعاءات الأدوات المتوازية و MCP، لأن معظم وكلاء الهاتف هم في الأساس موزعو أدوات.

مستويات الاستدلال

تتصرف مستويات الاستدلال الخمسة كمنظم واحد بين زمن الاستجابة وجودة الإجابة:

المستوى	حالة الاستخدام	التكلفة التقريبية للتأخير
`أدنى`	إجابات نعم/لا من دور واحد	لا شيء
`منخفض`	افتراضي؛ الدعم والمحادثة اليومية	صغيرة
`متوسط`	إزالة الغموض، إرسال أدوات معقدة	معتدلة
`عالٍ`	استدلال متعدد الخطوات، مراجعة الكود بالصوت	عالية
`عالٍ جدًا`	المقاييس، الأسئلة التحليلية الصعبة	الأعلى

الافتراضي هو low. انتقل إلى الأعلى فقط عندما تقيس تراجعات في الجودة عند low؛ تكلفة زمن الاستجابة عند high و xhigh حقيقية بما يكفي لكي يلاحظ المستخدمون الفجوة في المكالمات.

اختبار واجهة برمجة تطبيقات Realtime في Apidog

يصعب تصحيح أخطاء واجهات برمجة تطبيقات WebSocket من الجهاز لأن المحادثة ذات حالة. يتمتع Apidog بدعم WebSocket من الدرجة الأولى، لذلك يمكنك:

حفظ عنوان URL لـ WebSocket مع تعبئة رأس OpenAI-Beta مسبقًا.
تنظيم تسلسل رسائل JSON (session.update، input_audio_buffer.append، response.create) كبرنامج نصي.
إعادة تشغيل البرنامج النصي مقابل اتصال واحد والتقاط كل حدث من الخادم في شجرة.
مقارنة تشغيلين جنبًا إلى جنب؛ مفيد عندما تُغيّر جهد الاستدلال وتريد مقارنة عدد الرموز الصوتية الناتجة.

قم بتنزيل Apidog، وأنشئ طلب WebSocket جديدًا، والصق رمز الحامل الخاص بك تحت المصادقة (Auth). يعكس شكل المجموعة ما تحتفظ به لـ HTTP: بيئات لـ OPENAI_API_KEY، ومتغيرات لـ voice، وسكريبتات تعمل على كل اتصال.

للمقارنة مع نموذج آخر سريع متعدد الوسائط، راجع كيفية استخدام واجهة برمجة تطبيقات Gemini 3 Flash Preview.

الأسئلة الشائعة

ما هو معرف النموذج الذي يجب تمريره؟ gpt-realtime-2. لا يزال النموذج السابق متاحًا باسم gpt-realtime إذا كنت بحاجة إلى التراجع. بالنسبة للإصدار الخفيف، فإن gpt-realtime-2-mini متاح أيضًا.

هل يمكنني بث الصوت المدخل بينما لا يزال الصوت المخرج قيد التشغيل؟ نعم. تستخدم واجهة برمجة تطبيقات Realtime اكتشاف النشاط الصوتي من جانب الخادم (VAD) افتراضيًا، لذلك سيتوقف النموذج عن التحدث عندما يبدأ المستخدم. يمكنك تعطيل VAD والتحكم في حدود الأدوار من العميل.

هل يتضمن سياق الـ 128 ألف رمز رموز الصوت؟ نعم. يتم ترميز الصوت؛ ثانية واحدة من الصوت تعادل حوالي 50 رمزًا اعتمادًا على التنسيق. تحرق مكالمة الدعم الطويلة السياق أسرع من محادثة نصية طويلة، لذا تحقق من الاستخدام قبل أن تفترض أن نافذة الـ 128 ألف سخية.

هل التعديل الدقيق مدعوم؟ ليس بعد. وفقًا لبطاقة النموذج، لا يدعم GPT-Realtime-2 بعد التعديل الدقيق، أو المخرجات المتوقعة، أو بث النص على Chat Completions. نقطة نهاية Realtime تبث الصوت بطبيعتها.

كيف يقارن هذا بـ GPT-5.5 مع إضافة TTS؟ تفقد الاستدلال الشامل للكلام. يمكن لنموذج حساس للصوت التقاط النبرة والتردد والتركيز؛ نموذج النص مع TTS لا يمكنه ذلك. للوكلاء الذين يحتاجون إلى التفاعل مع كيفية تحدث المستخدم، فإن GPT-Realtime-2 هو الأداة المناسبة. للاستدلال النصي البحت، راجع كيفية استخدام واجهة برمجة تطبيقات GPT-5.5.

ما هي حدود المعدل المطبقة؟ يبدأ المستوى 1 بـ 40,000 رمز في الدقيقة ويتسع إلى 15 مليون رمز في الدقيقة في المستوى 5. حدود المعدل لكل نموذج، لذلك لا يتم ترحيل حصة GPT-5 الحالية.

خاتمة

يسد GPT-Realtime-2 الفجوة بين وكلاء الصوت ووكلاء النص. إن سياق الـ 128 ألف رمز، والاستدلال من فئة GPT-5، وإدخال الصور، و MCP الأصلي، ودعم SIP معًا يجعلون من الممكن بناء وكيل صوتي واحد يجيب على مكالمة هاتفية، وينظر إلى لقطة شاشة، ويرسل أداة عن بعد، ويتعافى من فشل في منتصف الجملة، كل ذلك دون مغادرة WebSocket. التسعير صادق عند 32 دولارًا / 64 دولارًا لكل مليون رمز صوتي، والإدخال المخزن مؤقتًا يقلل الفاتورة على موجهات النظام الثابتة.

أسرع طريق للإنتاج هو برمجة جلسة WebSocket في Apidog، وتأمين قائمة الأدوات، والبدء باستدلال low. لا تنتقل إلى مستوى أعلى إلا عندما يمكنك قياس فجوة في الجودة.

زر