GPT-Realtime-2 Nedir ve GPT-Realtime-2 API Nasıl Kullanılır

Ashley Innocent

Ashley Innocent

8 May 2026

GPT-Realtime-2 Nedir ve GPT-Realtime-2 API Nasıl Kullanılır

OpenAI, 6 Kasım 2026'da yeni nesil ses modellerini piyasaya sürdü ve ana sürüm GPT-Realtime-2 oldu: GPT-5 sınıfı muhakemeye, 128.000 token bağlam penceresine ve cevap kalitesine göre gecikmeyi ayarlayan yapılandırılabilir muhakeme çabasına sahip ilk konuşmadan-konuşmaya modeldir. Mevcut Realtime API yüzeyinde çalışır, bu nedenle gpt-realtime'ı zaten bağladıysanız, geçiş sadece model dizesi değişikliği ve birkaç yeni araç alanı eklenmesidir.

Bu rehber, GPT-Realtime-2'nin ne olduğunu, önceki modele göre nelerin değiştiğini, tam fiyatlandırma tablosunu ve hem WebSocket hem de SIP aracılığıyla nasıl çağrılacağını kapsar. Ayrıca Apidog'da çalışan bir kurulum da ekledik, böylece ses kaydını her seferinde yeniden yapmadan Realtime oturumlarını tekrar oynatabilirsiniz.

OpenAI'nin daha geniş 2026 model serisi hakkında bilgi için GPT-5.5 Nedir başlıklı yazımıza bakınız. Çok modlu kardeşi için ise GPT-Image-2 API'si Nasıl Kullanılır başlıklı yazımıza bakınız.

TL;DR

GPT-Realtime-2 Nedir?

GPT-Realtime-2 tek bir konuşmadan-konuşmaya modeldir. Sesi içeri aktarırsınız, sesi dışarı aktarırsınız ve model tek geçişte transkripsiyonu, muhakemeyi, araç seçimini ve ses üretimini halleder. STT-sonra-LLM-sonra-TTS boru hattı yoktur; bu eski desen, geçen yıl gpt-realtime'ın yerini aldığı şeydi ve v2, aynı yüzeyi daha güçlü bir muhakeme çekirdeğiyle keskinleştiriyor.

Model, girdi olarak metin, ses ve görüntüleri kabul eder ve çıktı olarak metin ve ses yayar. Görüntü girişi buradaki yeni modalitedir: canlı bir sohbete bir fotoğraf veya ekran görüntüsü bırakabilir ve aracıdan kullanıcının ekranında ne olduğunu açıklamasını isteyebilir, sonra konuşmaya devam edebilirsiniz. Bu, kullanıcının gördüğünü gören sesli yardımcı pilotlar oluşturmayı mümkün kılar ki bu, önceki modelin uçtan uca çalıştıramadığı bir ajan sınıfıdır.

Bir bakışta özellikler:

Özellik Değer
Model Kimliği gpt-realtime-2
Bağlam penceresi 128.000 token
Maksimum çıktı 32.000 token
Modaliteler (girdi) metin, ses, görüntü
Modaliteler (çıktı) metin, ses
Bilgi kesme tarihi 2024-09-30
Muhakeme seviyeleri minimal, düşük, orta, yüksek, çok yüksek
Fonksiyon çağrısı evet
Uzak MCP sunucuları evet
Görüntü girişi evet
SIP telefon araması evet

gpt-realtime'a karşı ne değişti?

Performans kazanımları kozmetik değil, gerçektir. gpt-realtime-1.5'e karşı v2 modelinin gösterdiği sonuçlar:

Bu puanlar high ve xhigh muhakeme seviyelerinde elde edildi. Üretim, gecikme için varsayılan olarak low seviyesini kullanır, bu nedenle günlük kalite iki uç arasında yer alır. Model ayrıca dikkate değer dört davranış kazandı:

Bağlam 32k'dan 128k token'a çıktı, bu da uzun sesli oturumlar oluşturmanıza olanak tanıyan bir değişikliktir; bankacılık, destek ve özel ders kullanım durumları bariz kazançlardır.

Fiyatlandırma

GPT-Realtime-2, token başına faturalandırılır; metin, ses ve görüntü girişleri için ayrı oranlar uygulanır.

Token türü Giriş Önbelleğe alınmış giriş Çıktı
Metin 4,00$ / 1M 0,40$ / 1M 24,00$ / 1M
Ses 32,00$ / 1M 0,40$ / 1M 64,00$ / 1M
Görüntü 5,00$ / 1M 0,50$ / 1M uyg. değil

Önbelleğe alınmış giriş, tekrarlanan bağlamlar için faturayı 80 kat düşürür, bu nedenle kararlı bir sistem istemi veya yeniden kullanılan bir belgeye sahip herhangi bir ajan önbelleği sıcak tutmalıdır. OpenAI serisinin geri kalanıyla karşılaştırmak için GPT-5.5 fiyatlandırmasına bakınız.

Yardımcı modeller farklı fiyatlandırılır çünkü dakikaya göre ölçülürler:

Muhakemeye ve konuşma üretimine birlikte ihtiyaç duyduğunuzda GPT-Realtime-2'yi, canlı çok dilli yorumlama için GPT-Realtime-Translate'i ve sadece transkripte ihtiyacınız olduğunda GPT-Realtime-Whisper'ı seçin.

Uç Noktalar ve Kimlik Doğrulama

GPT-Realtime-2, yaptığınız işe bağlı olarak birkaç farklı uç nokta aracılığıyla erişilebilir:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # SIP için
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Sesli ajanlar için istediğiniz WebSocket uç noktasıdır. Kimlik doğrulama, OpenAI'nin her yerde kullandığı taşıyıcı-token modelidir:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

OPENAI_API_KEY'i bir kez ayarlayın ve yeniden kullanın.

export OPENAI_API_KEY="sk-proj-..."

WebSocket Üzerinden Bağlanma

Minimal bir Node.js istemcisi şöyle görünür:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 ses öbeği; hoparlörünüze veya tarayıcınıza aktarın
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Oturum olay tabanlıdır. Kullanıcı konuştukça input_audio_buffer.append çerçevelerini gönderirsiniz ve sunucu geri konuştukça response.audio.delta olaylarını yayar. 24 kHz'de PCM16 güvenli varsayılandır; G.711 mu-law ve A-law da desteklenir, bu da telefon sistemlerine köprü kurarken önemlidir.

Python eşdeğeri için, openai SDK >= 2.1.0, aynı olay adlarına sahip bir realtime istemcisi sunar. Realtime yüzeyini Responses API ile karşılaştırmak isterseniz, GPT-5.5 API'si Nasıl Kullanılır bölümüne bakın.

Sesler

Bu sürümle birlikte iki yeni ses geliyor:

Her ikisi de Realtime API'ye özeldir. Önceki sekiz ses (alloy, ash, ballad, coral, echo, sage, shimmer, verse) hala mevcuttur ve yeni modelin ses yığınını kullanacak şekilde yeniden ayarlanmıştır, bu nedenle v1'deki hallerine göre belirgin şekilde daha az robotik ses çıkarırlar.

Yeni voice alanı ile başka bir session.update göndererek oturum ortasında sesi değiştirebilirsiniz. Ses değişimi ekstra gecikmeye neden olmaz.

Görüntü Girişi

Herhangi bir kullanıcı dönüşüne bir görüntü ekleyebilirsiniz. Model bunu, GPT-4o vizyonunun bir fotoğrafı gördüğü gibi görür, ancak şimdi yüksek sesle takip soruları sorabilir ve o da yüksek sesle cevap verir:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Erken üretim yapılarında gördüğümüz yaygın kalıplar:

OpenAI'nin görüntü yığınına daha derinlemesine bir bakış için GPT-Image-2 API'si Nasıl Kullanılır makalesine bakın.

Fonksiyon Çağrısı ve MCP

GPT-Realtime-2, aynı oturumda hem standart fonksiyon araçlarını hem de uzaktan MCP sunucularını destekler.

Standart fonksiyon çağrısı, Chat Completions gibi çalışır: oturum yapılandırmasında araçları bildirirsiniz, model bir response.function_call_arguments.delta olayı yayınlar, siz yürütürsünüz, function_call_output türünde conversation.item.create ile yanıt verirsiniz. Yeni davranış paralel çağrılardır; model aynı anda iki veya üç çağrıyı ateşleyebilir ve çözümlenirken "bakiyenizi ve son üç işleminizi kontrol ediyorum" gibi anlatımlar yapabilir.

Uzak MCP sunucuları daha büyük bir değişikliktir. Oturumda bir MCP URL'si ve izin verilen araçların bir listesini yapılandırın, Realtime API çağrıları kendisi yürütür; kodunuzun fonksiyon çağrısı olay döngüsü üzerinden asla gidiş-dönüş yapması gerekmez. Bu, sesli ajanların beş yerine elli uç noktalı bir araç kataloğundan çekim yaparken duyarlı kalmasını sağlar.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

MCP sunucularını bir sesli ajana bağlamadan önce test ediyorsanız, Apidog'daki MCP sunucu testi kılavuzu, şirket içinde kullandığımız istek-yeniden oynatma kurulumunu kapsar.

SIP Telefon Araması

Gerçek zamanlı sesli ajanlar gerçek telefon aramalarını alabilir. SIP trunk'ınızı OpenAI'nin SIP ağ geçidine yönlendirin ve gelen aramalar wss://api.openai.com/v1/realtime?call_id={call_id} adresinde bir WebSocket oturumu açar. Model, G.711 mu-law ve A-law'ı doğrudan kabul eder, bu nedenle köprünüzde yeniden kodlama yapmanıza gerek yoktur.

İşte bu kısım, GPT-Realtime-2'yi bir tarayıcı demosundan ziyade güvenilir bir çağrı merkezi modeli haline getiriyor. Paralel araç çağrıları ve MCP ile doğal olarak eşleşiyor, çünkü çoğu telefon ajanı çoğunlukla araç dağıtımından ibarettir.

Muhakeme Seviyeleri

Beş muhakeme seviyesi, gecikme ile cevap kalitesi arasında tek bir ayar çubuğu gibi davranır:

Seviye Kullanım durumu Yaklaşık gecikme maliyeti
minimal Tek seferlik evet/hayır cevapları yok
düşük Varsayılan; günlük destek ve sohbet küçük
orta Belirsizliği giderme, karmaşık araç sevkiyatı ılımlı
yüksek Çok adımlı muhakeme, sesli kod incelemesi yüksek
çok yüksek Kıyaslamalar, zor analitik sorular en yüksek

Varsayılan low'dur. Yalnızca low seviyesinde kalite düşüşleri ölçtüğünüzde yükseltin; high ve xhigh seviyelerindeki gecikme maliyeti, kullanıcıların aramalarda fark edeceği kadar gerçektir.

Apidog'da Realtime API'yi Test Etme

WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşmanın bir durumu vardır. Apidog, birinci sınıf WebSocket desteğine sahiptir, bu sayede şunları yapabilirsiniz:

  1. OpenAI-Beta başlığı önceden doldurulmuş WebSocket URL'sini kaydedin.
  2. Bir komut dosyası olarak bir dizi JSON mesajını (session.update, input_audio_buffer.append, response.create) hazırlayın.
  3. Komut dosyasını tek bir bağlantıya karşı tekrar oynatın ve her sunucu olayını bir ağaca yakalayın.
  4. İki çalıştırmayı yan yana karşılaştırın; muhakeme çabasını değiştirdiğinizde ve ses çıkış token sayımlarını karşılaştırmak istediğinizde kullanışlıdır.

Apidog'u indirin, yeni bir WebSocket isteği oluşturun ve taşıyıcı token'ınızı Auth altına yapıştırın. Koleksiyon yapısı, HTTP için sakladıklarınızı yansıtır: OPENAI_API_KEY için ortamlar, voice için değişkenler, her bağlantıda çalışan komut dosyaları.

Diğer hızlı çok modlu bir modelle karşılaştırmak için Gemini 3 Flash Önizleme API'si Nasıl Kullanılır başlıklı makaleye bakın.

SSS

Hangi model kimliğini geçirmeliyim? gpt-realtime-2. Geri dönmeniz gerekirse önceki model hala gpt-realtime olarak mevcuttur. Lite sürümü için gpt-realtime-2-mini de yayında.

Çıkış sesi çalarken giriş sesini akışla verebilir miyim? Evet. Realtime API varsayılan olarak sunucu tarafı ses aktivite tespitini (VAD) kullanır, bu nedenle kullanıcı konuşmaya başladığında model konuşmayı durduracaktır. VAD'ı devre dışı bırakabilir ve dönüş sınırlarını istemciden kontrol edebilirsiniz.

128k bağlam ses token'larını içeriyor mu? Evet. Ses token'lara ayrılır; bir saniyelik ses, formata bağlı olarak yaklaşık 50 token'dır. Uzun bir destek araması, uzun bir metin sohbetinden daha hızlı bağlam tüketir, bu nedenle 128k pencerenin cömert olduğunu varsaymadan önce kullanımı kontrol edin.

İnce ayar destekleniyor mu? Henüz değil. Model kartına göre, GPT-Realtime-2 henüz ince ayarı, tahmin edilen çıktıları veya Chat Completions'da metin akışını desteklemiyor. Realtime uç noktası doğal olarak ses akışı sağlar.

Bu, TTS eklenmiş GPT-5.5 ile nasıl karşılaştırılır? Uçtan uca konuşma muhakemesini kaybedersiniz. Ses farkındalığı olan bir model tonu, tereddütü ve vurguyu algılayabilir; TTS'li bir metin modeli bunu yapamaz. Kullanıcının *nasıl* konuştuğuna tepki vermesi gereken ajanlar için GPT-Realtime-2 doğru araçtır. Saf metin muhakemesi için GPT-5.5 API'si Nasıl Kullanılır bölümüne bakın.

Hangi hız sınırları geçerlidir? Kademe 1, dakikada 40.000 token ile başlar ve Kademe 5'te 15M TPM'ye kadar ölçeklenir. Hız sınırları model başınadır, bu nedenle mevcut GPT-5 kotası devredilmez.

Özet

GPT-Realtime-2, sesli ajanlar ile metin ajanları arasındaki boşluğu kapatıyor. 128k bağlam, GPT-5 sınıfı muhakeme, görüntü girişi, yerel MCP ve SIP desteği bir araya gelerek, bir telefon çağrısını yanıtlayan, bir ekran görüntüsüne bakan, uzak bir aracı sevk eden ve bir cümleyi yarıda keserek bir hatadan kurtulan tek bir sesli ajan oluşturmayı mümkün kılıyor; tüm bunlar WebSocket'ten ayrılmadan gerçekleşiyor. Fiyatlandırma, milyon ses token'ı başına 32$/64$ ile dürüst ve önbelleğe alınmış giriş, kararlı sistem istemlerinde faturayı düşürüyor.

Üretime giden en hızlı yol, Apidog'da WebSocket oturumunu betiklemek, bir araç listesini kilitlemek ve low muhakeme ile başlamaktır. Yalnızca bir kalite farkını ölçebildiğinizde yukarı çıkın.

button

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin