OpenAI, 6 Kasım 2026'da yeni nesil ses modellerini piyasaya sürdü ve ana sürüm GPT-Realtime-2 oldu: GPT-5 sınıfı muhakemeye, 128.000 token bağlam penceresine ve cevap kalitesine göre gecikmeyi ayarlayan yapılandırılabilir muhakeme çabasına sahip ilk konuşmadan-konuşmaya modeldir. Mevcut Realtime API yüzeyinde çalışır, bu nedenle gpt-realtime'ı zaten bağladıysanız, geçiş sadece model dizesi değişikliği ve birkaç yeni araç alanı eklenmesidir.
Bu rehber, GPT-Realtime-2'nin ne olduğunu, önceki modele göre nelerin değiştiğini, tam fiyatlandırma tablosunu ve hem WebSocket hem de SIP aracılığıyla nasıl çağrılacağını kapsar. Ayrıca Apidog'da çalışan bir kurulum da ekledik, böylece ses kaydını her seferinde yeniden yapmadan Realtime oturumlarını tekrar oynatabilirsiniz.
OpenAI'nin daha geniş 2026 model serisi hakkında bilgi için GPT-5.5 Nedir başlıklı yazımıza bakınız. Çok modlu kardeşi için ise GPT-Image-2 API'si Nasıl Kullanılır başlıklı yazımıza bakınız.
TL;DR
- GPT-Realtime-2, OpenAI'nin GPT-5 sınıfı muhakemeye, 128k bağlama ve 32k maksimum çıktı token'ına sahip amiral gemisi konuşmadan-konuşmaya modelidir.
- Ses fiyatlandırması 1M giriş token'ı başına 32$ ve 1M çıkış token'ı başına 64$ olup, önbelleğe alınmış giriş 1M başına 0.40$'dır.
- İki yeni ses, Cedar ve Marin, Realtime API'ye özeldir; mevcut sekiz ses kalitesini yenilemiştir.
- Beş muhakeme seviyesi:
minimal,low,medium,high,xhigh. Gecikme için varsayılanlow'dur. wss://api.openai.com/v1/realtime?model=gpt-realtime-2adresinden WebSocket üzerinden bağlanın veya SIP üzerinden gelen aramaları alın.- Yardımcı sürümler: GPT-Realtime-Translate (canlı çeviri, 70 giriş dili, 0.034$/dakika) ve GPT-Realtime-Whisper (akışlı STT, 0.017$/dakika).
- WebSocket oturumunu betiklemek, çerçeveleri yakalamak ve çalıştırmalar arasındaki ses olaylarını karşılaştırmak için Apidog'u kullanın.
GPT-Realtime-2 Nedir?
GPT-Realtime-2 tek bir konuşmadan-konuşmaya modeldir. Sesi içeri aktarırsınız, sesi dışarı aktarırsınız ve model tek geçişte transkripsiyonu, muhakemeyi, araç seçimini ve ses üretimini halleder. STT-sonra-LLM-sonra-TTS boru hattı yoktur; bu eski desen, geçen yıl gpt-realtime'ın yerini aldığı şeydi ve v2, aynı yüzeyi daha güçlü bir muhakeme çekirdeğiyle keskinleştiriyor.

Model, girdi olarak metin, ses ve görüntüleri kabul eder ve çıktı olarak metin ve ses yayar. Görüntü girişi buradaki yeni modalitedir: canlı bir sohbete bir fotoğraf veya ekran görüntüsü bırakabilir ve aracıdan kullanıcının ekranında ne olduğunu açıklamasını isteyebilir, sonra konuşmaya devam edebilirsiniz. Bu, kullanıcının gördüğünü gören sesli yardımcı pilotlar oluşturmayı mümkün kılar ki bu, önceki modelin uçtan uca çalıştıramadığı bir ajan sınıfıdır.
Bir bakışta özellikler:
| Özellik | Değer |
|---|---|
| Model Kimliği | gpt-realtime-2 |
| Bağlam penceresi | 128.000 token |
| Maksimum çıktı | 32.000 token |
| Modaliteler (girdi) | metin, ses, görüntü |
| Modaliteler (çıktı) | metin, ses |
| Bilgi kesme tarihi | 2024-09-30 |
| Muhakeme seviyeleri | minimal, düşük, orta, yüksek, çok yüksek |
| Fonksiyon çağrısı | evet |
| Uzak MCP sunucuları | evet |
| Görüntü girişi | evet |
| SIP telefon araması | evet |
gpt-realtime'a karşı ne değişti?
Performans kazanımları kozmetik değil, gerçektir. gpt-realtime-1.5'e karşı v2 modelinin gösterdiği sonuçlar:
- Big Bench Audio (ses zekası): %81,4 → %96,6, 15,2 puanlık bir artış.
- Audio MultiChallenge (talimat takibi): %34,7 → %48,5, 13,8 puanlık bir artış.
Bu puanlar high ve xhigh muhakeme seviyelerinde elde edildi. Üretim, gecikme için varsayılan olarak low seviyesini kullanır, bu nedenle günlük kalite iki uç arasında yer alır. Model ayrıca dikkate değer dört davranış kazandı:
- Girişler. Model, gerçek bir cevap üretmeden önce "kontrol edeyim" gibi kısa dolgu ifadeleri söyleyebilir, bu da muhakeme gecikmesini kullanıcıdan gizler.
- Sesli anlatımla paralel araç çağrıları. Model, birkaç fonksiyon çağrısını aynı anda ateşleyebilir ve çözümlenirken ilerlemeyi anlatabilir, iki saniye sessiz kalmak yerine.
- Daha güçlü kurtarma. Belirsiz veya kısmen başarısız dönüşler, başa dönmek yerine sorunsuz bir şekilde ele alınır.
- Alan tonu kontrolü. Özel terminoloji uzun bir oturum boyunca tutarlı kalır ve model, oturum içinde istediğinizde (resmi, gündelik, yavaş) sunumu uyarlar.

Bağlam 32k'dan 128k token'a çıktı, bu da uzun sesli oturumlar oluşturmanıza olanak tanıyan bir değişikliktir; bankacılık, destek ve özel ders kullanım durumları bariz kazançlardır.
Fiyatlandırma
GPT-Realtime-2, token başına faturalandırılır; metin, ses ve görüntü girişleri için ayrı oranlar uygulanır.
| Token türü | Giriş | Önbelleğe alınmış giriş | Çıktı |
|---|---|---|---|
| Metin | 4,00$ / 1M | 0,40$ / 1M | 24,00$ / 1M |
| Ses | 32,00$ / 1M | 0,40$ / 1M | 64,00$ / 1M |
| Görüntü | 5,00$ / 1M | 0,50$ / 1M | uyg. değil |
Önbelleğe alınmış giriş, tekrarlanan bağlamlar için faturayı 80 kat düşürür, bu nedenle kararlı bir sistem istemi veya yeniden kullanılan bir belgeye sahip herhangi bir ajan önbelleği sıcak tutmalıdır. OpenAI serisinin geri kalanıyla karşılaştırmak için GPT-5.5 fiyatlandırmasına bakınız.
Yardımcı modeller farklı fiyatlandırılır çünkü dakikaya göre ölçülürler:
- GPT-Realtime-Translate: Dakika başına 0,034$. 70 giriş dilini ve 13 çıkış dilini destekler, Hintçe, Tamilce ve Teluguca'da test edilen diğer tüm modellere göre %12,5 daha düşük Kelime Hata Oranı (WER) sunar.
- GPT-Realtime-Whisper: Dakika başına 0,017$. Canlı altyazılar ve sürekli transkripsiyon için oluşturulmuş akışlı konuşmadan-metne; dönen bir arabellek üzerinde toplu Whisper çalıştırmaktan daha hızlıdır.
Muhakemeye ve konuşma üretimine birlikte ihtiyaç duyduğunuzda GPT-Realtime-2'yi, canlı çok dilli yorumlama için GPT-Realtime-Translate'i ve sadece transkripte ihtiyacınız olduğunda GPT-Realtime-Whisper'ı seçin.
Uç Noktalar ve Kimlik Doğrulama
GPT-Realtime-2, yaptığınız işe bağlı olarak birkaç farklı uç nokta aracılığıyla erişilebilir:
POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS wss://api.openai.com/v1/realtime?call_id={call_id} # SIP için
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions
Sesli ajanlar için istediğiniz WebSocket uç noktasıdır. Kimlik doğrulama, OpenAI'nin her yerde kullandığı taşıyıcı-token modelidir:
Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1
OPENAI_API_KEY'i bir kez ayarlayın ve yeniden kullanın.
export OPENAI_API_KEY="sk-proj-..."
WebSocket Üzerinden Bağlanma
Minimal bir Node.js istemcisi şöyle görünür:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "cedar",
instructions: "You are a friendly support agent for a fintech app.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
reasoning: { effort: "low" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
// base64 PCM16 ses öbeği; hoparlörünüze veya tarayıcınıza aktarın
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Oturum olay tabanlıdır. Kullanıcı konuştukça input_audio_buffer.append çerçevelerini gönderirsiniz ve sunucu geri konuştukça response.audio.delta olaylarını yayar. 24 kHz'de PCM16 güvenli varsayılandır; G.711 mu-law ve A-law da desteklenir, bu da telefon sistemlerine köprü kurarken önemlidir.
Python eşdeğeri için, openai SDK >= 2.1.0, aynı olay adlarına sahip bir realtime istemcisi sunar. Realtime yüzeyini Responses API ile karşılaştırmak isterseniz, GPT-5.5 API'si Nasıl Kullanılır bölümüne bakın.
Sesler
Bu sürümle birlikte iki yeni ses geliyor:
- Cedar: sıcak, orta frekanslı erkek sesi. Genel ajanlar için varsayılan.
- Marin: parlak, net kadın sesi. Çeviri ve duyurular için iyi.
Her ikisi de Realtime API'ye özeldir. Önceki sekiz ses (alloy, ash, ballad, coral, echo, sage, shimmer, verse) hala mevcuttur ve yeni modelin ses yığınını kullanacak şekilde yeniden ayarlanmıştır, bu nedenle v1'deki hallerine göre belirgin şekilde daha az robotik ses çıkarırlar.
Yeni voice alanı ile başka bir session.update göndererek oturum ortasında sesi değiştirebilirsiniz. Ses değişimi ekstra gecikmeye neden olmaz.
Görüntü Girişi
Herhangi bir kullanıcı dönüşüne bir görüntü ekleyebilirsiniz. Model bunu, GPT-4o vizyonunun bir fotoğrafı gördüğü gibi görür, ancak şimdi yüksek sesle takip soruları sorabilir ve o da yüksek sesle cevap verir:
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "message",
role: "user",
content: [
{ type: "input_image", image_url: "https://example.com/screenshot.png" },
{ type: "input_text", text: "What does this error mean?" },
],
},
}));
ws.send(JSON.stringify({ type: "response.create" }));
Erken üretim yapılarında gördüğümüz yaygın kalıplar:
- Sesli QA. Test eden kişi bozuk bir kullanıcı arayüzüne telefon kamerasını tutar; ajan gördüklerini anlatır ve hata raporunu dikte eder.
- Saha desteği. Teknisyen bir kablo panelinin fotoğrafını paylaşır; ajan teşhisi adım adım yönlendirir.
- Erişilebilirlik. Destek çağrısı sırasında kullanıcının mevcut ekranının canlı ekran okuyucu tarzı anlatımı.
OpenAI'nin görüntü yığınına daha derinlemesine bir bakış için GPT-Image-2 API'si Nasıl Kullanılır makalesine bakın.
Fonksiyon Çağrısı ve MCP
GPT-Realtime-2, aynı oturumda hem standart fonksiyon araçlarını hem de uzaktan MCP sunucularını destekler.
Standart fonksiyon çağrısı, Chat Completions gibi çalışır: oturum yapılandırmasında araçları bildirirsiniz, model bir response.function_call_arguments.delta olayı yayınlar, siz yürütürsünüz, function_call_output türünde conversation.item.create ile yanıt verirsiniz. Yeni davranış paralel çağrılardır; model aynı anda iki veya üç çağrıyı ateşleyebilir ve çözümlenirken "bakiyenizi ve son üç işleminizi kontrol ediyorum" gibi anlatımlar yapabilir.
Uzak MCP sunucuları daha büyük bir değişikliktir. Oturumda bir MCP URL'si ve izin verilen araçların bir listesini yapılandırın, Realtime API çağrıları kendisi yürütür; kodunuzun fonksiyon çağrısı olay döngüsü üzerinden asla gidiş-dönüş yapması gerekmez. Bu, sesli ajanların beş yerine elli uç noktalı bir araç kataloğundan çekim yaparken duyarlı kalmasını sağlar.
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "mcp",
server_url: "https://mcp.example.com/sse",
allowed_tools: ["lookup_account", "list_transactions"],
}],
},
}));
MCP sunucularını bir sesli ajana bağlamadan önce test ediyorsanız, Apidog'daki MCP sunucu testi kılavuzu, şirket içinde kullandığımız istek-yeniden oynatma kurulumunu kapsar.
SIP Telefon Araması
Gerçek zamanlı sesli ajanlar gerçek telefon aramalarını alabilir. SIP trunk'ınızı OpenAI'nin SIP ağ geçidine yönlendirin ve gelen aramalar wss://api.openai.com/v1/realtime?call_id={call_id} adresinde bir WebSocket oturumu açar. Model, G.711 mu-law ve A-law'ı doğrudan kabul eder, bu nedenle köprünüzde yeniden kodlama yapmanıza gerek yoktur.
İşte bu kısım, GPT-Realtime-2'yi bir tarayıcı demosundan ziyade güvenilir bir çağrı merkezi modeli haline getiriyor. Paralel araç çağrıları ve MCP ile doğal olarak eşleşiyor, çünkü çoğu telefon ajanı çoğunlukla araç dağıtımından ibarettir.
Muhakeme Seviyeleri
Beş muhakeme seviyesi, gecikme ile cevap kalitesi arasında tek bir ayar çubuğu gibi davranır:
| Seviye | Kullanım durumu | Yaklaşık gecikme maliyeti |
|---|---|---|
minimal |
Tek seferlik evet/hayır cevapları | yok |
düşük |
Varsayılan; günlük destek ve sohbet | küçük |
orta |
Belirsizliği giderme, karmaşık araç sevkiyatı | ılımlı |
yüksek |
Çok adımlı muhakeme, sesli kod incelemesi | yüksek |
çok yüksek |
Kıyaslamalar, zor analitik sorular | en yüksek |
Varsayılan low'dur. Yalnızca low seviyesinde kalite düşüşleri ölçtüğünüzde yükseltin; high ve xhigh seviyelerindeki gecikme maliyeti, kullanıcıların aramalarda fark edeceği kadar gerçektir.
Apidog'da Realtime API'yi Test Etme
WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşmanın bir durumu vardır. Apidog, birinci sınıf WebSocket desteğine sahiptir, bu sayede şunları yapabilirsiniz:

OpenAI-Betabaşlığı önceden doldurulmuş WebSocket URL'sini kaydedin.- Bir komut dosyası olarak bir dizi JSON mesajını (session.update, input_audio_buffer.append, response.create) hazırlayın.
- Komut dosyasını tek bir bağlantıya karşı tekrar oynatın ve her sunucu olayını bir ağaca yakalayın.
- İki çalıştırmayı yan yana karşılaştırın; muhakeme çabasını değiştirdiğinizde ve ses çıkış token sayımlarını karşılaştırmak istediğinizde kullanışlıdır.
Apidog'u indirin, yeni bir WebSocket isteği oluşturun ve taşıyıcı token'ınızı Auth altına yapıştırın. Koleksiyon yapısı, HTTP için sakladıklarınızı yansıtır: OPENAI_API_KEY için ortamlar, voice için değişkenler, her bağlantıda çalışan komut dosyaları.
Diğer hızlı çok modlu bir modelle karşılaştırmak için Gemini 3 Flash Önizleme API'si Nasıl Kullanılır başlıklı makaleye bakın.
SSS
Hangi model kimliğini geçirmeliyim? gpt-realtime-2. Geri dönmeniz gerekirse önceki model hala gpt-realtime olarak mevcuttur. Lite sürümü için gpt-realtime-2-mini de yayında.
Çıkış sesi çalarken giriş sesini akışla verebilir miyim? Evet. Realtime API varsayılan olarak sunucu tarafı ses aktivite tespitini (VAD) kullanır, bu nedenle kullanıcı konuşmaya başladığında model konuşmayı durduracaktır. VAD'ı devre dışı bırakabilir ve dönüş sınırlarını istemciden kontrol edebilirsiniz.
128k bağlam ses token'larını içeriyor mu? Evet. Ses token'lara ayrılır; bir saniyelik ses, formata bağlı olarak yaklaşık 50 token'dır. Uzun bir destek araması, uzun bir metin sohbetinden daha hızlı bağlam tüketir, bu nedenle 128k pencerenin cömert olduğunu varsaymadan önce kullanımı kontrol edin.
İnce ayar destekleniyor mu? Henüz değil. Model kartına göre, GPT-Realtime-2 henüz ince ayarı, tahmin edilen çıktıları veya Chat Completions'da metin akışını desteklemiyor. Realtime uç noktası doğal olarak ses akışı sağlar.
Bu, TTS eklenmiş GPT-5.5 ile nasıl karşılaştırılır? Uçtan uca konuşma muhakemesini kaybedersiniz. Ses farkındalığı olan bir model tonu, tereddütü ve vurguyu algılayabilir; TTS'li bir metin modeli bunu yapamaz. Kullanıcının *nasıl* konuştuğuna tepki vermesi gereken ajanlar için GPT-Realtime-2 doğru araçtır. Saf metin muhakemesi için GPT-5.5 API'si Nasıl Kullanılır bölümüne bakın.
Hangi hız sınırları geçerlidir? Kademe 1, dakikada 40.000 token ile başlar ve Kademe 5'te 15M TPM'ye kadar ölçeklenir. Hız sınırları model başınadır, bu nedenle mevcut GPT-5 kotası devredilmez.
Özet
GPT-Realtime-2, sesli ajanlar ile metin ajanları arasındaki boşluğu kapatıyor. 128k bağlam, GPT-5 sınıfı muhakeme, görüntü girişi, yerel MCP ve SIP desteği bir araya gelerek, bir telefon çağrısını yanıtlayan, bir ekran görüntüsüne bakan, uzak bir aracı sevk eden ve bir cümleyi yarıda keserek bir hatadan kurtulan tek bir sesli ajan oluşturmayı mümkün kılıyor; tüm bunlar WebSocket'ten ayrılmadan gerçekleşiyor. Fiyatlandırma, milyon ses token'ı başına 32$/64$ ile dürüst ve önbelleğe alınmış giriş, kararlı sistem istemlerinde faturayı düşürüyor.
Üretime giden en hızlı yol, Apidog'da WebSocket oturumunu betiklemek, bir araç listesini kilitlemek ve low muhakeme ile başlamaktır. Yalnızca bir kalite farkını ölçebildiğinizde yukarı çıkın.
