Apa Itu GPT-Realtime-2 dan Cara Menggunakan API GPT-Realtime-2

OpenAI merilis generasi baru model suara pada 6 November 2026, dan rilis utamanya adalah GPT-Realtime-2: model ucapan-ke-ucapan pertama dengan penalaran kelas GPT-5, jendela konteks 128.000 token, dan upaya penalaran yang dapat dikonfigurasi yang mengukur latensi terhadap kualitas jawaban. Model ini berjalan di permukaan Realtime API yang sudah ada, jadi jika Anda sudah mengintegrasikan gpt-realtime, migrasinya hanya berupa perubahan string model dan beberapa bidang alat baru.

Panduan ini membahas apa itu GPT-Realtime-2, apa saja yang berubah dibandingkan model sebelumnya, tabel harga lengkap, dan cara memanggilnya melalui WebSocket maupun SIP. Kami juga menyertakan pengaturan yang berfungsi di Apidog sehingga Anda dapat memutar ulang sesi Realtime tanpa merekam ulang audio setiap saat.

Untuk konteks tentang lini model OpenAI yang lebih luas tahun 2026, lihat Apa Itu GPT-5.5. Untuk model multimodal saudaranya, lihat Cara Menggunakan API GPT-Image-2.

TL;DR

GPT-Realtime-2 adalah model ucapan-ke-ucapan unggulan OpenAI dengan penalaran kelas GPT-5, konteks 128k, dan output maksimum 32k token.
Harga audio adalah $32 per 1 Juta token input dan $64 per 1 Juta token output, dengan input cache seharga $0.40/1 Juta.
Dua suara baru, Cedar dan Marin, eksklusif untuk Realtime API; delapan suara yang ada mendapatkan penyegaran kualitas.
Lima tingkat penalaran: minimal, low, medium, high, xhigh. Default adalah low untuk latensi.
Terhubung melalui WebSocket di wss://api.openai.com/v1/realtime?model=gpt-realtime-2, atau terima panggilan masuk melalui SIP.
Rilis pendamping: GPT-Realtime-Translate (terjemahan langsung, 70 bahasa input, $0.034/menit) dan GPT-Realtime-Whisper (STT streaming, $0.017/menit).
Gunakan Apidog untuk menulis skrip sesi WebSocket, menangkap frame, dan membandingkan peristiwa audio antar eksekusi.

Apa itu GPT-Realtime-2?

GPT-Realtime-2 adalah model ucapan-ke-ucapan tunggal. Anda mengalirkan audio masuk, Anda mengalirkan audio keluar, dan model menangani transkripsi, penalaran, pemilihan alat, dan pembuatan suara dalam satu proses. Tidak ada alur STT-lalu-LLM-lalu-TTS; pola lama itu adalah yang digantikan oleh gpt-realtime tahun lalu, dan v2 mempertajam permukaan yang sama dengan inti penalaran yang lebih kuat.

Model ini menerima teks, audio, dan gambar sebagai input, serta mengeluarkan teks dan audio sebagai output. Input gambar adalah modalitas baru di sini: Anda dapat memasukkan foto atau tangkapan layar ke dalam percakapan langsung dan meminta agen untuk menjelaskan apa yang ada di layar pengguna, lalu terus berbicara. Hal ini memungkinkan pembangunan kopilot suara yang melihat apa yang dilihat pengguna, yang merupakan jenis agen yang tidak dapat dijalankan secara end-to-end oleh model sebelumnya.

Spesifikasi sekilas:

Atribut	Nilai
ID Model	`gpt-realtime-2`
Jendela konteks	128.000 token
Output maksimum	32.000 token
Modalitas (input)	teks, audio, gambar
Modalitas (output)	teks, audio
Batas pengetahuan	30-09-2024
Tingkat penalaran	minimal, low, medium, high, xhigh
Pemanggilan fungsi	ya
Server MCP jarak jauh	ya
Input gambar	ya
Panggilan telepon SIP	ya

Apa yang berubah dibandingkan gpt-realtime

Peningkatan benchmark adalah nyata, bukan kosmetik. Dibandingkan gpt-realtime-1.5, model v2 menunjukkan:

Big Bench Audio (kecerdasan audio): 81.4% → 96.6%, kenaikan 15.2 poin.
Audio MultiChallenge (mengikuti instruksi): 34.7% → 48.5%, kenaikan 13.8 poin.

Skor-skor tersebut diperoleh pada penalaran tingkat high dan xhigh. Produksi default-nya adalah low untuk latensi, sehingga kualitas sehari-hari berada di antara kedua ujung tersebut. Model ini juga menguasai empat perilaku yang patut disebutkan:

Pembukaan. Model dapat mengucapkan frasa pengisi singkat seperti “biarkan saya memeriksanya” sebelum memberikan jawaban sebenarnya, yang menyembunyikan latensi penalaran dari pengguna.
Pemanggilan alat paralel dengan narasi audio. Model dapat meluncurkan beberapa pemanggilan fungsi sekaligus dan menarasikan kemajuan saat mereka selesai, alih-alih terdiam selama dua detik.
Pemulihan yang lebih kuat. Giliran yang ambigu atau sebagian gagal ditangani dengan anggun alih-alih kembali ke awal.
Kontrol nada domain. Terminologi khusus tetap konsisten sepanjang sesi yang panjang, dan model menyesuaikan penyampaian (formal, kasual, lambat) saat Anda memintanya dalam sesi.

Konteks bertambah dari 32k menjadi 128k token, yang merupakan perubahan yang memungkinkan Anda membangun sesi suara yang panjang; kasus penggunaan perbankan, dukungan, dan bimbingan belajar adalah keuntungan yang jelas.

Harga

GPT-Realtime-2 ditagih per token, dengan tarif terpisah untuk input teks, audio, dan gambar.

Jenis token	Input	Input cache	Output
Teks	$4.00 / 1 Juta	$0.40 / 1 Juta	$24.00 / 1 Juta
Audio	$32.00 / 1 Juta	$0.40 / 1 Juta	$64.00 / 1 Juta
Gambar	$5.00 / 1 Juta	$0.50 / 1 Juta	t/a

Input cache mengurangi biaya sebesar 80x untuk konteks yang berulang, jadi agen mana pun dengan prompt sistem yang stabil atau dokumen yang digunakan kembali harus menjaga cache tetap hangat. Untuk perbandingan dengan lini OpenAI lainnya, lihat harga GPT-5.5.

Model pendamping memiliki harga yang berbeda karena ditagih per menit:

GPT-Realtime-Translate: $0.034 per menit. Menangani 70 bahasa input dan 13 bahasa output, dengan Tingkat Kesalahan Kata (Word Error Rate) 12.5% lebih rendah daripada model lain yang diuji dalam bahasa Hindi, Tamil, dan Telugu.
GPT-Realtime-Whisper: $0.017 per menit. Streaming ucapan-ke-teks yang dibuat untuk keterangan langsung dan transkripsi berkelanjutan; lebih cepat daripada menjalankan Whisper batch pada buffer yang terus berjalan.

Pilih GPT-Realtime-2 saat Anda membutuhkan penalaran dan pembuatan ucapan secara bersamaan, GPT-Realtime-Translate untuk interpretasi multibahasa langsung, dan GPT-Realtime-Whisper saat Anda hanya membutuhkan transkrip.

Endpoint dan autentikasi

GPT-Realtime-2 diekspos di beberapa endpoint tergantung pada apa yang Anda lakukan:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Untuk agen suara, endpoint WebSocket adalah yang Anda inginkan. Autentikasi menggunakan pola bearer-token yang sama yang digunakan OpenAI di mana pun:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Atur OPENAI_API_KEY sekali dan gunakan kembali.

export OPENAI_API_KEY="sk-proj-..."

Menghubungkan melalui WebSocket

Klien Node.js minimal terlihat seperti ini:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Sesi ini berbasis peristiwa (event-driven). Anda mengirim frame input_audio_buffer.append saat pengguna berbicara, dan server mengeluarkan peristiwa response.audio.delta saat merespons. PCM16 pada 24 kHz adalah default yang aman; G.711 mu-law dan A-law juga didukung, yang penting saat Anda menghubungkan ke sistem telepon.

Untuk padanan Python, SDK openai >= 2.1.0 mengekspos klien realtime dengan nama peristiwa yang sama. Jika Anda ingin membandingkan permukaan Realtime dengan Responses API, lihat Cara Menggunakan API GPT-5.5.

Suara

Dua suara baru hadir dengan rilis ini:

Cedar: suara pria, hangat, rentang menengah. Default untuk agen umum.
Marin: suara wanita, cerah, jernih. Baik untuk terjemahan dan pengumuman.

Keduanya eksklusif untuk Realtime API. Delapan suara sebelumnya (alloy, ash, ballad, coral, echo, sage, shimmer, verse) masih tersedia dan telah disetel ulang untuk menggunakan tumpukan audio model baru, sehingga suaranya terdengar jauh lebih tidak robotik dibandingkan pada v1.

Ganti suara di tengah sesi dengan mengirimkan session.update lain dengan bidang voice baru. Tidak ada latensi tambahan dari penggantian suara.

Input gambar

Anda dapat melampirkan gambar ke giliran pengguna mana pun. Model melihatnya seperti cara GPT-4o vision melihat foto, hanya saja sekarang Anda dapat mengajukan pertanyaan lanjutan secara lisan dan model menjawab secara lisan:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Pola umum yang kami lihat dalam build produksi awal:

QA berbasis suara. Penguji mengarahkan kamera ponsel ke UI yang rusak; agen menarasikan apa yang dilihatnya dan mendiktekan laporan bug.
Dukungan lapangan. Teknisi membagikan foto panel kabel; agen memandu melalui diagnostik.
Aksesibilitas. Narasi langsung bergaya pembaca layar dari layar pengguna saat ini selama panggilan dukungan.

Untuk melihat lebih dalam tumpukan gambar OpenAI, lihat Cara Menggunakan API GPT-Image-2.

Pemanggilan fungsi dan MCP

GPT-Realtime-2 mendukung alat fungsi standar dan server MCP jarak jauh dalam sesi yang sama.

Pemanggilan fungsi standar bekerja seperti Chat Completions: deklarasikan alat dalam konfigurasi sesi, model mengeluarkan peristiwa response.function_call_arguments.delta, Anda mengeksekusi, Anda membalas dengan conversation.item.create bertipe function_call_output. Perilaku baru adalah panggilan paralel; model dapat meluncurkan dua atau tiga sekaligus dan menarasikan “memeriksa saldo Anda dan tiga transaksi terakhir Anda” saat mereka selesai.

Server MCP jarak jauh adalah perubahan yang lebih besar. Konfigurasikan URL MCP dan daftar izin alat dalam sesi, dan Realtime API sendiri yang akan mengeksekusi panggilan; kode Anda tidak perlu melakukan perjalanan bolak-balik melalui lingkaran peristiwa pemanggilan fungsi. Ini menjaga agen suara tetap responsif saat mereka mengambil dari katalog alat yang berisi lima puluh endpoint alih-alih lima.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Jika Anda menguji server MCP sebelum menghubungkannya ke agen suara, panduan pengujian server MCP di Apidog mencakup pengaturan pemutaran ulang permintaan yang kami gunakan secara internal.

Panggilan telepon SIP

Agen suara real-time dapat menerima panggilan telepon sungguhan. Arahkan trunk SIP Anda ke gateway SIP OpenAI, dan panggilan masuk akan membuka sesi WebSocket di wss://api.openai.com/v1/realtime?call_id={call_id}. Model ini menerima G.711 mu-law dan A-law secara langsung, jadi Anda tidak perlu melakukan transkoding di jembatan Anda.

Inilah bagian yang membuat GPT-Realtime-2 menjadi model pusat panggilan yang kredibel alih-alih demo browser. Ini sangat cocok dengan panggilan alat paralel dan MCP, karena sebagian besar agen telepon sebagian besar adalah pengiriman alat.

Tingkat penalaran

Lima tingkat penalaran berfungsi seperti satu tuas pengatur pada latensi vs kualitas jawaban:

Tingkat	Kasus penggunaan	Estimasi biaya latensi
`minimal`	Jawaban ya/tidak satu giliran	tidak ada
`low`	Default; dukungan dan obrolan sehari-hari	kecil
`medium`	Disambiguasi, pengiriman alat kompleks	sedang
`high`	Penalaran multi-langkah, tinjauan kode melalui suara	tinggi
`xhigh`	Benchmark, pertanyaan analitis yang sulit	tertinggi

Default adalah low. Naikkan hanya ketika Anda mengukur penurunan kualitas pada low; biaya latensi pada high dan xhigh cukup signifikan sehingga pengguna akan menyadari perbedaannya dalam panggilan.

Menguji Realtime API di Apidog

API WebSocket sulit di-debug dari terminal karena percakapan memiliki status. Apidog memiliki dukungan WebSocket kelas satu, jadi Anda bisa:

Simpan URL WebSocket dengan header OpenAI-Beta yang sudah terisi.
Siapkan urutan pesan JSON (session.update, input_audio_buffer.append, response.create) sebagai skrip.
Putar ulang skrip terhadap satu koneksi dan tangkap setiap peristiwa server ke dalam bentuk pohon.
Bandingkan dua eksekusi secara berdampingan; berguna ketika Anda mengubah upaya penalaran dan ingin membandingkan jumlah token output audio.

Unduh Apidog, buat permintaan WebSocket baru, dan tempel token bearer Anda di bawah Auth. Bentuk koleksi mencerminkan apa yang Anda simpan untuk HTTP: lingkungan untuk OPENAI_API_KEY, variabel untuk voice, skrip yang berjalan di setiap koneksi.

Untuk perbandingan dengan model multimodal cepat lainnya, lihat Cara Menggunakan API Pratinjau Gemini 3 Flash.

FAQ

ID model apa yang harus saya berikan?gpt-realtime-2. Model sebelumnya masih tersedia sebagai gpt-realtime jika Anda perlu kembali ke versi sebelumnya. Untuk versi lite, gpt-realtime-2-mini juga sudah aktif.

Bisakah saya mengalirkan audio input saat audio output masih diputar?Ya. Realtime API menggunakan deteksi aktivitas suara (VAD) sisi server secara default, jadi model akan berhenti berbicara saat pengguna mulai berbicara. Anda dapat menonaktifkan VAD dan mengelola batas giliran dari klien.

Apakah konteks 128k termasuk token audio?Ya. Audio di-tokenisasi; satu detik audio kira-kira 50 token tergantung format. Panggilan dukungan yang panjang membakar konteks lebih cepat daripada obrolan teks yang panjang, jadi periksa penggunaan sebelum Anda berasumsi jendela 128k itu murah hati.

Apakah fine-tuning didukung?Belum. Sesuai kartu model, GPT-Realtime-2 belum mendukung fine-tuning, output yang diprediksi, atau streaming teks pada Chat Completions. Endpoint Realtime secara inheren mengalirkan audio.

Bagaimana perbandingannya dengan GPT-5.5 yang dilengkapi TTS?Anda kehilangan penalaran ucapan ujung-ke-ujung. Model yang peka suara dapat menangkap nada, keraguan, dan penekanan; model teks dengan TTS tidak bisa. Untuk agen yang perlu bereaksi terhadap bagaimana pengguna berbicara, GPT-Realtime-2 adalah alat yang tepat. Untuk penalaran teks murni, lihat Cara Menggunakan API GPT-5.5.

Batas tarif apa yang berlaku?Tingkat 1 dimulai pada 40.000 token per menit dan meningkat hingga 15 Juta TPM pada Tingkat 5. Batas tarif berlaku per model, jadi kuota GPT-5 yang ada tidak terbawa.

Kesimpulan

GPT-Realtime-2 menjembatani kesenjangan antara agen suara dan agen teks. Konteks 128k, penalaran kelas GPT-5, input gambar, MCP asli, dan dukungan SIP secara bersama-sama memungkinkan pembangunan agen suara tunggal yang dapat menjawab panggilan telepon, melihat tangkapan layar, mengirimkan alat jarak jauh, dan pulih dari kegagalan di tengah kalimat, semuanya tanpa meninggalkan WebSocket. Harganya jujur di $32/$64 per juta token audio, dan input cache memangkas biaya pada prompt sistem yang stabil.

Jalur tercepat menuju produksi adalah dengan membuat skrip sesi WebSocket di Apidog, mengunci daftar alat, dan memulai dengan penalaran low. Tingkatkan hanya ketika Anda dapat mengukur kesenjangan kualitas.

button