GPT-Realtime-2 คืออะไร? วิธีใช้ GPT-Realtime-2 API

Ashley Innocent

Ashley Innocent

8 May 2026

GPT-Realtime-2 คืออะไร? วิธีใช้ GPT-Realtime-2 API

OpenAI ได้เปิดตัวโมเดลเสียงเจเนอเรชันใหม่เมื่อวันที่ 6 พฤศจิกายน 2026 โดยโมเดลเด่นที่เปิดตัวคือ GPT-Realtime-2: โมเดลเสียงพูดเป็นเสียงพูด (speech-to-speech) รุ่นแรกที่มีความสามารถในการให้เหตุผลระดับ GPT-5, มีหน้าต่างบริบท (context window) ขนาด 128,000 โทเค็น และสามารถกำหนดความพยายามในการให้เหตุผลที่ปรับความหน่วง (latency) ตามคุณภาพของคำตอบได้ โมเดลนี้ทำงานบน Realtime API ที่มีอยู่เดิม ดังนั้นหากคุณเคยเชื่อมต่อ gpt-realtime ไว้แล้ว การย้ายไปใช้งานก็เพียงแค่เปลี่ยนสตริงโมเดลและเพิ่มฟิลด์เครื่องมือใหม่ไม่กี่อย่าง

คู่มือนี้ครอบคลุมถึง GPT-Realtime-2 คืออะไร มีอะไรเปลี่ยนแปลงไปจากโมเดลก่อนหน้า ตารางราคาฉบับเต็ม และวิธีการเรียกใช้งานผ่าน WebSocket และ SIP นอกจากนี้เรายังรวมการตั้งค่าการทำงานใน Apidog เพื่อให้คุณสามารถเล่นเซสชัน Realtime ซ้ำได้โดยไม่ต้องบันทึกเสียงใหม่ทุกครั้ง

สำหรับข้อมูลเกี่ยวกับกลุ่มผลิตภัณฑ์โมเดลปี 2026 ที่กว้างขึ้นของ OpenAI โปรดดูที่ What is GPT-5.5 สำหรับโมเดลพี่น้องแบบ multimodal โปรดดูที่ How to use the GPT-Image-2 API

สรุปย่อ

GPT-Realtime-2 คืออะไร?

GPT-Realtime-2 เป็นโมเดลเสียงพูดเป็นเสียงพูดแบบเดี่ยว คุณสามารถสตรีมเสียงเข้าและสตรีมเสียงออกได้ โดยโมเดลจะจัดการการถอดเสียง, การให้เหตุผล, การเลือกเครื่องมือ และการสร้างเสียงในขั้นตอนเดียว ไม่มีไปป์ไลน์ STT-แล้ว-LLM-แล้ว-TTS อีกต่อไป รูปแบบเก่าเหล่านั้นคือสิ่งที่ gpt-realtime เข้ามาแทนที่เมื่อปีที่แล้ว และ v2 ได้ปรับปรุงพื้นผิวเดิมให้คมชัดขึ้นด้วยแกนการให้เหตุผลที่แข็งแกร่งขึ้น

โมเดลรับอินพุตเป็นข้อความ เสียง และรูปภาพ และปล่อยเอาต์พุตเป็นข้อความและเสียง อินพุตรูปภาพคือรูปแบบใหม่ในที่นี้: คุณสามารถใส่รูปภาพหรือภาพหน้าจอลงในการสนทนาสดและขอให้เอเจนต์อธิบายสิ่งที่อยู่บนหน้าจอของผู้ใช้ จากนั้นก็สนทนาต่อไปได้ ทำให้สามารถสร้างผู้ช่วยเสียงที่สามารถมองเห็นสิ่งที่ผู้ใช้เห็น ซึ่งเป็นตัวแทนประเภทที่โมเดลก่อนหน้าไม่สามารถทำงานได้ครบวงจร

ข้อมูลจำเพาะโดยสรุป:

คุณสมบัติ ค่า
รหัสโมเดล gpt-realtime-2
หน้าต่างบริบท 128,000 โทเค็น
เอาต์พุตสูงสุด 32,000 โทเค็น
รูปแบบ (ขาเข้า) ข้อความ, เสียง, รูปภาพ
รูปแบบ (ขาออก) ข้อความ, เสียง
ข้อมูลที่ใช้ในการฝึก 2024-09-30
ระดับการให้เหตุผล minimal, low, medium, high, xhigh
การเรียกใช้ฟังก์ชัน มี
เซิร์ฟเวอร์ MCP ระยะไกล มี
อินพุตรูปภาพ มี
การโทรผ่าน SIP มี

มีอะไรเปลี่ยนแปลงไปจาก gpt-realtime

ประสิทธิภาพที่เพิ่มขึ้นนี้เป็นของจริง ไม่ใช่แค่การปรับปรุงเพียงผิวเผิน เมื่อเทียบกับ gpt-realtime-1.5 โมเดล v2 มีผลลัพธ์ดังนี้:

คะแนนเหล่านี้ได้จากการให้เหตุผลระดับ high และ xhigh ในการใช้งานจริง ค่าเริ่มต้นจะตั้งไว้ที่ low เพื่อให้มีความหน่วงต่ำ ดังนั้นคุณภาพในแต่ละวันจะอยู่ระหว่างสองขีดจำกัดนี้ โมเดลยังได้เพิ่มคุณสมบัติสี่อย่างที่ควรกล่าวถึง:

บริบทเพิ่มขึ้นจาก 32k เป็น 128k โทเค็น ซึ่งเป็นการเปลี่ยนแปลงที่ทำให้คุณสามารถสร้างเซสชันเสียงที่ยาวนานได้ กรณีการใช้งานด้านการธนาคาร, การสนับสนุน และการสอน เป็นตัวอย่างที่เห็นได้ชัดเจน

ราคา

GPT-Realtime-2 ถูกเรียกเก็บเงินตามโทเค็น โดยมีอัตราที่แตกต่างกันสำหรับอินพุตที่เป็นข้อความ เสียง และรูปภาพ

ประเภทโทเค็น อินพุต อินพุตที่แคชไว้ เอาต์พุต
ข้อความ $4.00 / 1M $0.40 / 1M $24.00 / 1M
เสียง $32.00 / 1M $0.40 / 1M $64.00 / 1M
รูปภาพ $5.00 / 1M $0.50 / 1M ไม่มี

อินพุตที่แคชไว้ช่วยลดค่าใช้จ่ายลง 80 เท่า สำหรับบริบทที่ใช้ซ้ำ ดังนั้นเอเจนต์ใดๆ ที่มีพรอมต์ระบบที่เสถียรหรือเอกสารที่ใช้ซ้ำควรเก็บแคชไว้ให้พร้อม สำหรับการเปรียบเทียบกับผลิตภัณฑ์อื่นๆ ของ OpenAI โปรดดู ราคา GPT-5.5

โมเดลเสริมมีราคาแตกต่างกันเนื่องจากคิดค่าบริการเป็นนาที:

เลือก GPT-Realtime-2 เมื่อคุณต้องการความสามารถในการให้เหตุผลและการสร้างเสียงพร้อมกัน, เลือก GPT-Realtime-Translate สำหรับการแปลหลายภาษาแบบสด, และเลือก GPT-Realtime-Whisper เมื่อคุณต้องการแค่การถอดเสียง

ปลายทางและการยืนยันตัวตน

GPT-Realtime-2 ถูกเปิดเผยผ่านปลายทางหลายจุดขึ้นอยู่กับสิ่งที่คุณกำลังทำ:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # สำหรับ SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

สำหรับเอเจนต์เสียง ปลายทาง WebSocket คือสิ่งที่คุณต้องการ การยืนยันตัวตนเป็นรูปแบบ Bearer Token แบบเดียวกับที่ OpenAI ใช้ในทุกที่:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

ตั้งค่า OPENAI_API_KEY เพียงครั้งเดียวและใช้ซ้ำได้เลย

export OPENAI_API_KEY="sk-proj-..."

การเชื่อมต่อผ่าน WebSocket

ไคลเอนต์ Node.js แบบง่ายที่สุดมีลักษณะดังนี้:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

เซสชันนี้ขับเคลื่อนด้วยเหตุการณ์ คุณส่งเฟรม input_audio_buffer.append ขณะที่ผู้ใช้พูด และเซิร์ฟเวอร์จะปล่อยเหตุการณ์ response.audio.delta ในขณะที่ตอบกลับ PCM16 ที่ 24 kHz เป็นค่าเริ่มต้นที่ปลอดภัย รองรับ G.711 mu-law และ A-law ด้วย ซึ่งมีความสำคัญเมื่อคุณเชื่อมต่อกับระบบโทรศัพท์

สำหรับโค้ด Python ที่เทียบเท่ากัน openai SDK เวอร์ชั่น >= 2.1.0 มีไคลเอนต์ realtime ที่มีชื่อเหตุการณ์เดียวกัน หากคุณต้องการเปรียบเทียบพื้นผิว Realtime กับ Responses API โปรดดู How to use the GPT-5.5 API

เสียง

มีการเปิดตัวเสียงใหม่สองเสียงพร้อมกับการอัปเดตนี้:

ทั้งสองเสียงมีเฉพาะใน Realtime API เท่านั้น เสียงแปดเสียงก่อนหน้า (alloy, ash, ballad, coral, echo, sage, shimmer, verse) ยังคงใช้งานได้และได้รับการปรับแต่งใหม่เพื่อใช้สแต็กเสียงของโมเดลใหม่ ทำให้เสียงของพวกมันไม่เหมือนหุ่นยนต์เท่ารุ่น v1 อย่างเห็นได้ชัด

เปลี่ยนเสียงระหว่างเซสชันได้โดยส่ง session.update อีกครั้งพร้อมฟิลด์ voice ใหม่ ไม่มีความหน่วงเพิ่มเติมจากการสลับเสียง

อินพุตรูปภาพ

คุณสามารถแนบรูปภาพเข้ากับการโต้ตอบของผู้ใช้ใดๆ ก็ได้ โมเดลจะเห็นรูปภาพนั้นในแบบที่ GPT-4o vision เห็นภาพถ่าย ยกเว้นว่าตอนนี้คุณสามารถถามคำถามต่อเนื่องด้วยเสียงและโมเดลจะตอบกลับด้วยเสียง:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

รูปแบบทั่วไปที่เราเห็นในการสร้างผลิตภัณฑ์เบื้องต้น:

สำหรับข้อมูลเชิงลึกเกี่ยวกับสแต็กภาพของ OpenAI โปรดดู How to use the GPT-Image-2 API

การเรียกใช้ฟังก์ชันและ MCP

GPT-Realtime-2 รองรับทั้งเครื่องมือฟังก์ชันมาตรฐานและเซิร์ฟเวอร์ MCP ระยะไกลในเซสชันเดียวกัน

การเรียกใช้ฟังก์ชันมาตรฐานทำงานเหมือน Chat Completions: ประกาศเครื่องมือในการกำหนดค่าเซสชัน โมเดลจะปล่อยเหตุการณ์ response.function_call_arguments.delta คุณดำเนินการ แล้วตอบกลับด้วย conversation.item.create ประเภท function_call_output พฤติกรรมใหม่คือการเรียกใช้แบบขนาน; โมเดลสามารถเรียกใช้สองหรือสามฟังก์ชันพร้อมกันและบรรยายว่า "กำลังตรวจสอบยอดเงินและสามธุรกรรมล่าสุดของคุณ" ในขณะที่รอผลลัพธ์

เซิร์ฟเวอร์ MCP ระยะไกลคือการเปลี่ยนแปลงที่ใหญ่กว่า กำหนดค่า URL ของ MCP และรายการเครื่องมือที่อนุญาตในเซสชัน จากนั้น Realtime API จะดำเนินการเรียกใช้เอง โค้ดของคุณไม่จำเป็นต้องวนลูปผ่านเหตุการณ์การเรียกใช้ฟังก์ชัน การทำเช่นนี้ทำให้เอเจนต์เสียงตอบสนองได้ดีเมื่อดึงข้อมูลจากแค็ตตาล็อกเครื่องมือที่มีปลายทางห้าสิบรายการแทนที่จะเป็นห้า

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

หากคุณกำลังทดสอบเซิร์ฟเวอร์ MCP ก่อนที่จะเชื่อมต่อเข้ากับเอเจนต์เสียง บทความ การทดสอบเซิร์ฟเวอร์ MCP ใน Apidog จะอธิบายการตั้งค่าการเล่นซ้ำคำขอที่เราใช้ภายในองค์กร

การโทรผ่าน SIP

เอเจนต์เสียง Realtime สามารถรับสายโทรศัพท์จริงได้ ชี้ SIP trunk ของคุณไปที่เกตเวย์ SIP ของ OpenAI และสายเรียกเข้าจะเปิดเซสชัน WebSocket ที่ wss://api.openai.com/v1/realtime?call_id={call_id} โมเดลรองรับ G.711 mu-law และ A-law โดยตรง ดังนั้นคุณไม่จำเป็นต้องแปลงรหัสใน bridge ของคุณ

นี่คือส่วนที่ทำให้ GPT-Realtime-2 เป็นโมเดลที่น่าเชื่อถือสำหรับศูนย์บริการลูกค้า แทนที่จะเป็นเพียงการสาธิตในเบราว์เซอร์ มันทำงานร่วมกับการเรียกใช้เครื่องมือแบบขนานและ MCP ได้อย่างเป็นธรรมชาติ เนื่องจากเอเจนต์โทรศัพท์ส่วนใหญ่จะเน้นไปที่การส่งงานไปยังเครื่องมือต่างๆ

ระดับการให้เหตุผล

ระดับการให้เหตุผลทั้งห้าระดับทำงานเหมือนตัวควบคุมเดียวที่ปรับความหน่วงเทียบกับคุณภาพของคำตอบ:

ระดับ กรณีการใช้งาน ค่าใช้จ่ายความหน่วงโดยประมาณ
minimal คำตอบใช่/ไม่ใช่ในครั้งเดียว ไม่มี
low ค่าเริ่มต้น; การสนับสนุนและการแชทในชีวิตประจำวัน น้อย
medium การทำให้ชัดเจนขึ้น, การส่งงานเครื่องมือที่ซับซ้อน ปานกลาง
high การให้เหตุผลหลายขั้นตอน, การตรวจสอบโค้ดด้วยเสียง สูง
xhigh เกณฑ์มาตรฐาน, คำถามวิเคราะห์ที่ยาก สูงที่สุด

ค่าเริ่มต้นคือ low ขยับขึ้นไปใช้ระดับที่สูงขึ้นเมื่อคุณพบว่าคุณภาพลดลงที่ระดับ low เท่านั้น ค่าใช้จ่ายด้านความหน่วงที่ระดับ high และ xhigh นั้นมีนัยสำคัญจนผู้ใช้สังเกตเห็นความแตกต่างในการโทร

การทดสอบ Realtime API ใน Apidog

WebSocket API เป็นการยากที่จะแก้ไขข้อผิดพลาดจากเทอร์มินัลเนื่องจากการสนทนามีสถานะ Apidog มีการรองรับ WebSocket ระดับเฟิร์สคลาส คุณจึงสามารถ:

  1. บันทึก URL ของ WebSocket พร้อมกับ header OpenAI-Beta ที่กรอกไว้ล่วงหน้า
  2. จัดลำดับข้อความ JSON (session.update, input_audio_buffer.append, response.create) เป็นสคริปต์
  3. เล่นสคริปต์ซ้ำกับการเชื่อมต่อเดียวและจับเหตุการณ์เซิร์ฟเวอร์ทุกอย่างลงในโครงสร้างต้นไม้
  4. เปรียบเทียบความแตกต่างของการรันสองครั้งแบบเคียงข้างกัน; มีประโยชน์เมื่อคุณเปลี่ยนความพยายามในการให้เหตุผลและต้องการเปรียบเทียบจำนวนโทเค็นเอาต์พุตเสียง

ดาวน์โหลด Apidog สร้างคำขอ WebSocket ใหม่ และวาง bearer token ของคุณภายใต้ Auth รูปแบบคอลเล็กชันสะท้อนสิ่งที่คุณเก็บไว้สำหรับ HTTP: environments สำหรับ OPENAI_API_KEY, variables สำหรับ voice, สคริปต์ที่ทำงานในการเชื่อมต่อแต่ละครั้ง

สำหรับการเปรียบเทียบกับโมเดล multimodal ที่รวดเร็วอีกตัว โปรดดู How to use the Gemini 3 Flash Preview API

คำถามที่พบบ่อย

ฉันต้องส่ง Model ID อะไร? gpt-realtime-2 โมเดลรุ่นก่อนหน้ายังคงใช้งานได้ในชื่อ gpt-realtime หากคุณต้องการย้อนกลับ สำหรับเวอร์ชัน lite, gpt-realtime-2-mini ก็พร้อมใช้งานแล้ว

ฉันสามารถสตรีมเสียงขาเข้าในขณะที่เสียงขาออกยังคงเล่นอยู่ได้หรือไม่? ได้ Realtime API ใช้การตรวจจับกิจกรรมเสียงฝั่งเซิร์ฟเวอร์ (VAD) โดยค่าเริ่มต้น ดังนั้นโมเดลจะหยุดพูดเมื่อผู้ใช้เริ่มพูด คุณสามารถปิดใช้งาน VAD และควบคุมขอบเขตการพูดจากไคลเอนต์ได้

บริบท 128k รวมโทเค็นเสียงหรือไม่? ใช่ เสียงจะถูกแปลงเป็นโทเค็น; เสียงหนึ่งวินาทีประมาณ 50 โทเค็นขึ้นอยู่กับรูปแบบ การโทรสนับสนุนที่ยาวนานจะใช้บริบทเร็วกว่าการแชทข้อความที่ยาวนาน ดังนั้นโปรดตรวจสอบการใช้งานก่อนที่จะคิดว่าหน้าต่าง 128k นั้นกว้างขวาง

รองรับการปรับแต่งโมเดลหรือไม่? ยังไม่รองรับ ตามบัตรโมเดล GPT-Realtime-2 ยังไม่รองรับการปรับแต่งโมเดล, เอาต์พุตที่คาดการณ์ไว้ หรือการสตรีมข้อความบน Chat Completions ปลายทาง Realtime จะสตรีมเสียงโดยเนื้อแท้

สิ่งนี้แตกต่างจาก GPT-5.5 ที่มี TTS ติดตั้งมาอย่างไร? คุณจะสูญเสียความสามารถในการให้เหตุผลเสียงแบบ end-to-end โมเดลที่รับรู้เสียงสามารถรับรู้น้ำเสียง, ความลังเล และการเน้นย้ำได้; โมเดลข้อความที่มี TTS ทำไม่ได้ สำหรับเอเจนต์ที่ต้องตอบสนองต่อ วิธีการ ที่ผู้ใช้พูด GPT-Realtime-2 คือเครื่องมือที่เหมาะสม สำหรับการให้เหตุผลข้อความล้วน โปรดดู How to use the GPT-5.5 API

มีขีดจำกัดอัตราอะไรบ้าง? Tier 1 เริ่มต้นที่ 40,000 โทเค็นต่อนาที และปรับเพิ่มเป็น 15M TPM ที่ Tier 5 ขีดจำกัดอัตราเป็นไปตามโมเดล ดังนั้นโควตา GPT-5 ที่มีอยู่จะไม่ถูกนำมาใช้ร่วมกัน

สรุป

GPT-Realtime-2 ช่วยลดช่องว่างระหว่างเอเจนต์เสียงและเอเจนต์ข้อความ บริบท 128k, ความสามารถในการให้เหตุผลระดับ GPT-5, อินพุตรูปภาพ, MCP ในตัว และการรองรับ SIP ทำให้สามารถสร้างเอเจนต์เสียงเดียวที่รับสายโทรศัพท์, ดูภาพหน้าจอ, ส่งงานไปยังเครื่องมือระยะไกล และกู้คืนจากข้อผิดพลาดกลางประโยคได้ โดยทั้งหมดนี้เกิดขึ้นได้โดยไม่ต้องออกจาก WebSocket ราคาที่ยุติธรรมอยู่ที่ $32/$64 ต่อหนึ่งล้านโทเค็นเสียง และอินพุตที่แคชไว้ช่วยลดค่าใช้จ่ายสำหรับพรอมต์ระบบที่เสถียร

เส้นทางที่เร็วที่สุดในการนำไปใช้งานจริงคือการเขียนสคริปต์เซสชัน WebSocket ใน Apidog, กำหนดรายการเครื่องมือ และเริ่มต้นด้วยการให้เหตุผลระดับ low ขยับขึ้นไปใช้ระดับที่สูงขึ้นเมื่อคุณสามารถวัดช่องว่างด้านคุณภาพได้เท่านั้น

button

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API