OpenAI ได้เปิดตัวโมเดลเสียงเจเนอเรชันใหม่เมื่อวันที่ 6 พฤศจิกายน 2026 โดยโมเดลเด่นที่เปิดตัวคือ GPT-Realtime-2: โมเดลเสียงพูดเป็นเสียงพูด (speech-to-speech) รุ่นแรกที่มีความสามารถในการให้เหตุผลระดับ GPT-5, มีหน้าต่างบริบท (context window) ขนาด 128,000 โทเค็น และสามารถกำหนดความพยายามในการให้เหตุผลที่ปรับความหน่วง (latency) ตามคุณภาพของคำตอบได้ โมเดลนี้ทำงานบน Realtime API ที่มีอยู่เดิม ดังนั้นหากคุณเคยเชื่อมต่อ gpt-realtime ไว้แล้ว การย้ายไปใช้งานก็เพียงแค่เปลี่ยนสตริงโมเดลและเพิ่มฟิลด์เครื่องมือใหม่ไม่กี่อย่าง
คู่มือนี้ครอบคลุมถึง GPT-Realtime-2 คืออะไร มีอะไรเปลี่ยนแปลงไปจากโมเดลก่อนหน้า ตารางราคาฉบับเต็ม และวิธีการเรียกใช้งานผ่าน WebSocket และ SIP นอกจากนี้เรายังรวมการตั้งค่าการทำงานใน Apidog เพื่อให้คุณสามารถเล่นเซสชัน Realtime ซ้ำได้โดยไม่ต้องบันทึกเสียงใหม่ทุกครั้ง
สำหรับข้อมูลเกี่ยวกับกลุ่มผลิตภัณฑ์โมเดลปี 2026 ที่กว้างขึ้นของ OpenAI โปรดดูที่ What is GPT-5.5 สำหรับโมเดลพี่น้องแบบ multimodal โปรดดูที่ How to use the GPT-Image-2 API
สรุปย่อ
- GPT-Realtime-2 เป็นโมเดลเสียงพูดเป็นเสียงพูด (speech-to-speech) เรือธงของ OpenAI ที่มีความสามารถในการให้เหตุผลระดับ GPT-5, บริบท 128k และเอาต์พุตสูงสุด 32k โทเค็น
- ราคาเสียงอยู่ที่ $32 ต่อ 1M โทเค็นขาเข้า และ $64 ต่อ 1M โทเค็นขาออก โดยอินพุตที่แคชไว้มีราคา $0.40/1M
- เสียงใหม่สองเสียงคือ Cedar และ Marin มีเฉพาะใน Realtime API เท่านั้น; เสียงที่มีอยู่เดิมแปดเสียงได้รับการปรับปรุงคุณภาพใหม่
- ระดับการให้เหตุผลห้าระดับ:
minimal,low,medium,high,xhighค่าเริ่มต้นคือlowเพื่อความหน่วงต่ำ - เชื่อมต่อผ่าน WebSocket ที่
wss://api.openai.com/v1/realtime?model=gpt-realtime-2หรือรับสายเรียกเข้าผ่าน SIP - ผลิตภัณฑ์เสริมที่เปิดตัวพร้อมกัน: GPT-Realtime-Translate (การแปลสด, 70 ภาษาขาเข้า, $0.034/นาที) และ GPT-Realtime-Whisper (การถอดเสียงพูดเป็นข้อความแบบสตรีมมิ่ง, $0.017/นาที)
- ใช้ Apidog เพื่อเขียนสคริปต์เซสชัน WebSocket, จับเฟรม และเปรียบเทียบความแตกต่างของเหตุการณ์เสียงระหว่างการรัน
GPT-Realtime-2 คืออะไร?
GPT-Realtime-2 เป็นโมเดลเสียงพูดเป็นเสียงพูดแบบเดี่ยว คุณสามารถสตรีมเสียงเข้าและสตรีมเสียงออกได้ โดยโมเดลจะจัดการการถอดเสียง, การให้เหตุผล, การเลือกเครื่องมือ และการสร้างเสียงในขั้นตอนเดียว ไม่มีไปป์ไลน์ STT-แล้ว-LLM-แล้ว-TTS อีกต่อไป รูปแบบเก่าเหล่านั้นคือสิ่งที่ gpt-realtime เข้ามาแทนที่เมื่อปีที่แล้ว และ v2 ได้ปรับปรุงพื้นผิวเดิมให้คมชัดขึ้นด้วยแกนการให้เหตุผลที่แข็งแกร่งขึ้น

โมเดลรับอินพุตเป็นข้อความ เสียง และรูปภาพ และปล่อยเอาต์พุตเป็นข้อความและเสียง อินพุตรูปภาพคือรูปแบบใหม่ในที่นี้: คุณสามารถใส่รูปภาพหรือภาพหน้าจอลงในการสนทนาสดและขอให้เอเจนต์อธิบายสิ่งที่อยู่บนหน้าจอของผู้ใช้ จากนั้นก็สนทนาต่อไปได้ ทำให้สามารถสร้างผู้ช่วยเสียงที่สามารถมองเห็นสิ่งที่ผู้ใช้เห็น ซึ่งเป็นตัวแทนประเภทที่โมเดลก่อนหน้าไม่สามารถทำงานได้ครบวงจร
ข้อมูลจำเพาะโดยสรุป:
| คุณสมบัติ | ค่า |
|---|---|
| รหัสโมเดล | gpt-realtime-2 |
| หน้าต่างบริบท | 128,000 โทเค็น |
| เอาต์พุตสูงสุด | 32,000 โทเค็น |
| รูปแบบ (ขาเข้า) | ข้อความ, เสียง, รูปภาพ |
| รูปแบบ (ขาออก) | ข้อความ, เสียง |
| ข้อมูลที่ใช้ในการฝึก | 2024-09-30 |
| ระดับการให้เหตุผล | minimal, low, medium, high, xhigh |
| การเรียกใช้ฟังก์ชัน | มี |
| เซิร์ฟเวอร์ MCP ระยะไกล | มี |
| อินพุตรูปภาพ | มี |
| การโทรผ่าน SIP | มี |
มีอะไรเปลี่ยนแปลงไปจาก gpt-realtime
ประสิทธิภาพที่เพิ่มขึ้นนี้เป็นของจริง ไม่ใช่แค่การปรับปรุงเพียงผิวเผิน เมื่อเทียบกับ gpt-realtime-1.5 โมเดล v2 มีผลลัพธ์ดังนี้:
- Big Bench Audio (ความฉลาดด้านเสียง): 81.4% → 96.6% เพิ่มขึ้น 15.2 จุด
- Audio MultiChallenge (การปฏิบัติตามคำสั่ง): 34.7% → 48.5% เพิ่มขึ้น 13.8 จุด
คะแนนเหล่านี้ได้จากการให้เหตุผลระดับ high และ xhigh ในการใช้งานจริง ค่าเริ่มต้นจะตั้งไว้ที่ low เพื่อให้มีความหน่วงต่ำ ดังนั้นคุณภาพในแต่ละวันจะอยู่ระหว่างสองขีดจำกัดนี้ โมเดลยังได้เพิ่มคุณสมบัติสี่อย่างที่ควรกล่าวถึง:
- คำเกริ่นนำ โมเดลสามารถพูดวลีสั้นๆ เพื่อเติมเต็ม เช่น "ขอตรวจสอบสักครู่" ก่อนที่จะให้คำตอบที่แท้จริง ซึ่งช่วยซ่อนความหน่วงในการให้เหตุผลจากผู้ใช้
- การเรียกใช้เครื่องมือแบบขนานพร้อมการบรรยายด้วยเสียง โมเดลสามารถเรียกใช้ฟังก์ชันหลายรายการพร้อมกันและบรรยายความคืบหน้าในขณะที่รอผลลัพธ์ แทนที่จะเงียบไปสองสามวินาที
- การกู้คืนที่แข็งแกร่งขึ้น การโต้ตอบที่กำกวมหรือล้มเหลวบางส่วนจะถูกจัดการอย่างราบรื่นแทนที่จะวนกลับไปที่จุดเริ่มต้น
- การควบคุมโทนเสียงตามโดเมน ศัพท์เฉพาะทางจะคงที่ตลอดเซสชันที่ยาวนาน และโมเดลจะปรับรูปแบบการนำเสนอ (เป็นทางการ, ไม่เป็นทางการ, ช้า) เมื่อคุณร้องขอในเซสชัน

บริบทเพิ่มขึ้นจาก 32k เป็น 128k โทเค็น ซึ่งเป็นการเปลี่ยนแปลงที่ทำให้คุณสามารถสร้างเซสชันเสียงที่ยาวนานได้ กรณีการใช้งานด้านการธนาคาร, การสนับสนุน และการสอน เป็นตัวอย่างที่เห็นได้ชัดเจน
ราคา
GPT-Realtime-2 ถูกเรียกเก็บเงินตามโทเค็น โดยมีอัตราที่แตกต่างกันสำหรับอินพุตที่เป็นข้อความ เสียง และรูปภาพ
| ประเภทโทเค็น | อินพุต | อินพุตที่แคชไว้ | เอาต์พุต |
|---|---|---|---|
| ข้อความ | $4.00 / 1M | $0.40 / 1M | $24.00 / 1M |
| เสียง | $32.00 / 1M | $0.40 / 1M | $64.00 / 1M |
| รูปภาพ | $5.00 / 1M | $0.50 / 1M | ไม่มี |
อินพุตที่แคชไว้ช่วยลดค่าใช้จ่ายลง 80 เท่า สำหรับบริบทที่ใช้ซ้ำ ดังนั้นเอเจนต์ใดๆ ที่มีพรอมต์ระบบที่เสถียรหรือเอกสารที่ใช้ซ้ำควรเก็บแคชไว้ให้พร้อม สำหรับการเปรียบเทียบกับผลิตภัณฑ์อื่นๆ ของ OpenAI โปรดดู ราคา GPT-5.5
โมเดลเสริมมีราคาแตกต่างกันเนื่องจากคิดค่าบริการเป็นนาที:
- GPT-Realtime-Translate: $0.034 ต่อนาที รองรับ 70 ภาษาขาเข้า และ 13 ภาษาขาออก โดยมีอัตราความผิดพลาดของคำ (Word Error Rate) ต่ำกว่า 12.5% เมื่อเทียบกับโมเดลอื่นๆ ที่ทดสอบในภาษาฮินดี ทมิฬ และเตลูกู
- GPT-Realtime-Whisper: $0.017 ต่อนาที การแปลงเสียงพูดเป็นข้อความแบบสตรีมมิ่งที่สร้างขึ้นสำหรับการแสดงคำบรรยายสดและการถอดความต่อเนื่อง; เร็วกว่าการรัน Whisper แบบแบตช์บนบัฟเฟอร์แบบโรลลิ่ง
เลือก GPT-Realtime-2 เมื่อคุณต้องการความสามารถในการให้เหตุผลและการสร้างเสียงพร้อมกัน, เลือก GPT-Realtime-Translate สำหรับการแปลหลายภาษาแบบสด, และเลือก GPT-Realtime-Whisper เมื่อคุณต้องการแค่การถอดเสียง
ปลายทางและการยืนยันตัวตน
GPT-Realtime-2 ถูกเปิดเผยผ่านปลายทางหลายจุดขึ้นอยู่กับสิ่งที่คุณกำลังทำ:
POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS wss://api.openai.com/v1/realtime?call_id={call_id} # สำหรับ SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions
สำหรับเอเจนต์เสียง ปลายทาง WebSocket คือสิ่งที่คุณต้องการ การยืนยันตัวตนเป็นรูปแบบ Bearer Token แบบเดียวกับที่ OpenAI ใช้ในทุกที่:
Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1
ตั้งค่า OPENAI_API_KEY เพียงครั้งเดียวและใช้ซ้ำได้เลย
export OPENAI_API_KEY="sk-proj-..."
การเชื่อมต่อผ่าน WebSocket
ไคลเอนต์ Node.js แบบง่ายที่สุดมีลักษณะดังนี้:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "cedar",
instructions: "You are a friendly support agent for a fintech app.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
reasoning: { effort: "low" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
// base64 PCM16 audio chunk; pipe to your speaker or browser
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
เซสชันนี้ขับเคลื่อนด้วยเหตุการณ์ คุณส่งเฟรม input_audio_buffer.append ขณะที่ผู้ใช้พูด และเซิร์ฟเวอร์จะปล่อยเหตุการณ์ response.audio.delta ในขณะที่ตอบกลับ PCM16 ที่ 24 kHz เป็นค่าเริ่มต้นที่ปลอดภัย รองรับ G.711 mu-law และ A-law ด้วย ซึ่งมีความสำคัญเมื่อคุณเชื่อมต่อกับระบบโทรศัพท์
สำหรับโค้ด Python ที่เทียบเท่ากัน openai SDK เวอร์ชั่น >= 2.1.0 มีไคลเอนต์ realtime ที่มีชื่อเหตุการณ์เดียวกัน หากคุณต้องการเปรียบเทียบพื้นผิว Realtime กับ Responses API โปรดดู How to use the GPT-5.5 API
เสียง
มีการเปิดตัวเสียงใหม่สองเสียงพร้อมกับการอัปเดตนี้:
- Cedar: เสียงผู้ชายโทนอบอุ่น ระดับกลาง ค่าเริ่มต้นสำหรับเอเจนต์ทั่วไป
- Marin: เสียงผู้หญิงโทนสดใส ชัดเจน เหมาะสำหรับการแปลและการประกาศ
ทั้งสองเสียงมีเฉพาะใน Realtime API เท่านั้น เสียงแปดเสียงก่อนหน้า (alloy, ash, ballad, coral, echo, sage, shimmer, verse) ยังคงใช้งานได้และได้รับการปรับแต่งใหม่เพื่อใช้สแต็กเสียงของโมเดลใหม่ ทำให้เสียงของพวกมันไม่เหมือนหุ่นยนต์เท่ารุ่น v1 อย่างเห็นได้ชัด
เปลี่ยนเสียงระหว่างเซสชันได้โดยส่ง session.update อีกครั้งพร้อมฟิลด์ voice ใหม่ ไม่มีความหน่วงเพิ่มเติมจากการสลับเสียง
อินพุตรูปภาพ
คุณสามารถแนบรูปภาพเข้ากับการโต้ตอบของผู้ใช้ใดๆ ก็ได้ โมเดลจะเห็นรูปภาพนั้นในแบบที่ GPT-4o vision เห็นภาพถ่าย ยกเว้นว่าตอนนี้คุณสามารถถามคำถามต่อเนื่องด้วยเสียงและโมเดลจะตอบกลับด้วยเสียง:
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "message",
role: "user",
content: [
{ type: "input_image", image_url: "https://example.com/screenshot.png" },
{ type: "input_text", text: "What does this error mean?" },
],
},
}));
ws.send(JSON.stringify({ type: "response.create" }));
รูปแบบทั่วไปที่เราเห็นในการสร้างผลิตภัณฑ์เบื้องต้น:
- การควบคุมคุณภาพด้วยเสียง ผู้ทดสอบใช้กล้องโทรศัพท์ชี้ไปที่ UI ที่มีปัญหา เอเจนต์จะบรรยายสิ่งที่เห็นและออกคำสั่งรายงานข้อบกพร่อง
- การสนับสนุนภาคสนาม ช่างเทคนิคแชร์รูปภาพแผงวงจร เอเจนต์จะแนะนำขั้นตอนการวินิจฉัย
- การเข้าถึง การบรรยายหน้าจอของผู้ใช้แบบเรียลไทม์ในสไตล์โปรแกรมอ่านหน้าจอระหว่างการโทรขอความช่วยเหลือ
สำหรับข้อมูลเชิงลึกเกี่ยวกับสแต็กภาพของ OpenAI โปรดดู How to use the GPT-Image-2 API
การเรียกใช้ฟังก์ชันและ MCP
GPT-Realtime-2 รองรับทั้งเครื่องมือฟังก์ชันมาตรฐานและเซิร์ฟเวอร์ MCP ระยะไกลในเซสชันเดียวกัน
การเรียกใช้ฟังก์ชันมาตรฐานทำงานเหมือน Chat Completions: ประกาศเครื่องมือในการกำหนดค่าเซสชัน โมเดลจะปล่อยเหตุการณ์ response.function_call_arguments.delta คุณดำเนินการ แล้วตอบกลับด้วย conversation.item.create ประเภท function_call_output พฤติกรรมใหม่คือการเรียกใช้แบบขนาน; โมเดลสามารถเรียกใช้สองหรือสามฟังก์ชันพร้อมกันและบรรยายว่า "กำลังตรวจสอบยอดเงินและสามธุรกรรมล่าสุดของคุณ" ในขณะที่รอผลลัพธ์
เซิร์ฟเวอร์ MCP ระยะไกลคือการเปลี่ยนแปลงที่ใหญ่กว่า กำหนดค่า URL ของ MCP และรายการเครื่องมือที่อนุญาตในเซสชัน จากนั้น Realtime API จะดำเนินการเรียกใช้เอง โค้ดของคุณไม่จำเป็นต้องวนลูปผ่านเหตุการณ์การเรียกใช้ฟังก์ชัน การทำเช่นนี้ทำให้เอเจนต์เสียงตอบสนองได้ดีเมื่อดึงข้อมูลจากแค็ตตาล็อกเครื่องมือที่มีปลายทางห้าสิบรายการแทนที่จะเป็นห้า
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "mcp",
server_url: "https://mcp.example.com/sse",
allowed_tools: ["lookup_account", "list_transactions"],
}],
},
}));
หากคุณกำลังทดสอบเซิร์ฟเวอร์ MCP ก่อนที่จะเชื่อมต่อเข้ากับเอเจนต์เสียง บทความ การทดสอบเซิร์ฟเวอร์ MCP ใน Apidog จะอธิบายการตั้งค่าการเล่นซ้ำคำขอที่เราใช้ภายในองค์กร
การโทรผ่าน SIP
เอเจนต์เสียง Realtime สามารถรับสายโทรศัพท์จริงได้ ชี้ SIP trunk ของคุณไปที่เกตเวย์ SIP ของ OpenAI และสายเรียกเข้าจะเปิดเซสชัน WebSocket ที่ wss://api.openai.com/v1/realtime?call_id={call_id} โมเดลรองรับ G.711 mu-law และ A-law โดยตรง ดังนั้นคุณไม่จำเป็นต้องแปลงรหัสใน bridge ของคุณ
นี่คือส่วนที่ทำให้ GPT-Realtime-2 เป็นโมเดลที่น่าเชื่อถือสำหรับศูนย์บริการลูกค้า แทนที่จะเป็นเพียงการสาธิตในเบราว์เซอร์ มันทำงานร่วมกับการเรียกใช้เครื่องมือแบบขนานและ MCP ได้อย่างเป็นธรรมชาติ เนื่องจากเอเจนต์โทรศัพท์ส่วนใหญ่จะเน้นไปที่การส่งงานไปยังเครื่องมือต่างๆ
ระดับการให้เหตุผล
ระดับการให้เหตุผลทั้งห้าระดับทำงานเหมือนตัวควบคุมเดียวที่ปรับความหน่วงเทียบกับคุณภาพของคำตอบ:
| ระดับ | กรณีการใช้งาน | ค่าใช้จ่ายความหน่วงโดยประมาณ |
|---|---|---|
minimal |
คำตอบใช่/ไม่ใช่ในครั้งเดียว | ไม่มี |
low |
ค่าเริ่มต้น; การสนับสนุนและการแชทในชีวิตประจำวัน | น้อย |
medium |
การทำให้ชัดเจนขึ้น, การส่งงานเครื่องมือที่ซับซ้อน | ปานกลาง |
high |
การให้เหตุผลหลายขั้นตอน, การตรวจสอบโค้ดด้วยเสียง | สูง |
xhigh |
เกณฑ์มาตรฐาน, คำถามวิเคราะห์ที่ยาก | สูงที่สุด |
ค่าเริ่มต้นคือ low ขยับขึ้นไปใช้ระดับที่สูงขึ้นเมื่อคุณพบว่าคุณภาพลดลงที่ระดับ low เท่านั้น ค่าใช้จ่ายด้านความหน่วงที่ระดับ high และ xhigh นั้นมีนัยสำคัญจนผู้ใช้สังเกตเห็นความแตกต่างในการโทร
การทดสอบ Realtime API ใน Apidog
WebSocket API เป็นการยากที่จะแก้ไขข้อผิดพลาดจากเทอร์มินัลเนื่องจากการสนทนามีสถานะ Apidog มีการรองรับ WebSocket ระดับเฟิร์สคลาส คุณจึงสามารถ:

- บันทึก URL ของ WebSocket พร้อมกับ header
OpenAI-Betaที่กรอกไว้ล่วงหน้า - จัดลำดับข้อความ JSON (session.update, input_audio_buffer.append, response.create) เป็นสคริปต์
- เล่นสคริปต์ซ้ำกับการเชื่อมต่อเดียวและจับเหตุการณ์เซิร์ฟเวอร์ทุกอย่างลงในโครงสร้างต้นไม้
- เปรียบเทียบความแตกต่างของการรันสองครั้งแบบเคียงข้างกัน; มีประโยชน์เมื่อคุณเปลี่ยนความพยายามในการให้เหตุผลและต้องการเปรียบเทียบจำนวนโทเค็นเอาต์พุตเสียง
ดาวน์โหลด Apidog สร้างคำขอ WebSocket ใหม่ และวาง bearer token ของคุณภายใต้ Auth รูปแบบคอลเล็กชันสะท้อนสิ่งที่คุณเก็บไว้สำหรับ HTTP: environments สำหรับ OPENAI_API_KEY, variables สำหรับ voice, สคริปต์ที่ทำงานในการเชื่อมต่อแต่ละครั้ง
สำหรับการเปรียบเทียบกับโมเดล multimodal ที่รวดเร็วอีกตัว โปรดดู How to use the Gemini 3 Flash Preview API
คำถามที่พบบ่อย
ฉันต้องส่ง Model ID อะไร? gpt-realtime-2 โมเดลรุ่นก่อนหน้ายังคงใช้งานได้ในชื่อ gpt-realtime หากคุณต้องการย้อนกลับ สำหรับเวอร์ชัน lite, gpt-realtime-2-mini ก็พร้อมใช้งานแล้ว
ฉันสามารถสตรีมเสียงขาเข้าในขณะที่เสียงขาออกยังคงเล่นอยู่ได้หรือไม่? ได้ Realtime API ใช้การตรวจจับกิจกรรมเสียงฝั่งเซิร์ฟเวอร์ (VAD) โดยค่าเริ่มต้น ดังนั้นโมเดลจะหยุดพูดเมื่อผู้ใช้เริ่มพูด คุณสามารถปิดใช้งาน VAD และควบคุมขอบเขตการพูดจากไคลเอนต์ได้
บริบท 128k รวมโทเค็นเสียงหรือไม่? ใช่ เสียงจะถูกแปลงเป็นโทเค็น; เสียงหนึ่งวินาทีประมาณ 50 โทเค็นขึ้นอยู่กับรูปแบบ การโทรสนับสนุนที่ยาวนานจะใช้บริบทเร็วกว่าการแชทข้อความที่ยาวนาน ดังนั้นโปรดตรวจสอบการใช้งานก่อนที่จะคิดว่าหน้าต่าง 128k นั้นกว้างขวาง
รองรับการปรับแต่งโมเดลหรือไม่? ยังไม่รองรับ ตามบัตรโมเดล GPT-Realtime-2 ยังไม่รองรับการปรับแต่งโมเดล, เอาต์พุตที่คาดการณ์ไว้ หรือการสตรีมข้อความบน Chat Completions ปลายทาง Realtime จะสตรีมเสียงโดยเนื้อแท้
สิ่งนี้แตกต่างจาก GPT-5.5 ที่มี TTS ติดตั้งมาอย่างไร? คุณจะสูญเสียความสามารถในการให้เหตุผลเสียงแบบ end-to-end โมเดลที่รับรู้เสียงสามารถรับรู้น้ำเสียง, ความลังเล และการเน้นย้ำได้; โมเดลข้อความที่มี TTS ทำไม่ได้ สำหรับเอเจนต์ที่ต้องตอบสนองต่อ วิธีการ ที่ผู้ใช้พูด GPT-Realtime-2 คือเครื่องมือที่เหมาะสม สำหรับการให้เหตุผลข้อความล้วน โปรดดู How to use the GPT-5.5 API
มีขีดจำกัดอัตราอะไรบ้าง? Tier 1 เริ่มต้นที่ 40,000 โทเค็นต่อนาที และปรับเพิ่มเป็น 15M TPM ที่ Tier 5 ขีดจำกัดอัตราเป็นไปตามโมเดล ดังนั้นโควตา GPT-5 ที่มีอยู่จะไม่ถูกนำมาใช้ร่วมกัน
สรุป
GPT-Realtime-2 ช่วยลดช่องว่างระหว่างเอเจนต์เสียงและเอเจนต์ข้อความ บริบท 128k, ความสามารถในการให้เหตุผลระดับ GPT-5, อินพุตรูปภาพ, MCP ในตัว และการรองรับ SIP ทำให้สามารถสร้างเอเจนต์เสียงเดียวที่รับสายโทรศัพท์, ดูภาพหน้าจอ, ส่งงานไปยังเครื่องมือระยะไกล และกู้คืนจากข้อผิดพลาดกลางประโยคได้ โดยทั้งหมดนี้เกิดขึ้นได้โดยไม่ต้องออกจาก WebSocket ราคาที่ยุติธรรมอยู่ที่ $32/$64 ต่อหนึ่งล้านโทเค็นเสียง และอินพุตที่แคชไว้ช่วยลดค่าใช้จ่ายสำหรับพรอมต์ระบบที่เสถียร
เส้นทางที่เร็วที่สุดในการนำไปใช้งานจริงคือการเขียนสคริปต์เซสชัน WebSocket ใน Apidog, กำหนดรายการเครื่องมือ และเริ่มต้นด้วยการให้เหตุผลระดับ low ขยับขึ้นไปใช้ระดับที่สูงขึ้นเมื่อคุณสามารถวัดช่องว่างด้านคุณภาพได้เท่านั้น
button
