GPT-Realtime-2 Là Gì? Hướng Dẫn Sử Dụng API GPT-Realtime-2

OpenAI đã ra mắt thế hệ mô hình giọng nói mới vào ngày 6 tháng 11 năm 2026, và sản phẩm nổi bật là GPT-Realtime-2: mô hình chuyển giọng nói thành giọng nói đầu tiên với khả năng suy luận cấp độ GPT-5, cửa sổ ngữ cảnh 128.000 token và khả năng cấu hình mức độ suy luận để điều chỉnh độ trễ so với chất lượng câu trả lời. Nó chạy trên giao diện Realtime API hiện có, vì vậy nếu bạn đã kết nối gpt-realtime, việc di chuyển chỉ là thay đổi chuỗi mô hình và một vài trường công cụ mới.

Hướng dẫn này bao gồm GPT-Realtime-2 là gì, những thay đổi so với mô hình trước, bảng giá đầy đủ và cách gọi nó thông qua cả WebSocket và SIP. Chúng tôi cũng bao gồm một thiết lập hoạt động trong Apidog để bạn có thể phát lại các phiên Realtime mà không cần ghi lại âm thanh mỗi lần.

Để hiểu rõ hơn về dòng mô hình 2026 rộng hơn của OpenAI, hãy xem GPT-5.5 là gì. Đối với phiên bản đa phương thức, hãy xem Cách sử dụng GPT-Image-2 API.

Tóm tắt

GPT-Realtime-2 là mô hình chuyển giọng nói thành giọng nói chủ lực của OpenAI với khả năng suy luận cấp độ GPT-5, ngữ cảnh 128k và tối đa 32k token đầu ra.
Giá âm thanh là 32 đô la cho mỗi 1 triệu token đầu vào và 64 đô la cho mỗi 1 triệu token đầu ra, với đầu vào đã lưu vào bộ nhớ đệm là 0,40 đô la/1 triệu.
Hai giọng nói mới, Cedar và Marin, độc quyền cho Realtime API; tám giọng nói hiện có đã được làm mới chất lượng.
Năm cấp độ suy luận: minimal (tối thiểu), low (thấp), medium (trung bình), high (cao), xhigh (rất cao). Mặc định là low để giảm độ trễ.
Kết nối qua WebSocket tại wss://api.openai.com/v1/realtime?model=gpt-realtime-2, hoặc nhận cuộc gọi đến qua SIP.
Các bản phát hành đi kèm: GPT-Realtime-Translate (dịch trực tiếp, 70 ngôn ngữ đầu vào, 0,034 đô la/phút) và GPT-Realtime-Whisper (chuyển giọng nói thành văn bản trực tiếp, 0,017 đô la/phút).
Sử dụng Apidog để viết tập lệnh cho phiên WebSocket, chụp khung hình và so sánh các sự kiện âm thanh giữa các lần chạy.

GPT-Realtime-2 là gì?

GPT-Realtime-2 là một mô hình chuyển giọng nói thành giọng nói duy nhất. Bạn truyền âm thanh vào, bạn truyền âm thanh ra, và mô hình xử lý chuyển đổi giọng nói thành văn bản, suy luận, lựa chọn công cụ và tạo giọng nói trong một lần. Không có quy trình STT-sau đó-LLM-sau đó-TTS; mô hình cũ đó đã được thay thế bởi gpt-realtime vào năm ngoái, và v2 cải thiện giao diện tương tự với một lõi suy luận mạnh mẽ hơn.

Mô hình chấp nhận văn bản, âm thanh và hình ảnh làm đầu vào, và phát ra văn bản và âm thanh làm đầu ra. Đầu vào hình ảnh là phương thức mới ở đây: bạn có thể thả một bức ảnh hoặc ảnh chụp màn hình vào một cuộc trò chuyện trực tiếp và yêu cầu tác nhân mô tả những gì trên màn hình của người dùng, sau đó tiếp tục nói chuyện. Điều đó giúp có thể xây dựng các trợ lý giọng nói có thể nhìn thấy những gì người dùng thấy, đây là một loại tác nhân mà mô hình trước đó không thể chạy đầu cuối.

Thông số kỹ thuật nhanh:

Thuộc tính	Giá trị
ID Mô hình	`gpt-realtime-2`
Cửa sổ ngữ cảnh	128.000 token
Đầu ra tối đa	32.000 token
Phương thức (đầu vào)	văn bản, âm thanh, hình ảnh
Phương thức (đầu ra)	văn bản, âm thanh
Ngày cắt bỏ dữ liệu	30-09-2024
Cấp độ suy luận	tối thiểu, thấp, trung bình, cao, rất cao
Gọi hàm	có
Máy chủ MCP từ xa	có
Đầu vào hình ảnh	có
Gọi điện thoại SIP	có

Có gì thay đổi so với gpt-realtime

Những cải tiến trong đánh giá là có thật, không phải chỉ là bề ngoài. So với gpt-realtime-1.5, mô hình v2 đạt được:

Big Bench Audio (trí thông minh âm thanh): 81,4% → 96,6%, tăng 15,2 điểm.
Audio MultiChallenge (thực hiện hướng dẫn): 34,7% → 48,5%, tăng 13,8 điểm.

Những điểm số này được chạy ở mức suy luận high (cao) và xhigh (rất cao). Sản xuất mặc định là low (thấp) để giảm độ trễ, vì vậy chất lượng hàng ngày nằm giữa hai đầu. Mô hình cũng có thêm bốn hành vi đáng chú ý:

Lời mở đầu. Mô hình có thể nói các cụm từ đệm ngắn như "để tôi kiểm tra" trước khi đưa ra câu trả lời thực sự, điều này che giấu độ trễ suy luận khỏi người dùng.
Gọi công cụ song song với tường thuật âm thanh. Mô hình có thể thực hiện nhiều lệnh gọi hàm cùng lúc và tường thuật tiến độ trong khi chúng được xử lý, thay vì im lặng trong hai giây.
Phục hồi mạnh mẽ hơn. Các lượt không rõ ràng hoặc thất bại một phần được xử lý một cách linh hoạt thay vì quay lại từ đầu.
Kiểm soát giọng điệu theo lĩnh vực. Thuật ngữ chuyên ngành được giữ nhất quán trong suốt một phiên dài, và mô hình điều chỉnh cách truyền tải (trang trọng, thông thường, chậm) khi bạn yêu cầu trong phiên.

Ngữ cảnh đã tăng từ 32k lên 128k token, đây là thay đổi cho phép bạn xây dựng các phiên thoại dài; các trường hợp sử dụng trong ngân hàng, hỗ trợ và dạy kèm là những điểm thắng rõ ràng.

Giá cả

GPT-Realtime-2 được tính phí theo token, với các mức giá riêng cho đầu vào văn bản, âm thanh và hình ảnh.

Loại token	Đầu vào	Đầu vào đã lưu cache	Đầu ra
Văn bản	4,00 đô la / 1 triệu	0,40 đô la / 1 triệu	24,00 đô la / 1 triệu
Âm thanh	32,00 đô la / 1 triệu	0,40 đô la / 1 triệu	64,00 đô la / 1 triệu
Hình ảnh	5,00 đô la / 1 triệu	0,50 đô la / 1 triệu	không áp dụng

Đầu vào đã lưu vào bộ nhớ đệm giảm 80 lần chi phí cho ngữ cảnh lặp lại, vì vậy bất kỳ tác nhân nào có lời nhắc hệ thống ổn định hoặc tài liệu được sử dụng lại đều nên giữ bộ nhớ cache hoạt động. Để so sánh với các dòng sản phẩm khác của OpenAI, hãy xem Giá GPT-5.5.

Các mô hình đi kèm có giá khác nhau vì chúng được tính theo phút:

GPT-Realtime-Translate: 0,034 đô la mỗi phút. Hỗ trợ 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, với Tỷ lệ lỗi từ thấp hơn 12,5% so với bất kỳ mô hình nào khác được thử nghiệm bằng tiếng Hindi, Tamil và Telugu.
GPT-Realtime-Whisper: 0,017 đô la mỗi phút. Chuyển giọng nói thành văn bản trực tiếp được xây dựng cho phụ đề trực tiếp và chuyển đổi giọng nói thành văn bản liên tục; nhanh hơn so với chạy Whisper hàng loạt trên bộ đệm luân phiên.

Chọn GPT-Realtime-2 khi bạn cần suy luận và tạo giọng nói cùng nhau, GPT-Realtime-Translate để phiên dịch đa ngôn ngữ trực tiếp và GPT-Realtime-Whisper khi bạn chỉ cần bản ghi.

Điểm cuối và xác thực

GPT-Realtime-2 được cung cấp qua nhiều điểm cuối tùy thuộc vào những gì bạn đang làm:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # cho SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Đối với các tác nhân giọng nói, điểm cuối WebSocket là cái bạn cần. Xác thực là cùng một mẫu mã thông báo bearer mà OpenAI sử dụng ở mọi nơi:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Đặt OPENAI_API_KEY một lần và sử dụng lại.

export OPENAI_API_KEY="sk-proj-..."

Kết nối qua WebSocket

Một client Node.js tối thiểu trông như thế này:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Phiên làm việc dựa trên sự kiện. Bạn gửi các khung input_audio_buffer.append khi người dùng nói, và máy chủ phát ra các sự kiện response.audio.delta khi nó phản hồi. PCM16 ở 24 kHz là mặc định an toàn; G.711 mu-law và A-law cũng được hỗ trợ, điều này quan trọng khi bạn kết nối với hệ thống điện thoại.

Đối với phiên bản Python tương đương, SDK openai >= 2.1.0 cung cấp một client realtime với cùng tên sự kiện. Nếu bạn muốn so sánh giao diện Realtime với Responses API, hãy xem Cách sử dụng GPT-5.5 API.

Giọng nói

Hai giọng nói mới được phát hành cùng bản cập nhật này:

Cedar: giọng nam trầm, trung bình, ấm áp. Mặc định cho các tác nhân tổng quát.
Marin: giọng nữ sáng, rõ ràng. Tốt cho dịch thuật và thông báo.

Cả hai đều độc quyền cho Realtime API. Tám giọng nói trước đó (alloy, ash, ballad, coral, echo, sage, shimmer, verse) vẫn có sẵn và đã được điều chỉnh lại để sử dụng ngăn xếp âm thanh của mô hình mới, vì vậy chúng nghe ít robot hơn đáng kể so với phiên bản v1.

Chuyển đổi giọng nói giữa phiên bằng cách gửi một session.update khác với trường voice mới. Không có thêm độ trễ khi đổi giọng nói.

Đầu vào hình ảnh

Bạn có thể đính kèm một hình ảnh vào bất kỳ lượt người dùng nào. Mô hình nhìn thấy nó theo cách GPT-4o vision nhìn thấy một bức ảnh, ngoại trừ bây giờ bạn có thể đặt câu hỏi tiếp theo bằng giọng nói và nó trả lời bằng giọng nói:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Các mô hình phổ biến chúng tôi thấy trong các bản dựng sản xuất sớm:

QA bằng giọng nói. Người kiểm thử hướng camera điện thoại vào giao diện người dùng bị lỗi; tác nhân kể lại những gì nó thấy và đọc báo cáo lỗi.
Hỗ trợ tại hiện trường. Kỹ thuật viên chia sẻ ảnh bảng dây; tác nhân hướng dẫn chẩn đoán.
Khả năng tiếp cận. Tường thuật trực tiếp màn hình hiện tại của người dùng theo kiểu trình đọc màn hình trong cuộc gọi hỗ trợ.

Để xem xét sâu hơn về ngăn xếp hình ảnh của OpenAI, hãy xem Cách sử dụng GPT-Image-2 API.

Gọi hàm và MCP

GPT-Realtime-2 hỗ trợ cả công cụ hàm tiêu chuẩn và máy chủ MCP từ xa trong cùng một phiên.

Gọi hàm tiêu chuẩn hoạt động như Chat Completions: khai báo công cụ trong cấu hình phiên, mô hình phát ra một sự kiện response.function_call_arguments.delta, bạn thực thi, bạn phản hồi bằng conversation.item.create loại function_call_output. Hành vi mới là các cuộc gọi song song; mô hình có thể thực hiện hai hoặc ba lệnh gọi cùng lúc và tường thuật "đang kiểm tra số dư và ba giao dịch cuối cùng của bạn" trong khi chúng được xử lý.

Máy chủ MCP từ xa là thay đổi lớn hơn. Cấu hình URL MCP và danh sách công cụ được phép trong phiên, và Realtime API tự thực hiện các cuộc gọi; mã của bạn không bao giờ phải đi qua vòng lặp sự kiện gọi hàm. Điều này giữ cho các tác nhân giọng nói phản hồi nhanh khi chúng lấy từ danh mục công cụ gồm năm mươi điểm cuối thay vì năm.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Nếu bạn đang kiểm tra máy chủ MCP trước khi kết nối chúng vào một tác nhân giọng nói, hướng dẫn kiểm tra máy chủ MCP trong Apidog bao gồm thiết lập phát lại yêu cầu mà chúng tôi sử dụng nội bộ.

Gọi điện thoại SIP

Các tác nhân giọng nói Realtime có thể nhận các cuộc gọi điện thoại thực. Hướng trunk SIP của bạn đến cổng SIP của OpenAI, và các cuộc gọi đến mở một phiên WebSocket tại wss://api.openai.com/v1/realtime?call_id={call_id}. Mô hình chấp nhận trực tiếp G.711 mu-law và A-law, vì vậy bạn không cần chuyển mã trong cầu nối của mình.

Đây là phần khiến GPT-Realtime-2 trở thành một mô hình trung tâm cuộc gọi đáng tin cậy thay vì một bản demo trình duyệt. Nó kết hợp tự nhiên với các lệnh gọi công cụ song song và MCP, bởi vì hầu hết các tác nhân điện thoại chủ yếu là điều phối công cụ.

Cấp độ suy luận

Năm cấp độ suy luận hoạt động như một bộ điều chỉnh duy nhất về độ trễ so với chất lượng câu trả lời:

Cấp độ	Trường hợp sử dụng	Chi phí độ trễ xấp xỉ
`minimal`	Câu trả lời có/không một lượt	không
`low`	Mặc định; hỗ trợ và trò chuyện hàng ngày	nhỏ
`medium`	Làm rõ nghĩa, điều phối công cụ phức tạp	vừa phải
`high`	Suy luận đa bước, đánh giá mã bằng giọng nói	cao
`xhigh`	Đánh giá hiệu năng, các câu hỏi phân tích khó	cao nhất

Mặc định là low (thấp). Chỉ tăng lên khi bạn đo lường được sự suy giảm chất lượng ở mức low; chi phí độ trễ ở mức high và xhigh là đủ lớn để người dùng nhận thấy khoảng cách trong các cuộc gọi.

Kiểm tra Realtime API trong Apidog

Các API WebSocket khó gỡ lỗi từ thiết bị đầu cuối vì cuộc hội thoại có trạng thái. Apidog có hỗ trợ WebSocket hàng đầu, vì vậy bạn có thể:

Lưu URL WebSocket với tiêu đề OpenAI-Beta được điền sẵn.
Sắp xếp một chuỗi tin nhắn JSON (session.update, input_audio_buffer.append, response.create) dưới dạng tập lệnh.
Phát lại tập lệnh trên một kết nối duy nhất và ghi lại mọi sự kiện máy chủ vào một cây.
So sánh hai lần chạy cạnh nhau; hữu ích khi bạn thay đổi mức độ suy luận và muốn so sánh số lượng token đầu ra âm thanh.

Tải xuống Apidog, tạo yêu cầu WebSocket mới và dán mã thông báo bearer của bạn vào mục Auth. Cấu trúc bộ sưu tập phản ánh những gì bạn giữ cho HTTP: môi trường cho OPENAI_API_KEY, biến cho voice, tập lệnh chạy trên mỗi kết nối.

Để so sánh với một mô hình đa phương thức nhanh khác, hãy xem Cách sử dụng Gemini 3 Flash Preview API.

Câu hỏi thường gặp

Tôi truyền ID mô hình nào?gpt-realtime-2. Mô hình trước đó vẫn có sẵn dưới dạng gpt-realtime nếu bạn cần quay lại. Đối với phiên bản nhẹ, gpt-realtime-2-mini cũng đã ra mắt.

Tôi có thể truyền âm thanh đầu vào trong khi âm thanh đầu ra vẫn đang phát không?Có. Realtime API sử dụng phát hiện hoạt động giọng nói phía máy chủ (VAD) theo mặc định, vì vậy mô hình sẽ ngừng nói khi người dùng bắt đầu. Bạn có thể tắt VAD và điều khiển ranh giới lượt từ phía client.

Ngữ cảnh 128k có bao gồm các token âm thanh không?Có. Âm thanh được chuyển đổi thành token; một giây âm thanh khoảng 50 token tùy thuộc vào định dạng. Một cuộc gọi hỗ trợ dài tiêu tốn ngữ cảnh nhanh hơn một cuộc trò chuyện văn bản dài, vì vậy hãy kiểm tra mức sử dụng trước khi bạn cho rằng cửa sổ 128k là rộng rãi.

Có hỗ trợ tinh chỉnh không?Chưa. Theo thẻ mô hình, GPT-Realtime-2 chưa hỗ trợ tinh chỉnh, đầu ra dự đoán hoặc truyền phát văn bản trên Chat Completions. Điểm cuối Realtime truyền phát âm thanh một cách tự nhiên.

Điều này so sánh thế nào với GPT-5.5 có thêm TTS?Bạn mất khả năng suy luận giọng nói đầu cuối. Một mô hình nhận biết giọng nói có thể nhận biết giọng điệu, sự do dự và sự nhấn mạnh; một mô hình văn bản có TTS thì không thể. Đối với các tác nhân cần phản ứng với *cách* người dùng nói, GPT-Realtime-2 là công cụ phù hợp. Đối với suy luận văn bản thuần túy, hãy xem Cách sử dụng GPT-5.5 API.

Những giới hạn tốc độ nào được áp dụng?Bậc 1 bắt đầu ở 40.000 token mỗi phút và tăng lên 15 triệu TPM ở Bậc 5. Giới hạn tốc độ được áp dụng cho từng mô hình, vì vậy hạn ngạch GPT-5 hiện có không được chuyển sang.

Tổng kết

GPT-Realtime-2 thu hẹp khoảng cách giữa các tác nhân giọng nói và tác nhân văn bản. Ngữ cảnh 128k, khả năng suy luận cấp độ GPT-5, đầu vào hình ảnh, MCP bản địa và hỗ trợ SIP cùng nhau giúp xây dựng một tác nhân giọng nói duy nhất có thể trả lời cuộc gọi điện thoại, nhìn vào ảnh chụp màn hình, điều động một công cụ từ xa và phục hồi từ lỗi giữa câu, tất cả mà không rời khỏi WebSocket. Giá cả minh bạch ở mức 32 đô la/64 đô la cho mỗi triệu token âm thanh, và đầu vào đã lưu vào bộ nhớ đệm giúp giảm chi phí cho các lời nhắc hệ thống ổn định.

Con đường nhanh nhất để đưa vào sản xuất là viết tập lệnh cho phiên WebSocket trong Apidog, chốt danh sách công cụ và bắt đầu với mức suy luận low (thấp). Chỉ tăng lên khi bạn có thể đo lường được khoảng cách chất lượng.

button