OpenAI phát triển khả năng trí tuệ nhân tạo khi giới thiệu gpt-realtime cùng với những cải tiến đáng kể cho API Realtime. Sự phát triển này nhắm đến các nhà phát triển xây dựng ứng dụng giọng nói tương tác, cung cấp khả năng xử lý giọng nói trực tiếp từ giọng nói sang giọng nói, nắm bắt các sắc thái như âm điệu và tín hiệu phi ngôn ngữ. Các kỹ sư giờ đây có thể truy cập một mô hình xử lý đầu vào âm thanh và tạo ra phản hồi với độ trễ thấp, đánh dấu một sự thay đổi trong cách AI xử lý các cuộc hội thoại thời gian thực.
Hơn nữa, bản cập nhật này phù hợp với nhu cầu ngày càng tăng đối với các hệ thống AI đa phương thức. Các nhà phát triển tích hợp âm thanh, văn bản và hình ảnh một cách liền mạch, mở rộng khả năng cho các ứng dụng trong dịch vụ khách hàng, trợ lý ảo và giải trí tương tác. Khi chúng ta khám phá những tiến bộ này, hãy xem xét cách những cải tiến nhỏ trong thiết kế API dẫn đến những cải thiện đáng kể trong trải nghiệm người dùng.
Tìm hiểu GPT-Realtime: Mô hình cốt lõi
OpenAI ra mắt gpt-realtime như một mô hình chuyên biệt được thiết kế cho các tương tác giọng nói đầu cuối. Mô hình này loại bỏ các quy trình truyền thống tách biệt nhận dạng giọng nói, xử lý ngôn ngữ và tổng hợp văn bản thành giọng nói. Thay vào đó, nó xử lý mọi thứ trong một khuôn khổ thống nhất, giảm độ trễ và giữ lại những sắc thái tinh tế của giọng nói con người.
gpt-realtime vượt trội trong việc tạo ra đầu ra âm thanh tự nhiên. Ví dụ, nó phản hồi các hướng dẫn như "nói nhanh và chuyên nghiệp" hoặc "sử dụng giọng điệu đồng cảm với giọng Pháp". Khả năng kiểm soát chi tiết như vậy giúp các nhà phát triển điều chỉnh giọng nói AI cho các tình huống cụ thể, tăng cường sự tương tác trong các ứng dụng thực tế.
Ngoài ra, mô hình còn thể hiện trí thông minh vượt trội trong việc xử lý các đầu vào âm thanh gốc. Nó phát hiện các yếu tố phi ngôn ngữ, chẳng hạn như tiếng cười hoặc khoảng dừng, và điều chỉnh cho phù hợp. Nếu người dùng chuyển đổi ngôn ngữ giữa câu, gpt-realtime sẽ tiếp tục mà không bị gián đoạn.
Khả năng này bắt nguồn từ việc đào tạo nâng cao trên các bộ dữ liệu đa dạng, giúp nó đạt 30,5% trên điểm chuẩn âm thanh MultiChallenge—một cải tiến đáng kể so với các phiên bản trước.

Các kỹ sư đánh giá cao cách gpt-realtime tích hợp tính năng gọi hàm. Với điểm số 66,5% trên ComplexFuncBench, nó thực thi các công cụ không đồng bộ, đảm bảo các cuộc hội thoại vẫn trôi chảy ngay cả trong quá trình tính toán kéo dài. Ví dụ, trong khi AI xử lý một truy vấn cơ sở dữ liệu, nó vẫn tiếp tục tương tác với người dùng bằng các phản hồi hoặc cập nhật bổ sung.

Hơn nữa, gpt-realtime hỗ trợ các tác vụ suy luận với độ chính xác 82,8% trong đánh giá Big Bench Audio. Điều này cho phép nó xử lý các truy vấn phức tạp liên quan đến suy luận logic trực tiếp từ đầu vào âm thanh, bỏ qua hoàn toàn việc chuyển đổi văn bản.

OpenAI giới thiệu hai giọng nói mới, Marin và Cedar, độc quyền cho mô hình này, cùng với các bản cập nhật cho tám giọng nói hiện có để có đầu ra biểu cảm hơn. Những cải tiến này đảm bảo rằng các tương tác AI giống con người hơn, thu hẹp khoảng cách giữa các phản hồi được lập trình sẵn và đối thoại chân thực.
Chuyển sang các ứng dụng thực tế, các nhà phát triển tận dụng gpt-realtime để xây dựng các ứng dụng phản hồi theo thời gian thực, chẳng hạn như dịch vụ dịch thuật trực tiếp hoặc công cụ kể chuyện tương tác. Hiệu quả của mô hình giảm thiểu chi phí tính toán, làm cho nó phù hợp để triển khai trên các thiết bị biên hoặc cơ sở hạ tầng đám mây.
Các tính năng chính của API Realtime
API Realtime nhận được những nâng cấp đáng kể, bổ sung cho khả năng của gpt-realtime. OpenAI trang bị cho nó các tính năng tạo điều kiện cho các tác nhân giọng nói sẵn sàng sản xuất, tập trung vào độ tin cậy, khả năng mở rộng và dễ dàng tích hợp.
Đầu tiên, hỗ trợ máy chủ MCP (Multi-Cloud Provider) từ xa nổi bật. Các nhà phát triển cấu hình máy chủ bên ngoài cho các cuộc gọi công cụ, chẳng hạn như tích hợp với Stripe để thanh toán. Thiết lập này đơn giản hóa quy trình làm việc bằng cách chuyển giao các chức năng cụ thể cho các dịch vụ chuyên biệt. Bạn chỉ định URL máy chủ, mã thông báo ủy quyền và các yêu cầu phê duyệt trực tiếp trong phiên API.
Tiếp theo, chức năng đầu vào hình ảnh mở rộng phạm vi đa phương thức của API. Các ứng dụng thêm hình ảnh, ảnh hoặc ảnh chụp màn hình vào các phiên đang diễn ra, cho phép các cuộc hội thoại có cơ sở trực quan. Ví dụ, người dùng tải lên một sơ đồ, và AI mô tả nó hoặc trả lời các câu hỏi về nội dung của nó. Tính năng này xử lý hình ảnh như các yếu tố tĩnh, được kiểm soát bởi logic ứng dụng để duy trì ngữ cảnh.
Hơn nữa, hỗ trợ SIP (Session Initiation Protocol) kết nối API với các mạng điện thoại công cộng, hệ thống PBX và điện thoại bàn. Điều này kết nối AI kỹ thuật số với điện thoại truyền thống, cho phép các tác nhân giọng nói xử lý các cuộc gọi từ điện thoại cố định hoặc di động một cách liền mạch.
Các lời nhắc có thể tái sử dụng là một bổ sung quan trọng khác. Các nhà phát triển lưu và sử dụng lại các thông báo, công cụ, biến và ví dụ của nhà phát triển trên nhiều phiên. Điều này thúc đẩy tính nhất quán và giảm thời gian thiết lập cho các tương tác định kỳ, chẳng hạn như các kịch bản hỗ trợ khách hàng tiêu chuẩn.
API được tối ưu hóa cho các tương tác độ trễ thấp, đảm bảo độ tin cậy cao trong môi trường sản xuất. Nó xử lý các đầu vào đa phương thức—âm thanh và hình ảnh—trong khi duy trì trạng thái phiên, ngăn ngừa mất ngữ cảnh trong các cuộc hội thoại kéo dài.
Về xử lý âm thanh, API Realtime giao tiếp trực tiếp với gpt-realtime để tạo ra lời nói biểu cảm. Nó nắm bắt các sắc thái mà các hệ thống truyền thống thường bỏ qua, dẫn đến trải nghiệm người dùng hấp dẫn hơn.
Các nhà phát triển cũng được hưởng lợi từ các tính năng cấp doanh nghiệp, bao gồm EU Data Residency để tuân thủ và các cam kết về quyền riêng tư bảo vệ dữ liệu nhạy cảm.
Chuyển trọng tâm sang các số liệu hiệu suất, những bản cập nhật này cùng nhau nâng cao tiện ích của API. Ví dụ, việc gọi hàm không đồng bộ ngăn ngừa tắc nghẽn, cho phép AI thực hiện đa nhiệm mà không làm gián đoạn luồng.
Cách sử dụng API GPT-Realtime: Hướng dẫn từng bước
Các nhà phát triển tích hợp API gpt-realtime thông qua các điểm cuối và cấu hình đơn giản. Bắt đầu bằng cách lấy khóa API từ nền tảng OpenAI, đảm bảo tài khoản của bạn hỗ trợ API Realtime.
Để bắt đầu một phiên, hãy gửi yêu cầu POST để tạo khóa bí mật máy khách thời gian thực. Bao gồm các tham số phiên như công cụ và loại. Để tích hợp MCP từ xa, cấu trúc tải trọng như sau:
// POST /v1/realtime/client_secrets
{
"session": {
"type": "realtime",
"tools": [
{
"type": "mcp",
"server_label": "stripe",
"server_url": "https://mcp.stripe.com",
"authorization": "{access_token}",
"require_approval": "never"
}
]
}
}
Đoạn mã này thiết lập một công cụ cho các khoản thanh toán Stripe, trong đó API định tuyến các cuộc gọi đến máy chủ được chỉ định mà không cần người dùng phê duyệt mỗi lần.
Khi phiên bắt đầu, hãy xử lý các tương tác thời gian thực thông qua kết nối WebSocket. Thiết lập một WebSocket đến điểm cuối API Realtime, gửi luồng âm thanh dưới dạng dữ liệu nhị phân. API xử lý đầu vào và trả về đầu ra âm thanh theo thời gian thực.
Đối với đầu vào âm thanh, mã hóa giọng nói của người dùng và truyền đi. gpt-realtime phân tích âm thanh, tạo ra phản hồi dựa trên ngữ cảnh phiên. Để tích hợp hình ảnh, sử dụng sự kiện tạo mục hội thoại:
{
"type": "conversation.item.create",
"previous_item_id": null,
"item": {
"type": "message",
"role": "user",
"content": [
{
"type": "input_image",
"image_url": "data:image/png;base64,{base64_image_data}"
}
]
}
}
Thay thế {base64_image_data} bằng dữ liệu hình ảnh được mã hóa base64 thực tế. Điều này bổ sung ngữ cảnh trực quan, cho phép AI tham chiếu nó trong các phản hồi.
Quản lý trạng thái phiên bằng cách đặt giới hạn mã thông báo và cắt bớt các lượt cũ hơn để kiểm soát chi phí. Đối với các cuộc hội thoại dài, định kỳ xóa lịch sử không cần thiết trong khi vẫn giữ lại các chi tiết chính.
Để xử lý các cuộc gọi hàm, hãy định nghĩa các công cụ trong thiết lập phiên. Khi AI gọi một hàm, API sẽ thực thi nó không đồng bộ, gửi các cập nhật tạm thời để duy trì cuộc hội thoại.
Để tích hợp SIP, hãy cấu hình ứng dụng của bạn để định tuyến cuộc gọi qua các cổng tương thích. Điều này liên quan đến việc thiết lập các đường truyền SIP và liên kết chúng với các phiên API Realtime.
Việc kiểm thử các tích hợp này là rất quan trọng. Tại đây, Apidog nổi bật như một công cụ quản lý API. Nó hỗ trợ kiểm thử WebSocket, cho phép bạn mô phỏng các trao đổi âm thanh thời gian thực và kiểm tra các phản hồi. Tải xuống Apidog miễn phí để tạo mock endpoint, xác thực payload và đảm bảo kết nối liền mạch với gpt-realtime.
Trong thực tế, hãy xây dựng một tác nhân giọng nói đơn giản bằng cách kết hợp các yếu tố này. Thu nhận đầu vào micrô, truyền nó đến API và phát lại âm thanh được tạo ra. Các thư viện như WebSocket trong JavaScript hoặc mô-đun websockets của Python tạo điều kiện thuận lợi cho việc này.
Giám sát độ trễ bằng cách đo thời gian phản hồi khứ hồi. Các tối ưu hóa của OpenAI đảm bảo độ trễ dưới một giây trong hầu hết các trường hợp, nhưng điều kiện mạng ảnh hưởng đến hiệu suất.
Xử lý lỗi một cách khéo léo, chẳng hạn như thử lại các kết nối thất bại hoặc chuyển sang tương tác dựa trên văn bản nếu quá trình xử lý âm thanh gặp sự cố.
Mở rộng điều này, hãy tích hợp các lời nhắc có thể tái sử dụng. Lưu một mẫu lời nhắc với các hướng dẫn như "Luôn phản hồi một cách đồng cảm" và áp dụng nó cho các phiên mới thông qua các tham số API.
Để sử dụng nâng cao, hãy kết hợp gpt-realtime với các mô hình OpenAI khác. Định tuyến suy luận phức tạp đến GPT-4o trong khi sử dụng gpt-realtime cho I/O âm thanh, tạo ra các hệ thống lai.
Các cân nhắc về bảo mật bao gồm mã hóa dữ liệu đang truyền và quản lý mã thông báo truy cập một cách an toàn. Các cam kết về quyền riêng tư của OpenAI có ích, nhưng hãy triển khai các biện pháp bảo vệ bổ sung cho các ứng dụng nhạy cảm.
Tích hợp Apidog để quản lý API hiệu quả
Apidog nổi lên như một công cụ quan trọng cho các nhà phát triển làm việc với API gpt-realtime. Nền tảng này cung cấp các tính năng kiểm thử API, tài liệu và cộng tác toàn diện, được thiết kế riêng cho các tích hợp phức tạp như WebSocket thời gian thực.

Các kỹ sư sử dụng Apidog để thiết kế các yêu cầu API một cách trực quan, nhập các đặc tả OpenAPI và chạy các bài kiểm thử tự động. Đối với API Realtime, hãy mô phỏng luồng âm thanh và xác minh đầu vào đa phương thức mà không cần viết nhiều mã.
Hơn nữa, khả năng tạo mock của Apidog cho phép tạo mẫu trước khi triển khai đầy đủ. Tạo các máy chủ mock mô phỏng các phản hồi gpt-realtime, đẩy nhanh chu kỳ phát triển.

Công cụ này hỗ trợ cộng tác nhóm, chia sẻ các trường hợp kiểm thử và môi trường. Điều này chứng tỏ là vô giá đối với các nhóm phân tán xây dựng tác nhân giọng nói.
Vì Apidog xử lý mã hóa base64 cho hình ảnh và dữ liệu nhị phân cho âm thanh, nó đơn giản hóa việc gỡ lỗi. Theo dõi chu kỳ yêu cầu/phản hồi theo thời gian thực, xác định các điểm nghẽn sớm.
Chuyển sang triển khai, sử dụng tính năng giám sát của Apidog để đảm bảo thời gian hoạt động và hiệu suất API sau khi ra mắt.
Giá cả, Khả dụng và Ý nghĩa trong tương lai
OpenAI định giá gpt-realtime cạnh tranh, giảm 20% chi phí so với phiên bản xem trước. Tính phí 32 đô la cho 1 triệu token đầu vào âm thanh (0,40 đô la cho các token được lưu trong bộ nhớ cache) và 64 đô la cho 1 triệu token đầu ra. Cấu trúc này khuyến khích sử dụng hiệu quả, với các kiểm soát để giới hạn ngữ cảnh và cắt bớt các phiên.

API sẽ có sẵn cho tất cả các nhà phát triển vào ngày 28 tháng 8 năm 2025, với quyền truy cập toàn cầu bao gồm các khu vực EU.
Nhìn về phía trước, những tiến bộ này mở đường cho AI giọng nói phổ biến. Các ngành như chăm sóc sức khỏe áp dụng nó cho các tương tác với bệnh nhân, trong khi giáo dục sử dụng nó cho việc dạy kèm tương tác.
Tuy nhiên, những thách thức vẫn còn, chẳng hạn như đảm bảo sử dụng đạo đức và giảm thiểu sai lệch trong xử lý âm thanh.
Tóm lại, gpt-realtime và API Realtime của OpenAI định nghĩa lại AI thời gian thực, cung cấp các công cụ mà các nhà phát triển tận dụng cho các ứng dụng sáng tạo. Những điều chỉnh nhỏ trong tích hợp mang lại những lợi ích đáng kể, nhấn mạnh việc triển khai chính xác.
