OpenAI o3 và o4-mini: Tiêu chí, Giá API, Nơi Sử Dụng

Cảnh quan của trí tuệ nhân tạo đang liên tục thay đổi, được đánh dấu bởi những bước nhảy vọt về khả năng mà định hình lại những gì có thể. OpenAI, một lực lượng ổn định ở tuyến đầu của sự tiến hóa này, một lần nữa đã phá vỡ ranh giới với sự ra mắt của o3 và o4-mini. Được ca ngợi là "những mô hình thông minh và có khả năng nhất cho đến nay," những sản phẩm mới này không chỉ đại diện cho một bản nâng cấp gia tăng, mà còn là một sự chuyển mình cơ bản trong cách các mô hình AI lý luận, tương tác với thông tin và nhận thức về thế giới.

Được công bố với sự mong đợi lớn, o3 và o4-mini thay thế các tiền nhiệm của chúng (o1, o3-mini, o3-mini-high) trên các nền tảng của OpenAI. Sự chuyển đổi này đánh dấu một bước tiến đáng kể, đặc biệt trong việc tích hợp lý luận đa phương thức và việc sử dụng một cách chủ động các công cụ kỹ thuật số đa dạng. Lần đầu tiên, những mô hình này không chỉ xử lý thông tin; chúng chủ động suy nghĩ bằng cách sử dụng sự kết hợp của văn bản, hình ảnh, thực thi mã, tìm kiếm trên web và phân tích tệp, tạo ra một động cơ nhận thức mạnh mẽ hơn và tổng thể hơn.

💡

Bạn muốn một công cụ Kiểm thử API tuyệt vời tạo ra Tài liệu API đẹp mắt?

Bạn muốn có một nền tảng tích hợp, Tất cả trong Một để nhóm phát triển của bạn cùng nhau làm việc với năng suất tối đa?

Apidog đáp ứng tất cả yêu cầu của bạn và thay thế Postman với giá cả phải chăng hơn nhiều!

button

Sự đổi mới cốt lõi: Tích hợp lý luận và sử dụng công cụ chủ động

Có lẽ khía cạnh đột phá nhất của o3 và o4-mini là khả năng sử dụng một cách chủ động và kết hợp mọi công cụ sẵn có trong hệ sinh thái ChatGPT. Bộ công cụ này bao gồm:

Tìm kiếm trên Web: Truy cập và tổng hợp thông tin theo thời gian thực từ internet.
Thực thi Python: Chạy mã để thực hiện tính toán, phân tích dữ liệu, hoặc mô phỏng.
Phân tích hình ảnh: Giải thích và hiểu nội dung của các hình ảnh đã tải lên.
Giải thích tệp: Đọc và lý luận về nội dung của các loại tài liệu khác nhau.
Tạo hình ảnh: Tạo ra các hình ảnh mới dựa trên các gợi ý bằng văn bản hoặc hình ảnh.

Giới thiệu OpenAI o3 và o4-mini—những mô hình thông minh và có khả năng nhất cho đến nay.

Đối với lần đầu tiên, các mô hình lý luận của chúng tôi có thể sử dụng một cách chủ động và kết hợp mọi công cụ trong ChatGPT, bao gồm tìm kiếm web, Python, phân tích hình ảnh, giải thích tệp, và tạo hình ảnh. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) 16 tháng 4, 2025

Các mô hình trước đây thường chỉ có thể gọi ra các công cụ riêng lẻ, nhưng o3 và o4-mini nâng cao khả năng này. Chúng giờ đây có thể chọn lựa, kết hợp và sử dụng các công cụ này trong một chuỗi suy nghĩ nhất quán để giải quyết những vấn đề phức tạp. Hãy tưởng tượng việc đặt một câu hỏi yêu cầu phân tích dữ liệu từ một bảng tính đã tải lên, đối chiếu với các bài báo tin tức trực tuyến gần đây, thực hiện tính toán dựa trên dữ liệu đó, và sau đó tóm tắt kết quả cùng với một sơ đồ giải thích được tạo ra. Mức độ tích hợp liền mạch này, nơi mô hình suy nghĩ thông qua các công cụ thay vì chỉ đơn thuần gọi chúng, đánh dấu một bước nhảy vọt đáng kể hướng tới các tác nhân AI linh hoạt và tự chủ hơn.

Cách tiếp cận tích hợp này cho phép các mô hình giải quyết các vấn đề đa bước, đa phương thức với sự trôi chảy chưa từng có. Nó vượt ra ngoài việc trả lời đơn giản đến việc thực hiện các nhiệm vụ phức tạp, nơi AI có thể lập kế hoạch, thu thập các nguồn lực cần thiết bằng cách sử dụng các công cụ của nó, xử lý thông tin và cung cấp một giải pháp toàn diện.

"Suy nghĩ với Hình ảnh": Vượt ra ngoài Nhận thức đến Nhận thức

Đi kèm với việc sử dụng công cụ tích hợp là một đổi mới lớn khác: khả năng của o3 và o4-mini để kết hợp các hình ảnh đã tải lên trực tiếp vào quá trình lý luận của chúng – "chuỗi suy nghĩ" của chúng. Đây là một sự tiến hóa sâu sắc từ việc chỉ "nhìn thấy" một hình ảnh (nhận diện các đối tượng hoặc trích xuất văn bản) đến việc chủ động "suy nghĩ với" nó.

"Suy nghĩ với hình ảnh" có nghĩa là gì trong thực tiễn?

Phân tích Sâu: Thay vì chỉ mô tả một biểu đồ, mô hình có thể giải thích các xu hướng, tương quan chúng với thông tin văn bản được cung cấp đi kèm, và rút ra kết luận dựa trên dữ liệu hình ảnh.
Hiểu Biến cảnh: Phân tích một bức ảnh của một thiết lập phức tạp (như thiết bị trong phòng thí nghiệm hoặc một dự án DIY) và cung cấp hướng dẫn từng bước hoặc lời khuyên khắc phục sự cố dựa trực tiếp vào bằng chứng hình ảnh.
Giải quyết Vấn đề Đa Phương Thức: Sử dụng một sơ đồ hoặc sơ đồ như một phần cốt lõi trong việc giải quyết một vấn đề kỹ thuật hoặc hiểu một quá trình sinh học được mô tả trong văn bản đi kèm.
Tích hợp Sáng tạo: Lý luận về phong cách, bố cục, hoặc nội dung cảm xúc của một hình ảnh để thông tin cho việc viết sáng tạo hoặc tạo ra các khái niệm hình ảnh liên quan.

Khả năng này biến các hình ảnh từ những đầu vào thụ động thành các thành phần chủ động trong quá trình nhận thức của AI. Nó cho phép các mô hình gắn kết lý luận của chúng trong thực tế hình ảnh, dẫn đến những đầu ra chính xác, liên quan và có hiểu biết hơn, đặc biệt là cho các nhiệm vụ liên quan đến đối tượng trong thế giới thực, sơ đồ, hình ảnh hóa dữ liệu và các cảnh phức tạp.

OpenAI o3 và o4-mini: Sự khác nhau là gì?

Khi chia sẻ các tiến bộ kiến trúc cốt lõi, o3 và o4-mini được định vị phục vụ những nhu cầu khác nhau trong lĩnh vực AI.

OpenAI o3: Cỗ máy hàng đầu

OpenAI o3 đứng vững như đỉnh cao của dòng sản phẩm mới. Nó được thiết kế để đạt hiệu suất tối đa, thiết lập các tiêu chuẩn ngành mới cho một loạt các nhiệm vụ đòi hỏi.

Điểm mạnh: o3 thể hiện khả năng tiên tiến nhất, đặc biệt trong những lĩnh vực phức tạp như:
Lập trình: Tạo mã nâng cao, gỡ lỗi và giải thích trên nhiều ngôn ngữ khác nhau.
Toán học & Khoa học: Giải quyết các bài toán toán học phức tạp, hiểu các khái niệm khoa học, và hỗ trợ với các câu hỏi cấp độ nghiên cứu.
Lý luận Hình ảnh: Xuất sắc trong việc giải thích các hình ảnh, sơ đồ và biểu đồ phức tạp, khai thác tối đa mô hình "suy nghĩ với hình ảnh" mới.
Định vị: Là mô hình lý luận mạnh mẽ nhất trong kho vũ khí của OpenAI, o3 được thiết kế cho những người dùng và nhà phát triển đối mặt với những vấn đề thách thức nhất, yêu cầu sự hiểu biết sâu sắc, lý luận tinh tế và độ chính xác tiên tiến nhất. Đây là lựa chọn khi hiệu suất là yếu tố quan trọng hàng đầu.

OpenAI o4-mini: Thông minh, Nhanh nhẹn và Có thể mở rộng

OpenAI o4-mini cung cấp sự kết hợp hấp dẫn của trí tuệ, tốc độ và hiệu quả chi phí. Trong khi o3 khai thác những giới hạn tuyệt đối của hiệu suất, o4-mini mang lại khả năng đáng kể trong một gói được tối ưu hóa để tiếp cận rộng rãi hơn và lưu lượng cao hơn.

Điểm mạnh: o4-mini cung cấp hiệu suất mạnh mẽ, đặc biệt ấn tượng với hồ sơ hiệu quả của nó. Nó xử lý hiệu quả các nhiệm vụ về toán học, lập trình và thị giác, khiến nó trở thành một mô hình đa năng có khả năng cao.
Tốc độ & Chi phí: Lợi thế chính của nó nằm ở tốc độ và chi phí vận hành thấp hơn so với o3. Điều này cho phép giới hạn sử dụng cao hơn đáng kể và làm cho nó khả thi cho các ứng dụng yêu cầu thời gian phản hồi nhanh hơn hoặc hoạt động dưới ngân sách chặt chẽ.
Định vị: o4-mini là mô hình công việc. Nó lý tưởng cho các ứng dụng yêu cầu một sự cân bằng giữa trí tuệ cao và các ràng buộc thực tiễn như độ trễ và chi phí. Nó phù hợp để gia tăng cho các ứng dụng tương tác, xử lý lượng yêu cầu lớn và cung cấp hỗ trợ AI có khả năng mà không tốn kém như mô hình hàng đầu.

Các tiêu chuẩn của o3 và o4-mini:

Các tuyên bố của OpenAI về trí thông minh vượt trội được hỗ trợ bởi các kiểm tra tiêu chuẩn nghiêm ngặt. Trong khi các điểm số cụ thể thường dao động theo các bài kiểm tra và cải tiến mới, các tiêu chuẩn ban đầu được công bố cùng với thông báo làm nổi bật những tiến bộ đáng kể đạt được bởi o3 và o4-mini.

(Lưu ý: Các mục dưới đây phản ánh các hạng mục tiêu chuẩn điển hình mà các mô hình hàng đầu được đánh giá. Chi tiết hiệu suất chính xác được cung cấp trong trang chỉ mục mô hình)

OpenAI đã trình bày kết quả tiêu chuẩn cho thấy o3 đạt hiệu suất hàng đầu trong một loạt các đánh giá tiêu chuẩn:

Kiến thức chung & Lý luận: Các bài kiểm tra như MMLU (Massive Multitask Language Understanding) và HellaSwag thường cho thấy các cải tiến đáng kể, cho thấy sự cải thiện về sự hiểu biết và lý luận thường thức. o3 được cho là thiết lập các kỷ lục mới trong các lĩnh vực này.
Lý luận Cấp độ Sau Đại Học: Các tiêu chuẩn như GPQA (Graduate-Level Google-Proof Q&A) kiểm tra kiến thức và lý luận sâu. Hiệu suất của o3 ở đây nhấn mạnh khả năng vượt trội của nó.
Toán học: Tại các tiêu chuẩn như MATH và GSM8K (Toán học cấp 1), o3 thể hiện khả năng giải quyết vấn đề vượt trội, xử lý các nhiệm vụ lý luận toán học phức tạp.
Lập trình: Các đánh giá như HumanEval và MBPP (Mostly Basic Python Problems) đo lường kỹ năng lập trình. o3 cho thấy hiệu suất hàng đầu trong việc tạo mã, hiểu và gỡ lỗi.
Hiểu biết Hình ảnh: Tại các tiêu chuẩn đa phương thức như MathVista (lý luận toán học với hình ảnh) và MMMU (Massive Multi-discipline Multimodal Understanding), o3 khai thác khả năng "suy nghĩ với hình ảnh" của nó để đạt điểm số hàng đầu, vượt xa các mô hình trước đó.

o4-mini, mặc dù không luôn luôn đạt được hiệu suất cao nhất của o3, nhưng nhất quán có điểm số cao trong các tiêu chuẩn này, thường vượt qua các mô hình hàng đầu của thế hệ trước như GPT-4 Turbo (o1). Hiệu suất của nó đặc biệt đáng chú ý khi xem xét chi phí thấp hơn và tốc độ suy luận nhanh hơn, thể hiện hiệu quả xuất sắc. Nó tự khẳng định mình như một nhà lãnh đạo trong lĩnh vực hiệu suất trên mỗi đồng.

Các tiêu chuẩn này tổng thể tạo nên một bức tranh cho thấy o3 là nhà lãnh đạo mới về khả năng thô trong văn bản, mã, toán học và thị giác, trong khi o4-mini cung cấp một lựa chọn mạnh mẽ và hiệu quả cao mà vẫn phá vỡ các giới hạn của hiệu suất AI.

Biểu đồ so sánh OpenAI o3-high vs o4-mini-high vs Google Gemini 2.5 Pro — OpenAI o3-high vs o4-mini-high vs Google Gemini 2.5 Pro

Cửa sổ ngữ cảnh của OpenAI o3 và o4-mini:

Một yếu tố quan trọng trong khả năng sử dụng của các mô hình ngôn ngữ lớn là khả năng xử lý ngữ cảnh rộng lớn và tạo ra các đầu ra chi tiết. Đối với o3 và o4-mini, OpenAI đã duy trì các thông số ấn tượng được thiết lập bởi những người tiền nhiệm ngay trước đó:

Cửa sổ Ngữ cảnh: 200.000 token: Cửa sổ ngữ cảnh lớn này cho phép các mô hình xử lý và lý luận qua một lượng lớn thông tin đồng thời. Người dùng có thể nhập các tài liệu dài, các mã nguồn lớn, hoặc các bản chuyển giao chi tiết, cho phép AI duy trì sự mạch lạc và hiểu biết trong phạm vi dữ liệu lớn. Đây là điều cần thiết cho các nhiệm vụ phức tạp như tóm tắt các báo cáo dài, phân tích mã phức tạp hoặc tham gia vào các cuộc trò chuyện dài có ý thức ngữ cảnh.
Tối đa đầu ra Token: 100.000 token: Hỗ trợ cho cửa sổ đầu vào lớn, khả năng tạo ra tới 100.000 token trong một phản hồi cho phép tạo ra nội dung dài, giải thích chi tiết, báo cáo toàn diện hoặc tạo mã dài mà không bị cắt ngẫu nhiên.

Các giới hạn rộng rãi này đảm bảo rằng cả o3 và o4-mini đều được trang bị tốt để xử lý các nhiệm vụ thực tế đòi hỏi việc xử lý và tạo ra một lượng lớn văn bản và mã.

Giá API của OpenAI o3, o4-mini:

OpenAI đã giới thiệu các bậc giá khác nhau cho các mô hình mới, phản ánh khả năng và mục đích sử dụng của chúng. Giá thường được đo theo 1 triệu token (trong đó token là các phần của từ).

Giá của OpenAI o3:

Đầu vào: 10,00 USD / 1 triệu token
Đầu vào Lưu trữ: 2,50 USD / 1 triệu token
Đầu ra: 40,00 USD / 1 triệu token

Giá cao cho o3 phản ánh vị thế của nó như một mô hình mạnh mẽ nhất. Chi phí đầu ra token cao hơn nhiều so với đầu vào cho thấy rằng việc tạo nội dung với o3 đòi hỏi tính toán nhiều hơn, phù hợp với khả năng lý luận tiên tiến của nó. Bậc "Đầu vào Lưu trữ" có khả năng cung cấp tiết kiệm chi phí khi xử lý lặp đi lặp lại cùng một ngữ cảnh đã đầu vào, có thể có lợi cho một số kiến trúc ứng dụng nhất định.

Giá của OpenAI o4-mini:

Đầu vào: 1,100 USD / 1 triệu token
Đầu vào Lưu trữ: 0,275 USD / 1 triệu token
Đầu ra: 4,400 USD / 1 triệu token

Giá cho o4-mini thấp hơn nhiều so với o3, khiến nó trở thành một lựa chọn kinh tế hơn kha khá, đặc biệt cho các ứng dụng có khối lượng cao. Các token đầu vào rẻ hơn gần 10 lần và các token đầu ra cũng rẻ hơn khoảng 9 lần. Giá cả quyết liệt này nhấn mạnh vai trò của o4-mini như một lựa chọn hiệu quả, có thể mở rộng, cung cấp hiệu suất mạnh mẽ với một phần chi phí so với mô hình chính.

Việc phân biệt giá rõ ràng cho phép người dùng và các nhà phát triển chọn mô hình phù hợp nhất với yêu cầu hiệu suất và ngân sách của họ.

Nơi sử dụng OpenAI o3 và o4-mini ngay bây giờ:

OpenAI đang triển khai o3 và o4-mini trên nhiều nền tảng và API khác nhau của mình:

Người dùng ChatGPT:

Các người dùng ChatGPT Plus, Pro và Team đã có ngay quyền truy cập vào o3, o4-mini, và một biến thể được gọi là o4-mini-high (có lẽ cung cấp một điểm hiệu suất nằm giữa mini và o3 đầy đủ), thay thế các mô hình trước đây là o1, o3-mini và o3-mini-high trong bộ chọn.
Các người dùng ChatGPT Enterprise và Edu dự kiến sẽ được tiếp cận khoảng một tuần sau khi ra mắt ban đầu.
Quan trọng là OpenAI đã tuyên bố rằng các giới hạn tần suất trên tất cả các gói vẫn không thay đổi so với bộ mô hình trước, đảm bảo một quá trình chuyển tiếp suôn sẻ cho các thuê bao hiện tại.

Các nhà phát triển (API):

Đường dẫn API Chat Completions và Responses đã ngay lập tức có cả o3 và o4-mini cho các nhà phát triển.
API Responses được nhấn mạnh như hỗ trợ các tính năng như tóm tắt lý luận và khả năng duy trì các token lý luận xung quanh các cuộc gọi hàm (cải thiện hiệu suất khi sử dụng các công cụ). OpenAI cũng lưu ý rằng các công cụ tích hợp như tìm kiếm web, tìm kiếm tệp, và trình thông dịch mã sẽ sớm được hỗ trợ trực tiếp trong quá trình lý luận của mô hình qua API này, giúp đơn giản hóa hơn nữa quá trình phát triển của các ứng dụng chủ động.

Tích hợp bên thứ ba:

Các mô hình đã nhanh chóng xuất hiện trong các công cụ phát triển phổ biến. GitHub đã thông báo về việc có sẵn o3 và o4-mini ở chế độ xem trước công khai cho GitHub Copilot và GitHub Models, cho phép các nhà phát triển tận dụng những khả năng mới trong quy trình lập trình của họ.
Cursor, một trình soạn thảo mã được hỗ trợ bởi AI khác, cũng đã thông báo hỗ trợ ngay lập tức, ban đầu cung cấp việc sử dụng o4-mini miễn phí.

Sự triển khai nhanh chóng này trên các sản phẩm hướng đến người dùng, các API nhà phát triển và các tích hợp với đối tác quan trọng đảm bảo rằng những lợi ích của o3 và o4-mini có thể được tận dụng rộng rãi và nhanh chóng.

Kết luận: Một Tương lai Thông minh và Tích hợp hơn

OpenAI's o3 và o4-mini đánh dấu một thời điểm quan trọng trong sự tiến hóa của các mô hình ngôn ngữ lớn. Bằng cách tích hợp sâu sắc việc sử dụng công cụ và kết hợp thông tin hình ảnh trực tiếp vào các quá trình lý luận của mình, những mô hình này đã vượt qua những hạn chế của các tiền nhiệm. o3 thiết lập một tiêu chuẩn mới cho sức mạnh AI thô và giải quyết các vấn đề phức tạp, đặc biệt xuất sắc trong lập trình, toán học, khoa học và lý luận hình ảnh. o4-mini, trong khi đó, cung cấp một sự kết hợp mạnh mẽ giữa trí tuệ, tốc độ và hiệu quả về chi phí, khiến khả năng AI nâng cao trở nên thực tiễn và có thể mở rộng hơn bao giờ hết.

Với lý luận nâng cao, cửa sổ ngữ cảnh mở rộng, và sự có mặt rộng rãi, o3 và o4-mini giúp người dùng, nhà phát triển và nhà nghiên cứu đối mặt với những thách thức phức tạp hơn và mở khóa những ranh giới mới của đổi mới. Chúng không chỉ là những mô hình thông minh hơn, mà là một cách thông minh hơn cho AI tương tác với sự phong phú và phức tạp của thế giới số và thị giác, tạo điều kiện cho thế hệ ứng dụng và hệ thống thông minh tiếp theo. Thời đại của lý luận AI thực sự tích hợp đã đến.

💡

button