OpenAI o3 dan o4-mini: Benchmark, Harga API, Tempat Penggunaan

Lanskap kecerdasan buatan terus berubah, ditandai oleh lompatan dalam kemampuan yang mendefinisikan kembali apa yang mungkin. OpenAI, kekuatan yang konsisten di garis depan evolusi ini, sekali lagi mendorong batasan dengan pengenalan o3 dan o4-mini. Dianggap sebagai "model paling cerdas dan paling mampu hingga saat ini," penawaran baru ini tidak hanya mewakili peningkatan bertahap, tetapi juga pergeseran mendasar dalam cara model AI berpikir, berinteraksi dengan informasi, dan memahami dunia.

Diumumkan dengan antisipasi yang besar, o3 dan o4-mini menggantikan pendahulunya (o1, o3-mini, o3-mini-high) di seluruh platform OpenAI. Transisi ini menandakan kemajuan yang signifikan, terutama dalam integrasi penalaran multimodal dan penggunaan alat digital yang beragam secara agen. Untuk pertama kalinya, model-model ini tidak hanya memproses informasi; mereka aktif berpikir menggunakan kombinasi teks, gambar, eksekusi kode, pencarian web, dan analisis file, menciptakan mesin kognitif yang lebih holistik dan kuat.

💡

Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

button

o3 dan o4 mini: Penggunaan Alat Terintegrasi dan Penalaran Agen

Mungkin aspek paling mendasar dari o3 dan o4-mini adalah kemampuan mereka untuk secara agen menggunakan dan menggabungkan setiap alat yang tersedia dalam ekosistem ChatGPT. Suite ini mencakup:

Pencarian Web: Mengakses dan mensintesis informasi waktu nyata dari internet.
Eksekusi Python: Menjalankan kode untuk melakukan perhitungan, analisis data, atau simulasi.
Analisis Gambar: Menginterpretasikan dan memahami konten gambar yang diunggah.
Interpretasi File: Membaca dan menalar tentang isi berbagai jenis dokumen.
Generasi Gambar: Membuat gambar baru berdasarkan prompt teks atau visual.

Memperkenalkan OpenAI o3 dan o4-mini—model kami yang paling cerdas dan paling mampu hingga saat ini.

Untuk pertama kalinya, model penalaran kami dapat secara agen menggunakan dan menggabungkan setiap alat dalam ChatGPT, termasuk pencarian web, Python, analisis gambar, interpretasi file, dan generasi gambar. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) 16 April 2025

Model-model sebelumnya sering kali dapat memanggil alat individu, tetapi o3 dan o4-mini meningkatkan kemampuan ini. Mereka sekarang dapat secara strategis memilih, menggabungkan, dan memanfaatkan alat-alat ini dalam satu rangkaian pemikiran yang koheren untuk memecahkan masalah kompleks. Bayangkan mengajukan pertanyaan yang memerlukan analisis data dari spreadsheet yang diunggah, mencocokkan temuan dengan artikel berita terbaru, melakukan perhitungan berdasarkan data tersebut, dan kemudian merangkum hasilnya bersama dengan diagram penjelasan yang dihasilkan. Tingkat integrasi tanpa batas ini, di mana model menalar melalui alat-alat tersebut daripada sekadar memanggil mereka, menandai lompatan signifikan menuju agen AI yang lebih serbaguna dan otonom.

Pendekatan terintegrasi ini memungkinkan model untuk menangani masalah multi-langkah, multi-modal dengan kelancaran yang belum pernah terjadi sebelumnya. Ini bergerak melampaui sekadar menjawab pertanyaan menuju pelaksanaan tugas yang kompleks, di mana AI dapat merumuskan rencana, mengumpulkan sumber daya yang diperlukan menggunakan alat-alatnya, memproses informasi, dan memberikan solusi yang komprehensif.

"Berpikir dengan Gambar": Melampaui Persepsi ke Kognisi

Melengkapi penggunaan alat terintegrasi adalah inovasi utama lainnya: kemampuan untuk o3 dan o4-mini untuk menggabungkan gambar yang diunggah langsung ke dalam proses penalaran mereka – "rantai pemikiran" mereka. Ini adalah evolusi yang mendalam dari sekadar "melihat" gambar (mengidentifikasi objek atau mengekstrak teks) menjadi secara aktif "berpikir dengan" gambar tersebut.

Apa arti "berpikir dengan gambar" dalam praktiknya?

Analisis yang Lebih Dalam: Alih-alih hanya mendeskripsikan grafik, model dapat menginterpretasikan tren, menghubungkannya dengan informasi tekstual yang disediakan bersamaan, dan menarik kesimpulan berdasarkan data visual.
Pemahaman Kontekstual: Menganalisis foto dari pengaturan kompleks (seperti peralatan laboratorium atau proyek DIY) dan memberikan instruksi langkah demi langkah atau saran pemecahan masalah berdasarkan bukti visual yang ada.
Penyelesaian Masalah Multi-Modal: Menggunakan diagram atau skema sebagai bagian inti dari penyelesaian masalah rekayasa atau memahami proses biologis yang dijelaskan dalam teks yang menyertainya.
Integrasi Kreatif: Menalar tentang gaya, komposisi, atau konten emosional dari sebuah gambar untuk menginformasikan penulisan kreatif atau menghasilkan konsep visual terkait.

Kemampuan ini mengubah gambar dari input pasif menjadi komponen aktif dari proses kognitif AI. Ini memungkinkan model untuk mengaitkan penalarannya dengan realitas visual, menghasilkan keluaran yang lebih akurat, relevan, dan berwawasan, terutama untuk tugas yang melibatkan objek dunia nyata, diagram, visualisasi data, dan adegan kompleks.

OpenAI o3 dan o4-mini: Apa Bedanya?

Sementara berbagi kemajuan arsitektur inti, o3 dan o4-mini diposisikan untuk melayani kebutuhan yang berbeda dalam lanskap AI.

OpenAI o3: Tenaga Utama Unggulan

OpenAI o3 berdiri sebagai puncak dari lineup baru. Ini dirancang untuk kinerja maksimum, menetapkan tolok ukur industri baru di berbagai tugas yang menuntut.

Kekuatan: o3 menunjukkan kemampuan terdepan, terutama di domain kompleks seperti:
Pemrograman: Generasi kode lanjutan, debugging, dan penjelasan di berbagai bahasa.
Matematika & Sains: Memecahkan masalah matematika kompleks, memahami konsep ilmiah, dan membantu dengan pertanyaan tingkat penelitian.
Pemahaman Visual: Unggul dalam menginterpretasikan gambar, diagram, dan grafik yang rumit, memanfaatkan paradigma "berpikir dengan gambar" baru sepenuhnya.
Posisi: Sebagai model penalaran paling kuat dalam arsenal OpenAI, o3 dirancang untuk pengguna dan pengembang yang menghadapi masalah paling menantang, yang memerlukan pemahaman mendalam, penalaran yang cermat, dan akurasi mutakhir. Ini adalah pilihan saat kinerja menjadi hal yang utama.

OpenAI o4-mini: Cerdas, Cepat, dan Scalable

OpenAI o4-mini menawarkan kombinasi cerdas antara kecerdasan, kecepatan, dan efisiensi biaya. Sementara o3 mendorong batas kinerja absolut, o4-mini memberikan kemampuan yang sangat kuat dalam paket yang dioptimalkan untuk aksesibilitas yang lebih luas dan throughput yang lebih tinggi.

Kekuatan: o4-mini memberikan kinerja yang kuat, terutama mengesankan mengingat profil efisiensinya. Ini menangani tugas dalam matematika, pemrograman, dan visi secara efektif, menjadikannya model serbaguna yang sangat mampu.
Kecepatan & Biaya: Keuntungan utamanya terletak pada kecepatan dan biaya operasional yang lebih rendah dibandingkan o3. Ini memungkinkan batas penggunaan yang jauh lebih tinggi dan membuatnya layak untuk aplikasi yang memerlukan waktu respons yang lebih cepat atau beroperasi dengan anggaran yang lebih ketat.
Posisi: o4-mini adalah model kerja keras. Ini ideal untuk aplikasi yang menuntut keseimbangan antara kecerdasan tinggi dan batasan praktis seperti latensi dan biaya. Ini cocok untuk mendukung aplikasi interaktif, menangani volume permintaan yang besar, dan memberikan bantuan AI yang mampu tanpa biaya tambahan dari model unggulan.

Benchmark o3 dan o4 mini:

Klaim OpenAI tentang kecerdasan yang superior didukung oleh pengujian yang ketat. Sementara skor spesifik sering berfluktuasi dengan pengujian dan penyempurnaan baru, benchmark awal yang dirilis bersamaan dengan pengumuman menyoroti kemajuan signifikan yang dicapai oleh o3 dan o4-mini.

(Catatan: Berikut mencerminkan kategori benchmark tipikal di mana model-model terkemuka dievaluasi. Detail kinerja yang tepat diberikan di halaman indeks model)

OpenAI menyajikan hasil benchmark yang menunjukkan o3 mencapai kinerja mutakhir di berbagai evaluasi standar:

Pengetahuan Umum & Penalaran: Tes seperti MMLU (Massive Multitask Language Understanding) dan HellaSwag sering menunjukkan peningkatan signifikan, menunjukkan pemahaman dan penalaran akal sehat yang lebih baik. o3 dilaporkan menetapkan rekor baru di bidang ini.
Penalaran Tingkat Pascasarjana: Benchmark seperti GPQA (Graduate-Level Google-Proof Q&A) menguji pengetahuan domain yang dalam dan penalaran. Kinerja o3 di sini menekankan kemampuannya yang maju.
Matematika: Pada benchmark seperti MATH dan GSM8K (Grade School Math), o3 menunjukkan keterampilan pemecahan masalah yang superior, menangani tugas penalaran matematis yang kompleks.
Pemrograman: Evaluasi seperti HumanEval dan MBPP (Mostly Basic Python Problems) mengukur kemampuan pemrograman. o3 menunjukkan kinerja terdepan dalam generasi kode, pemahaman, dan debugging.
Pemahaman Visi: Pada benchmark multimodal seperti MathVista (penalaran matematis dengan gambar) dan MMMU (Massive Multi-discipline Multimodal Understanding), o3 memanfaatkan kemampuannya "berpikir dengan gambar" untuk mencapai skor tertinggi, secara signifikan melampaui model-model sebelumnya.

o4-mini, meskipun tidak selalu menyamai kinerja puncak o3, secara konsisten mencetak skor tinggi di seluruh benchmark ini, sering kali melampaui model unggulan generasi sebelumnya seperti GPT-4 Turbo (o1). Kinerjanya sangat menarik mengingat biaya yang lebih rendah dan kecepatan inferensi yang lebih cepat, menunjukkan efisiensi yang luar biasa. Ini memposisikan dirinya sebagai pemimpin dalam kategori kinerja-per-dolar.

Benchmark ini secara kolektif melukiskan gambaran o3 sebagai pemimpin baru dalam kemampuan mentah di seluruh teks, kode, matematika, dan visi, sementara o4-mini menawarkan alternatif yang kuat dan sangat efisien yang masih mendorong batasan kinerja AI.

OpenAI o3-high vs o4-mini-high vs Google Gemini 2.5 Pro Benchmarks

Jendela Konteks OpenAI o3 dan o4 mini:

Faktor penting dalam kegunaan model bahasa besar adalah kemampuan mereka untuk menangani konteks yang luas dan menghasilkan keluaran yang terperinci. Untuk o3 dan o4-mini, OpenAI telah mempertahankan spesifikasi mengesankan yang ditetapkan oleh pendahulu langsung mereka:

Jendela Konteks: 200.000 token: Jendela konteks besar ini memungkinkan model untuk memproses dan menalar sejumlah besar informasi secara simultan. Pengguna dapat memasukkan dokumen panjang, basis kode yang luas, atau transkrip yang terperinci, memungkinkan AI untuk mempertahankan koherensi dan pemahaman di seluruh data yang besar. Ini sangat penting untuk tugas kompleks seperti merangkum laporan panjang, menganalisis kode yang rumit, atau terlibat dalam percakapan yang panjang dan sadar konteks.
Maksimum Token Keluaran: 100.000 token: Melengkapi jendela input yang besar, kemampuan untuk menghasilkan hingga 100.000 token dalam satu respons memungkinkan pembuatan konten panjang, penjelasan terperinci, laporan komprehensif, atau generasi kode yang luas tanpa pemotongan yang sembarangan.

Batasan yang luas ini memastikan bahwa baik o3 maupun o4-mini dilengkapi dengan baik untuk menangani tugas nyata yang menuntut yang memerlukan pemrosesan dan penghasilan sejumlah besar teks dan kode.

Harga API OpenAI o3, o4 mini:

OpenAI telah memperkenalkan tingkatan harga yang berbeda untuk model-model baru, mencerminkan kemampuan dan kasus penggunaan masing-masing. Harga biasanya diukur per 1 juta token (di mana token adalah bagian dari kata).

Harga OpenAI o3:

Input: $10,00 / 1M token
Input Cache: $2,50 / 1M token
Keluaran: $40,00 / 1M token

Harga premium untuk o3 mencerminkan statusnya sebagai model paling kuat. Biaya yang jauh lebih tinggi untuk token keluaran dibandingkan input menunjukkan bahwa menghasilkan konten dengan o3 lebih intensif secara komputasi, sejalan dengan kemampuan penalaran yang canggih. Tingkat "Input Cache" kemungkinan menawarkan penghematan biaya saat memproses konteks awal yang sama secara berulang, yang mungkin bermanfaat bagi arsitektur aplikasi tertentu.

Harga OpenAI o4-mini:

Input: $1,100 / 1M token
Input Cache: $0,275 / 1M token
Keluaran: $4,400 / 1M token

Harga untuk o4-mini jauh lebih rendah dibandingkan o3, menjadikannya pilihan yang jauh lebih ekonomis, terutama untuk aplikasi dengan volume tinggi. Token input hampir 10 kali lebih murah, dan token keluaran juga sekitar 9 kali lebih murah. Harga agresif ini menegaskan peran o4-mini sebagai opsi yang efisien dan dapat diskalakan, memberikan kinerja yang kuat dengan biaya yang jauh lebih rendah dibandingkan model unggulan.

Diferensiasi harga yang jelas ini memungkinkan pengguna dan pengembang untuk memilih model yang paling sesuai dengan persyaratan kinerja dan batasan anggaran mereka.

Di mana Menggunakan OpenAI o3 dan o4 mini Sekarang:

OpenAI meluncurkan o3 dan o4-mini di berbagai platform dan API mereka:

Pengguna ChatGPT:

Pengguna ChatGPT Plus, Pro, dan Tim mendapatkan akses segera ke o3, o4-mini, dan varian yang disebut o4-mini-high (kemungkinan menawarkan titik kinerja antara mini dan o3 penuh), menggantikan model sebelumnya o1, o3-mini, dan o3-mini-high dalam pemilih.
Pengguna ChatGPT Enterprise dan Edu dijadwalkan untuk menerima akses sekitar satu minggu setelah peluncuran awal.
Penting untuk dicatat, OpenAI menyatakan bahwa batasan tarif di seluruh rencana tetap tidak berubah dari set model sebelumnya, memastikan transisi yang mulus bagi pelanggan yang ada.

Pengembang (API):

Baik o3 maupun o4-mini tersedia segera untuk pengembang melalui API Penyelesaian Percakapan dan API Respons.
API Respons disorot sebagai mendukung fitur seperti ringkasan penalaran dan kemampuan untuk mempertahankan token penalaran di sekitar panggilan fungsi (meningkatkan kinerja saat menggunakan alat). OpenAI juga mencatat bahwa alat bawaan seperti pencarian web, pencarian file, dan interpreter kode akan segera didukung langsung dalam penalaran model melalui API ini, semakin menyederhanakan pengembangan aplikasi agen.

Integrasi Pihak Ketiga:

Model-model tersebut dengan cepat muncul di alat pengembang populer. GitHub mengumumkan ketersediaan o3 dan o4-mini dalam pratinjau publik untuk GitHub Copilot dan GitHub Models, memungkinkan pengembang memanfaatkan kemampuan baru ini dalam alur kerja pemrograman mereka.
Cursor, editor kode bertenaga AI lainnya, juga mengumumkan dukungan segera, awalnya menawarkan penggunaan o4-mini secara gratis.

Peluncuran bertahap tetapi cepat ini di seluruh produk yang menghadapi pengguna, API pengembang, dan integrasi mitra kunci memastikan bahwa manfaat dari o3 dan o4-mini dapat dimanfaatkan secara luas dan cepat.

Kesimpulan: Masa Depan yang Lebih Cerdas dan Terintegrasi

OpenAI o3 dan o4-mini menandai momen penting dalam evolusi model bahasa besar. Dengan mengintegrasikan penggunaan alat secara mendalam dan menggabungkan informasi visual langsung ke dalam proses penalaran mereka, model-model ini melampaui batasan pendahulunya. o3 menetapkan tolok ukur baru untuk kekuatan AI mentah dan pemecahan masalah kompleks, terutama unggul dalam pemrograman, matematika, sains, dan penalaran visual. Sementara itu, o4-mini memberikan kombinasi kuat antara kecerdasan, kecepatan, dan biaya-efisiensi, menjadikan kemampuan AI yang canggih lebih praktis dan dapat diskalakan daripada sebelumnya.

Dengan penalaran yang ditingkatkan, jendela konteks yang diperluas, dan ketersediaan yang luas, o3 dan o4-mini memberdayakan pengguna, pengembang, dan peneliti untuk menghadapi tantangan yang lebih kompleks dan membuka batasan baru dalam inovasi. Mereka bukan hanya model yang lebih cerdas, tetapi juga cara yang lebih cerdas bagi AI untuk berinteraksi dengan kekayaan dan kompleksitas dunia digital dan visual, membuka jalan bagi generasi berikutnya dari aplikasi cerdas dan sistem agen. Era penalaran AI yang benar-benar terintegrasi telah tiba.

💡

button