Review Cepat ChatGPT Codex: Agen Coding AI

Perkembangan kecerdasan buatan yang tak henti-hentinya membentuk kembali berbagai industri, dan rekayasa perangkat lunak berada di garis depan transformasi ini. Alat bertenaga AI bukan lagi konsep futuristik, melainkan asisten praktis, yang meningkatkan kemampuan pengembang dan menyederhanakan alur kerja yang kompleks. OpenAI, nama terkemuka dalam penelitian AI, baru-baru ini meluncurkan kontribusi terbarunya pada lanskap yang terus berkembang ini: ChatGPT Codex, agen rekayasa perangkat lunak berbasis cloud yang dirancang untuk menangani berbagai tugas pengkodean secara paralel. Penawaran baru ini, yang awalnya tersedia untuk pengguna ChatGPT Pro, Team, dan Enterprise, dengan versi Plus dan Edu yang akan segera hadir, menjanjikan untuk mendefinisikan ulang cara pengembang berinteraksi dengan basis kode mereka dan membangun perangkat lunak.

💡

Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

button

Fajar Rekayasa Perangkat Lunak Bertenaga AI: Memperkenalkan Codex

Bayangkan sebuah dasbor yang menampilkan pesan, "Apa yang harus kita kode selanjutnya?" lengkap dengan kotak prompt, pemilih repositori dan cabang, serta daftar tugas, semuanya berlatar belakang pastel bertema kode. Ini adalah pintu gerbang menuju Codex, agen yang siap menjadi bagian tak terpisahkan dari perangkat pengembang. Codex dirancang untuk menangani berbagai tugas – mulai dari menulis fitur baru dan menjawab pertanyaan rumit tentang basis kode hingga memperbaiki bug dan mengajukan permintaan pull request untuk ditinjau. Setiap tugas diproses dengan cermat di lingkungan sandbox cloud-nya sendiri, yang sudah dimuat sebelumnya dengan repositori tertentu, memastikan isolasi dan fokus.

Intinya, Codex didukung oleh codex-1, versi khusus dari model o3 OpenAI, yang disetel dengan baik untuk nuansa rekayasa perangkat lunak. Kehebatan model ini berasal dari pembelajaran penguatan yang ketat, di mana ia dilatih pada tugas pengkodean dunia nyata di berbagai lingkungan. Tujuannya jelas: menghasilkan kode yang tidak hanya berfungsi dengan sempurna, tetapi juga mencerminkan preferensi gaya manusia, mematuhi instruksi dengan tepat, dan dapat menjalankan pengujian secara berulang hingga hasil yang lulus tercapai. Peluncuran Codex menandakan langkah besar menuju bantuan pengkodean yang lebih cerdas dan otonom.

Di Balik Layar: Cara Kerja Codex

Mengakses Codex sangat mudah bagi pengguna ChatGPT yang memenuhi syarat, dengan bagian khusus di sidebar. Pengembang dapat menetapkan tugas pengkodean baru dengan mengetik prompt dan memulai perintah "Code", atau mengajukan pertanyaan tentang basis kode mereka menggunakan fungsi "Ask".

Kekuatan sejati Codex terletak pada kemampuan pemrosesan paralelnya. Setiap tugas ditangani secara independen dalam sandbox cloud yang terpisah dan terisolasi. Lingkungan ini dimuat sebelumnya dengan basis kode yang relevan, memungkinkan Codex untuk membaca dan mengedit file, mengeksekusi perintah (termasuk test harnesses, linters, dan type checkers), dan beroperasi tanpa gangguan dari tugas lain yang sedang berjalan. Waktu penyelesaian tugas bervariasi, biasanya berkisar antara satu hingga tiga puluh menit tergantung pada kompleksitasnya, dan pengguna dapat memantau kemajuan secara real time.

Aspek penting dari Codex adalah komitmennya terhadap pekerjaan yang dapat diverifikasi. Setelah tugas selesai, Codex melakukan commit perubahannya dalam lingkungannya. Ia tidak hanya menyajikan kode akhir; ia memberikan bukti yang dapat diverifikasi atas tindakannya melalui kutipan log terminal dan output pengujian. Transparansi ini memungkinkan pengembang untuk melacak setiap langkah yang diambil selama penyelesaian tugas, menumbuhkan kepercayaan, dan memungkinkan tinjauan menyeluruh. Pengguna kemudian dapat memutuskan untuk meminta revisi lebih lanjut, membuka pull request GitHub, atau langsung mengintegrasikan perubahan ke lingkungan pengembangan lokal mereka. Selain itu, lingkungan Codex dapat dikonfigurasi agar sangat mirip dengan pengaturan pengembangan aktual pengguna, memastikan kompatibilitas dan relevansi.

Memandu Agen: Peran AGENTS.md dan Arahan Sistem

Untuk lebih meningkatkan efektivitasnya dan menyesuaikan perilakunya dengan kebutuhan proyek tertentu, Codex dapat dipandu oleh file AGENTS.md yang ditempatkan di dalam repositori. File teks ini, mirip dengan README.md yang sudah dikenal, berfungsi sebagai saluran komunikasi antara pengembang manusia dan agen AI. Melalui AGENTS.md, pengembang dapat memberi tahu Codex tentang cara menavigasi basis kode, perintah mana yang harus dijalankan untuk pengujian, dan cara terbaik untuk mematuhi standar dan praktik pengkodean proyek yang sudah ditetapkan. Seperti halnya pengembang manusia, agen Codex bekerja secara optimal ketika disediakan lingkungan pengembangan yang dikonfigurasi dengan baik, pengaturan pengujian yang andal, dan dokumentasi yang jelas.

Pesan sistem dasar untuk codex-1 juga mengungkapkan serangkaian instruksi eksplisit yang mengatur perilakunya. Misalnya, saat memodifikasi file, Codex diinstruksikan untuk tidak membuat cabang baru, menggunakan git untuk melakukan commit perubahan (mencoba kembali jika terjadi kegagalan pre-commit), dan memastikan worktree dibiarkan dalam keadaan bersih. Ini menekankan bahwa hanya kode yang di-commit yang akan dievaluasi dan bahwa commit yang ada tidak boleh diubah.

Spesifikasi AGENTS.md cukup rinci. Cakupannya adalah seluruh pohon direktori yang berakar di lokasinya, dan instruksinya memiliki prioritas berdasarkan kedalaman nesting, meskipun prompt pengguna langsung dapat menimpanya. Arahan utama adalah jika AGENTS.md menyertakan pemeriksaan terprogram, Codex harus menjalankan semuanya dan berusaha memvalidasi keberhasilannya setelah semua perubahan kode, bahkan untuk modifikasi yang tampaknya sederhana seperti pembaruan dokumentasi. Instruksi kutipan juga ketat, menuntut referensi yang tepat ke jalur file dan output terminal untuk file yang dijelajahi atau perintah yang dieksekusi, memastikan jejak audit yang jelas.

Menguji Codex: Kinerja dan Benchmark

OpenAI melaporkan bahwa codex-1 menunjukkan kinerja yang kuat pada evaluasi pengkodean dan benchmark internal, bahkan tanpa penyesuaian ekstensif melalui file AGENTS.md atau scaffolding tertentu. Pada benchmark SWE-Bench Verified, codex-1 menunjukkan progresi akurasi pass@k dari 67% pada k=1 menjadi 75% pada k=8, mengungguli o3-high (yang mencetak 70% pada k=8 pada subset yang sedikit berbeda). Pada tugas Software Engineering (SWE) internal OpenAI, serangkaian tantangan internal dunia nyata yang dikurasi, codex-1 mencapai akurasi 70%, secara signifikan lebih tinggi dari o1-high (25%), o4-mini-high (40%), dan o3-high (61%). Pengujian ini dilakukan dengan codex-1 pada panjang konteks maksimum 192k token dan 'upaya penalaran' sedang, mencerminkan pengaturan yang tersedia dalam produk.

Membangun dengan Keyakinan: Keamanan, Kepercayaan, dan Pertimbangan Etis

Codex dirilis sebagai pratinjau penelitian, selaras dengan strategi penerapan berulang OpenAI. Pendekatan ini memungkinkan pembelajaran dan penyempurnaan berdasarkan penggunaan dunia nyata. Keamanan dan transparansi sangat penting dalam desain Codex. Kemampuan pengguna untuk memverifikasi output melalui kutipan, log terminal, dan hasil pengujian adalah landasan filosofi ini—perlindungan yang menjadi semakin vital seiring model AI menangani tugas pengkodean yang lebih kompleks secara independen.

Saat menghadapi ketidakpastian atau kegagalan pengujian, agen Codex dirancang untuk secara eksplisit mengomunikasikan masalah ini, memungkinkan pengguna membuat keputusan yang tepat. Namun, OpenAI menekankan bahwa tetap penting bagi pengguna untuk meninjau dan memvalidasi secara manual semua kode yang dihasilkan agen sebelum integrasi dan eksekusi.

Mengatasi potensi penyalahgunaan, terutama di area seperti pengembangan malware, adalah perhatian kritis. Codex telah dilatih untuk mengidentifikasi dan dengan tepat menolak permintaan yang bertujuan untuk membuat perangkat lunak berbahaya, sambil tetap membedakan dan mendukung tugas-tugas lanjutan yang sah yang mungkin melibatkan teknik serupa (misalnya, rekayasa kernel tingkat rendah). Kerangka kerja kebijakan yang ditingkatkan dan evaluasi keamanan yang ketat, dirinci dalam adendum pada Kartu Sistem o3, memperkuat batasan ini.

Agen beroperasi sepenuhnya dalam kontainer yang aman dan terisolasi di cloud. Selama eksekusi tugas, akses internet dinonaktifkan, membatasi interaksi hanya pada kode yang secara eksplisit disediakan melalui repositori GitHub dan dependensi pra-instal yang dikonfigurasi pengguna. Ini berarti agen tidak dapat mengakses situs web eksternal, API, atau layanan lainnya, secara signifikan mengurangi risiko keamanan.

Sentuhan Manusia: Menyelaraskan dengan Preferensi dan Alur Kerja Pengembang

Tujuan utama selama pelatihan codex-1 adalah untuk menyelaraskan outputnya secara erat dengan preferensi dan standar pengkodean manusia. Dibandingkan dengan OpenAI o3 tujuan umum, codex-1 secara konsisten menghasilkan patch yang lebih bersih yang lebih mudah ditinjau oleh manusia dan lebih mudah diintegrasikan ke dalam alur kerja standar. Ini ditunjukkan melalui beberapa contoh perbaikan yang diterapkan pada proyek open-source populer:

Proyek: Astropy (Pustaka Astronomi Python)

Bug: Fungsi separability_matrix salah menghitung separabilitas untuk instance CompoundModel yang bersarang. Misalnya, jika model gabungan seperti m.Linear1D(10) & m.Linear1D(5) bersarang di dalam model lain, matriks yang dihasilkan secara keliru menunjukkan dependensi di mana tidak ada.
Solusi Codex:
Modifikasi yang ditargetkan dilakukan pada fungsi _cstack di astropy/modeling/separable.py.
Perubahan ini dengan benar menangani dimensi dan nilai matriks sisi kanan ketika itu mewakili array yang dihitung sebelumnya (yaitu, model bersarang).
Pengujian: Pengujian regresi yang tepat ditambahkan ke test_separable.py untuk mengkonfirmasi perbaikan, memastikan output adalah matriks separabilitas blok-diagonal yang diharapkan untuk model bersarang.
Perbandingan: Perbaikan ini dicatat lebih langsung dan tidak terlalu bertele-tele dibandingkan alternatif potensial dari o3, yang menyertakan komentar penjelasan yang ekstensif.

Proyek: Matplotlib (Pustaka Plotting Python)

Bug: Masalah pada mlab._spectral_helper menyebabkan koreksi jendela yang salah karena panggilan np.abs() yang tidak perlu. Ini menyebabkan hasil yang tidak akurat untuk jendela dengan nilai negatif (misalnya, jendela flattop).
Solusi Codex:
Panggilan np.abs() dihapus dari (np.abs(window)**2).sum() dan np.abs(window).sum()**2.
Ini diubah menjadi (window.conjugate() * window).sum() dan window.sum()**2 masing-masing.
Modifikasi ini memastikan bahwa penskalaan menggunakan nilai aktual jendela, secara akurat mempertahankan daya.
Pengujian: Pengujian baru, test_psd_windowarray_negative, ditambahkan ke lib/matplotlib/tests/test_mlab.py untuk secara khusus memverifikasi koreksi ini menggunakan jendela yang berisi nilai negatif.

Proyek: Django (Kerangka Kerja Web Python)

Bug: Ekspresi hanya durasi (misalnya, F('estimated_time') + datetime.timedelta(1)) gagal di SQLite dan MySQL, menimbulkan kesalahan decimal.InvalidOperation. Ini disebabkan oleh masalah dalam cara nilai durasi dikonversi.
Solusi Codex:
Metode convert_durationfield_value di django/db/backends/base/operations.py disempurnakan untuk secara kuat menangani berbagai jenis input untuk durasi (seperti None, timedelta, string, dan int).
Kompilasi sisi untuk DurationExpression di django/db/models/expressions.py disesuaikan, memastikan format_for_duration_arithmetic diterapkan secara lebih selektif, terutama saat digabungkan dengan jenis tanggal/waktu.
Pengujian: Pengujian baru, test_durationfield_only_expression, ditambahkan di tests/expressions/tests.py untuk memvalidasi perbaikan ini.
Perbandingan: Solusi o3 untuk masalah Django ini digambarkan lebih ekstensif dalam logika pemeriksaan tipe dan parsing-nya di dalam convert_durationfield_value, menawarkan pendekatan yang sangat rinci untuk menangani representasi durasi string dan numerik yang berbeda.

Proyek: Expensify (ReportUtils.ts - TypeScript)

Masalah: Nama ruang anggota tidak diperbarui di Left Hand Navigator (LHN) setelah membersihkan cache.
Solusi yang Diusulkan Codex (berdasarkan diffs yang disediakan terkait caching nama laporan):
Diff "Codex" memodifikasi fungsi getCacheKey untuk menyertakan policyName. Perubahan ini dapat membuat kunci cache lebih spesifik, berpotensi mencegah keusangan jika nama kebijakan memengaruhi judul ruang.
Proposal Alternatif OpenAI o3:
Diff "OpenAI o3" menyarankan solusi yang lebih struktural untuk invalidasi cache: memastikan reportNameCache dibersihkan setiap kali ONYXKEYS.COLLECTION.POLICY diperbarui. Ini secara langsung mengatasi data usang dengan secara proaktif menyegarkan cache ketika informasi kebijakan yang mendasarinya (yang dapat memengaruhi nama ruang) berubah.
Wawasan: Contoh ini menyoroti bagaimana AI dapat mengusulkan strategi yang berbeda—mulai dari menyempurnakan kunci cache hingga mengimplementasikan mekanisme invalidasi yang lebih luas—untuk mengatasi masalah tersebut.

Contoh-contoh ini secara kolektif mengilustrasikan kapasitas Codex untuk memahami masalah kompleks dan mengimplementasikan solusi yang ditargetkan dan efektif, seringkali termasuk kasus pengujian yang diperlukan untuk memastikan kebenaran.

Memperluas Jangkauan: Pembaruan pada Codex CLI

Melengkapi agen berbasis cloud, OpenAI juga telah memperbarui Codex CLI, agen pengkodean ringan dan open-source yang berjalan langsung di terminal. Versi baru yang lebih kecil dari codex-1, bernama codex-mini-latest (versi khusus dari o4-mini), sekarang menjadi model default di Codex CLI. Ini dioptimalkan untuk Q&A kode dan pengeditan dengan latensi rendah, mempertahankan kemampuan mengikuti instruksi dan gaya yang kuat.

Menghubungkan akun pengembang ke Codex CLI juga telah disederhanakan. Alih-alih menghasilkan token API secara manual, pengguna sekarang dapat masuk dengan akun ChatGPT mereka dan memilih organisasi API mereka, dengan CLI menangani konfigurasi kunci API otomatis. Pengguna Plus dan Pro yang masuk dengan cara ini juga dapat menukarkan kredit API gratis.

Akses, Keterjangkauan, dan Aspirasi: Ketersediaan, Harga, dan Keterbatasan

Codex saat ini sedang diluncurkan untuk pengguna ChatGPT Pro, Enterprise, dan Team secara global, dengan dukungan Plus dan Edu diharapkan segera. Akses awal akan murah hati dan tanpa biaya tambahan selama beberapa minggu, memungkinkan pengguna untuk menjelajahi kemampuannya. Selanjutnya, OpenAI akan memperkenalkan akses terbatas tarif dan opsi harga yang fleksibel untuk penggunaan on-demand. Untuk pengembang yang menggunakan codex-mini-latest melalui API, harganya $1.50 per 1M token input dan $6 per 1M token output, dengan diskon caching prompt 75%.

Sebagai pratinjau penelitian, Codex memiliki keterbatasan. Saat ini, ia tidak memiliki fitur seperti input gambar untuk pengembangan frontend dan kemampuan untuk mengoreksi agen di tengah tugas. Mendelegasikan tugas ke agen jarak jauh juga memperkenalkan latensi dibandingkan dengan pengeditan interaktif, yang mungkin memerlukan beberapa penyesuaian dalam alur kerja. OpenAI membayangkan bahwa berinteraksi dengan agen Codex akan semakin menyerupai kolaborasi asinkron dengan rekan kerja manusia.

Jalan ke Depan: Masa Depan AI dalam Rekayasa Perangkat Lunak dengan Codex

OpenAI membayangkan masa depan di mana pengembang mendorong pekerjaan yang ingin mereka miliki dan mendelegasikan sisanya kepada agen AI yang sangat mampu, menghasilkan peningkatan kecepatan dan produktivitas. Untuk mewujudkan hal ini, mereka sedang membangun serangkaian alat Codex yang mendukung kolaborasi real-time dan delegasi asinkron. Sementara alat pairing AI seperti Codex CLI menjadi norma industri, alur kerja multi-agen asinkron yang diperkenalkan oleh Codex di ChatGPT dilihat sebagai standar de facto masa depan untuk menghasilkan kode berkualitas tinggi.

Pada akhirnya, kedua mode interaksi ini—pairing real-time dan delegasi tugas—diharapkan akan bertemu. Pengembang akan berkolaborasi dengan agen AI di seluruh IDE dan alat sehari-hari mereka untuk Q&A, saran, dan melepaskan tugas yang lebih lama dalam alur kerja terpadu. Rencana masa depan mencakup alur kerja agen yang lebih interaktif dan fleksibel, memungkinkan pengembang untuk memberikan panduan di tengah tugas, berkolaborasi dalam strategi implementasi, dan menerima pembaruan kemajuan proaktif. Integrasi yang lebih dalam juga direncanakan di seluruh alat seperti GitHub, Codex CLI, ChatGPT Desktop, issue trackers, dan sistem CI.

Rekayasa perangkat lunak adalah salah satu industri pertama yang menyaksikan peningkatan produktivitas yang signifikan didorong oleh AI, membuka kemungkinan baru bagi individu dan tim kecil. Meskipun optimis tentang kemajuan ini, OpenAI juga berkolaborasi dengan mitra untuk memahami implikasi yang lebih luas dari adopsi agen yang meluas pada alur kerja pengembang dan pengembangan keterampilan di berbagai populasi.

Peluncuran ChatGPT Codex lebih dari sekadar alat baru; ini adalah gambaran masa depan di mana kecerdasan manusia dan kecerdasan buatan berkolaborasi lebih mulus dari sebelumnya untuk membangun generasi perangkat lunak berikutnya. Ini baru permulaan, dan potensi apa yang dapat dibangun pengembang dengan Codex sangat luas dan menarik.