Catatan dari Ceramah Andrej Karpathy Software Berubah Lagi

Dunia kecerdasan buatan bergerak dengan kecepatan yang memusingkan. Setiap minggu seolah membawa model baru, kemampuan baru, atau perdebatan baru tentang masa depan umat manusia. Untuk menembus kebisingan ini, dibutuhkan suara-suara yang memiliki pemahaman teknis mendalam dan visi yang jelas tentang gambaran yang lebih besar. Andrej Karpathy, sosok pionir dengan pengalaman formatif di Tesla dan OpenAI, adalah salah satu suara tersebut.

Dalam pidatonya baru-baru ini di Y Combinator, yang berjudul "Software Is Changing (Again)," Karpathy tidak hanya memberikan pembaruan, tetapi juga kerangka kerja lengkap untuk memahami pergeseran seismik yang sedang kita alami. Dia berpendapat bahwa kita tidak hanya menyaksikan penciptaan alat baru, tetapi fajar paradigma komputasi baru. Ini adalah Software 3.0.

Postingan ini adalah penyelaman mendalam ke dalam catatan dan refleksi dari pidatonya, menguraikan konsep-konsep inti dan mengeksplorasi implikasi mendalamnya. Kita akan menjelajahi taksonominya tentang perangkat lunak, memahami mengapa dia menyebut Large Language Model (LLM) sebagai jenis sistem operasi baru, mengeksplorasi pendekatan pragmatis "Setelan Iron Man" untuk membangun produk AI saat ini, dan melihat ke depan menuju masa depan yang dibangun untuk agen AI.

💡

Ingin alat Pengujian API yang hebat yang menghasilkan dokumentasi API yang indah?

Ingin platform Terpadu, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?

Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!

tombol

Tiga Era Perangkat Lunak: Taksonomi Baru

Untuk memahami ke mana kita akan pergi, kita perlu terlebih dahulu memahami dari mana kita berasal. Karpathy dengan elegan mengkategorikan sejarah perangkat lunak ke dalam tiga era berbeda, sebuah taksonomi yang memperjelas sifat revolusi saat ini.

Software 1.0: Era Logika

Ini adalah perangkat lunak yang kita semua kenal, fondasi dunia digital. Software 1.0 adalah kode tradisional, yang ditulis secara eksplisit oleh programmer manusia untuk menjalankan instruksi deterministik. Ini adalah C++, Java, dan Python yang menggerakkan segalanya mulai dari browser web Anda hingga database transaksi bank. Dalam pidatonya, Karpathy menunjuk kode C++ dasar dalam sistem Autopilot Tesla sebagai contoh utama [00:04:49].

Paradigma ini didefinisikan oleh presisi dan kontrolnya. Manusia mendikte logika, langkah demi langkah. Kekuatannya adalah prediktabilitasnya. Namun, kelemahannya adalah kekakuannya. Software 1.0 kesulitan dengan ambiguitas dan data tidak terstruktur. Anda tidak dapat dengan mudah menulis pernyataan if/else untuk secara andal mengidentifikasi kucing dalam foto atau menangkap sentimen kalimat. Untuk itu, pendekatan baru dibutuhkan.

Software 2.0: Era Pembelajaran

Software 2.0 muncul dengan bangkitnya deep learning dan jaringan saraf. Di sini, paradigma bergeser secara dramatis dari menulis kode menjadi mengkurasi data. Alih-alih memberikan instruksi eksplisit, pengembang mengumpulkan dataset besar dan menggunakannya untuk "melatih" jaringan saraf. "Kode" dalam paradigma ini bukanlah logika yang dapat dibaca manusia; itu adalah jutaan atau miliaran bobot dan bias dalam jaringan, yang disetel oleh pengoptimal. Programmer menjadi lebih seperti seorang guru atau tukang kebun, memberi makan data ke model dan membentuk proses pembelajarannya.

Pendekatan ini secara harfiah "memakan" tumpukan Software 1.0 di banyak domain, terutama yang berkaitan dengan persepsi, seperti visi komputer [00:05:26]. Tugas-tugas yang mustahil kompleks untuk dikodekan secara manual menjadi dapat dicapai. Ini adalah era pengenal gambar, sistem ucapan-ke-teks, dan terjemahan mesin yang benar-benar berfungsi. Itu adalah lompatan monumental, tetapi langkah selanjutnya akan mengubah sifat pemrograman itu sendiri.

Software 3.0: Era Percakapan

Ini membawa kita ke hari ini. Software 3.0 adalah dunia Large Language Models (Model Bahasa Besar). Model-model ini, seperti GPT-4 atau Gemini, adalah jaringan saraf masif yang dilatih pada sebagian besar internet. Mereka biasanya merupakan artefak yang "dibekukan" dan sudah dilatih sebelumnya. Bagian yang revolusioner adalah cara kita berinteraksi dengan mereka. Seperti yang dikatakan Karpathy, kita memiliki bahasa pemrograman baru: Bahasa Inggris [00:04:09].

Pemrograman dalam Software 3.0 dilakukan melalui prompt bahasa alami. Kita menginstruksikan, menanyakan, dan mengarahkan perilaku model hanya dengan berbicara dengannya. Ini adalah lompatan paling signifikan dalam aksesibilitas dalam sejarah komputasi. Ini mengubah setiap orang yang dapat mengartikulasikan sebuah pemikiran menjadi programmer potensial, sebuah konsep yang kemudian Karpathy sebut "vibe coding."

LLM sebagai Platform Komputasi Baru

Karpathy dengan meyakinkan berpendapat bahwa LLM bukan hanya program pintar; itu adalah jenis komputer baru, platform baru dengan karakteristik uniknya sendiri [00:06:10]. Dia menggunakan beberapa analogi kuat untuk memperkuat argumennya.

Pertama, dia melihat LLM memiliki sifat sebagai utilitas dan pabrik semikonduktor. Analogi utilitas [00:06:35] mengacu pada belanja modal (capex) yang sangat besar yang dibutuhkan oleh laboratorium seperti OpenAI dan Google untuk melatih model-model ini, dan belanja operasional (opex) untuk menyajikannya melalui API yang terukur. Seperti jaringan listrik, mereka membutuhkan investasi besar dan perlu disampaikan dengan latensi rendah, uptime tinggi, dan kualitas yang konsisten [00:07:02]. Analogi pabrik [00:08:04] menunjuk pada R&D yang mendalam, terpusat, dan seringkali rahasia yang masuk ke dalam pembangunan model-model dasar ini, menciptakan lanskap yang didominasi oleh beberapa pemain utama.

Kedua, dan mungkin yang paling penting, dia menyajikan LLM sebagai sistem operasi baru [00:09:07]. Ini adalah wawasan yang mendalam. LLM bertindak sebagai semacam OS biologis, asing, yang mengatur sumber daya internalnya—pengetahuan luasnya, kemampuan penalarannya, jendela konteksnya (sebagai bentuk RAM)—untuk menjalankan tugas-tugas yang ditentukan oleh prompt pengguna [00:10:09]. Ini telah memunculkan model komputasi baru yang mengingatkan pada time-sharing tahun 1960-an [00:11:02]. Kebanyakan dari kita tidak menjalankan model-model masif ini secara lokal; kita adalah klien yang terhubung melalui jaringan ke "mainframe" yang kuat dan terpusat di cloud.

Ini juga membalikkan skrip difusi teknologi. Secara historis, teknologi yang kuat mengalir dari pemerintah dan perusahaan besar ke konsumen. LLM, secara luar biasa, melakukan sebaliknya, mencapai miliaran konsumen melalui antarmuka obrolan yang intuitif hampir dalam semalam [00:12:42], memaksa perusahaan untuk bergegas mengejar.

"Setelan Iron Man": Pragmatisme di Era Hype

Meskipun LLM memiliki kemampuan super manusia, mereka juga sangat cacat. Karpathy memberikan pandangan yang jernih tentang "psikologi" mereka, menggambarkannya sebagai "simulasi stokastik manusia" [00:14:49]. Kecerdasan mereka "bergerigi" [00:16:20].

Di satu sisi, mereka memiliki pengetahuan ensiklopedis dan memori yang hampir sempurna [00:15:30]. Di sisi lain, mereka rentan terhadap halusinasi yang meyakinkan, kurang memiliki model pengetahuan diri yang sebenarnya [00:16:07], menderita "amnesia anterograde" (mereka tidak secara alami belajar dari interaksi) [00:16:43], dan sangat mudah tertipu terhadap risiko keamanan seperti prompt injection [00:17:38].

Tantangan rekayasa intinya, oleh karena itu, adalah merancang sistem yang mengatasi kekurangan ini sambil memanfaatkan kekuatannya [00:18:03]. Ini mengarah pada apa yang mungkin merupakan wawasan paling praktis dan berharga dari pidato tersebut: analogi "Setelan Iron Man" [00:28:22].

Alih-alih berjuang untuk "robot Iron Man" yang sepenuhnya otonom yang beroperasi tanpa pengawasan—sebuah tujuan yang masih jauh dan penuh risiko—kita harus fokus pada pembangunan "setelan Iron Man". Ini adalah aplikasi yang meningkatkan kemampuan manusia, dengan manusia tetap memegang kendali. Alur kerja yang ideal adalah siklus hasilkan-dan-verifikasi yang ketat dan cepat [00:22:13]. AI menghasilkan draf pertama—baik itu kode, email, atau desain—dan manusia, dengan penilaian dan konteks superior mereka, dengan cepat memverifikasi, mengedit, dan menyetujui. Semakin cepat siklus ini, semakin kuat peningkatannya [00:22:19].

Aplikasi LLM yang sukses saat ini, seperti Cursor untuk coding atau Perplexity untuk pencarian, adalah contoh yang sangat baik dari hal ini. Mereka menampilkan manajemen konteks yang canggih [00:19:24], orkestrasi cerdas dari beberapa panggilan LLM [00:19:32], dan, yang terpenting, antarmuka pengguna yang dirancang untuk audit yang mudah [00:19:44]. Mereka sering menampilkan "slider otonomi" [00:20:21], memungkinkan pengguna untuk menaikkan atau menurunkan kontribusi AI berdasarkan kompleksitas tugas dan kepercayaan mereka pada sistem. Kuncinya adalah menjaga AI tetap terkendali, mencegahnya menghasilkan output yang berlebihan dan tidak dapat dikelola [00:22:53] atau "tersesat di hutan" [00:24:41].

Setiap Orang adalah Programmer: Munculnya "Vibe Coding"

Konsekuensi paling transformatif dari Software 3.0 adalah demokratisasi penciptaan yang radikal. Karpathy menciptakan istilah yang menyenangkan "vibe coding" [00:31:07] untuk menggambarkan tindakan pemrograman melalui bahasa alami. Anda tidak perlu tahu Swift untuk menggambarkan "vibe" dari aplikasi iOS yang ingin Anda bangun; Anda cukup menggambarkannya, dan LLM menangani sintaksisnya.

Ini membuka pintu ke dunia di mana para ahli domain—dokter, pengacara, ilmuwan, seniman—dapat membangun alat yang mereka butuhkan tanpa latar belakang rekayasa perangkat lunak tradisional. Namun, Karpathy dengan cerdik menunjukkan masalah "mil terakhir". Meskipun logika inti dapat dihasilkan melalui "vibe coding", mewujudkan aplikasi nyata melibatkan tugas "devops" yang rumit: menyiapkan otentikasi, mengintegrasikan pembayaran, menyebarkan ke server, dan mengklik melalui antarmuka pengguna web yang tak terhitung jumlahnya [00:32:30]. Pekerjaan manual berbasis browser ini adalah hambatan saat ini, dan ini menunjuk langsung ke batas berikutnya: agen.

Membuka Jalan bagi Agen: Membangun Web yang Ramah LLM

Jika LLM ingin berevolusi dari asisten yang membantu menjadi agen yang mampu melakukan tugas "mil terakhir" ini, infrastruktur digital kita perlu beradaptasi. Kita harus mulai membangun untuk jenis pengguna baru: agen AI [00:33:55]. Ini berarti membuat situs web dan layanan kita lebih dapat dibaca oleh mesin.

Karpathy mengusulkan beberapa ide konkret yang dapat ditindaklanjuti:

llm.txt: Sama seperti robots.txt memberikan instruksi kepada web crawler, file llm.txt yang diusulkan akan memberikan ringkasan langsung, terstruktur, dan dalam bahasa alami tentang situs web atau domain untuk LLM yang mengunjungi [00:34:12]. Ini adalah manual instruksi untuk AI.
Dokumentasi yang Ramah LLM: Dokumentasi perlu beralih dari tangkapan layar dan tata letak yang berpusat pada manusia menuju Markdown yang bersih, sederhana, yang mudah diurai dan dipahami oleh LLM [00:34:51].
Dokumentasi yang Dapat Ditindaklanjuti: Instruksi harus berevolusi. Alih-alih memberi tahu manusia untuk "klik tombol 'Buat'", dokumentasi harus menyediakan perintah curl atau panggilan API yang dapat dieksekusi langsung oleh agen untuk mencapai hasil yang sama [00:35:59].

Kita juga membutuhkan alat baru yang dirancang untuk era ini, seperti alat get.ingest yang dia sebutkan, yang dapat meratakan repositori GitHub yang kompleks menjadi satu file teks yang bersih, yang mudah dicerna dan dianalisis oleh LLM [00:36:33].

Kesimpulan: Merangkul Perubahan

Pidato Andrej Karpathy memberikan visi yang jelas, terstruktur, dan menginspirasi tentang masa kini dan masa depan perangkat lunak. Kita berada pada momen penting, "waktu yang unik" [00:38:16] di mana sifat perangkat lunak itu sendiri sedang didefinisikan ulang. Transisi ke Software 3.0 bukan hanya pergeseran teknologi; ini adalah pergeseran paradigma yang akan memberdayakan generasi baru pencipta dan secara fundamental mengubah cara kita berinteraksi dengan dunia digital. Perjalanan ke depan akan mengharuskan kita untuk fasih dalam semua paradigma, untuk merangkul model kolaborasi manusia-AI "setelan Iron Man", dan untuk mulai membangun infrastruktur yang akan memungkinkan agen AI di masa depan.

Ini adalah waktu yang unik, menarik, dan menantang untuk menjadi seorang pembangun. Definisi perangkat lunak itu sendiri sedang meluas, dan bersamanya, definisi tentang siapa yang bisa menjadi programmer. Perubahan ada di sini, dan sedang terjadi sekarang.

💡

tombol