Andrej Karpathy'nin "Yazılım Yeniden Değişiyor" Konuşması Hakkında Notlar

Yapay zeka dünyası baş döndürücü bir hızla ilerliyor. Her hafta yeni bir model, yeni bir yetenek veya insanlığın geleceği hakkında yeni bir tartışma getiriyor gibi görünüyor. Bu gürültüyü aşmak, hem derin teknik anlayışa hem de büyük resmi net bir şekilde görme yeteneğine sahip sesler gerektirir. Hem Tesla hem de OpenAI'de şekillendirici deneyime sahip öncü bir isim olan Andrej Karpathy, bu seslerden biridir.

Y Combinator'daki son konuşmasında, "Yazılım Değişiyor (Yine)" başlıklı konuşmasında Karpathy, sadece bir güncelleme değil, şu anda deneyimlediğimiz sarsıcı değişimi anlamak için eksiksiz bir çerçeve sunuyor. Sadece yeni bir aracın yaratılmasına tanık olmakla kalmadığımızı, yeni bir bilgi işlem paradigmasının şafağında olduğumuzu savunuyor. Bu, Yazılım 3.0'dır.

Bu yazı, konuşmasından alınan notlar ve düşüncelere derinlemesine bir bakış sunarak, temel kavramları açığa çıkarıyor ve bunların derin etkilerini araştırıyor. Yazılım taksonomisinde bir yolculuk yapacak, Büyük Dil Modeli'ni (LLM) neden yeni bir işletim sistemi türü olarak adlandırdığını anlayacak, günümüzde yapay zeka ürünleri oluşturmaya yönelik pragmatik "Iron Man Kıyafeti" yaklaşımını keşfedecek ve yapay zeka ajanları için inşa edilmiş bir geleceğe bakacağız.

💡

Harika API Dokümantasyonu oluşturan harika bir API Test aracı mı istiyorsunuz?

Geliştirici Ekibinizin maksimum üretkenlikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?

Apidog tüm taleplerinizi karşılar ve Postman'ı çok daha uygun bir fiyata değiştirir!

button

Yazılımın Üç Çağı: Yeni Bir Taksonomi

Nereye gittiğimizi anlamak için önce nereden geldiğimizi anlamamız gerekiyor. Karpathy, yazılımın tarihini zarif bir şekilde üç farklı çağa ayırıyor; bu taksonomi, mevcut devrimin doğasını netleştiriyor.

Yazılım 1.0: Mantık Çağı

Hepimizin bildiği yazılım budur, dijital dünyanın temelidir. Yazılım 1.0, deterministik talimatları yürütmek için insan programcılar tarafından açıkça yazılan geleneksel koddur. Web tarayıcınızdan bir bankanın işlem veritabanına kadar her şeye güç veren C++, Java ve Python'dur. Konuşmasında Karpathy, Tesla'nın Otopilot sistemindeki temel C++ kodunu önemli bir örnek olarak gösteriyor [00:04:49].

Bu paradigma, kesinliği ve kontrolü ile tanımlanır. Mantığı adım adım insanlar belirler. Gücü, öngörülebilirliğidir. Ancak zayıflığı, katılığıdır. Yazılım 1.0, belirsizlik ve yapılandırılmamış verilerle başa çıkmakta zorlanır. Bir fotoğraftaki kediyi güvenilir bir şekilde tanımlamak veya bir cümlenin duygu durumunu yakalamak için kolayca if/else ifadeleri yazamazsınız. Bunun için yeni bir yaklaşıma ihtiyaç vardı.

Yazılım 2.0: Öğrenme Çağı

Yazılım 2.0, derin öğrenme ve sinir ağlarının yükselişiyle ortaya çıktı. Burada paradigma, kod yazmaktan veri düzenlemeye doğru çarpıcı bir şekilde değişir. Geliştiriciler, açık talimatlar vermek yerine, devasa veri kümeleri toplar ve bunları bir sinir ağını "eğitmek" için kullanır. Bu paradigmada "kod", insan tarafından okunabilir mantık değildir; ağ içindeki, bir optimize edici tarafından ayarlanmış milyonlarca veya milyarlarca ağırlık ve önyargıdır. Programcı daha çok bir öğretmen veya bahçıvan gibi davranır, modele veri besler ve öğrenme sürecini şekillendirir.

Bu yaklaşım, özellikle bilgisayar görüşü gibi algıyla ilgili alanlarda, Yazılım 1.0 yığınını kelimenin tam anlamıyla "yedi" [00:05:26]. Elle kodlaması imkansız derecede karmaşık olan görevler başarılabilir hale geldi. Bu, gerçekten işe yarayan görüntü tanıyıcıların, konuşmadan metne sistemlerinin ve makine çevirisinin çağıydı. Bu muazzam bir sıçramaydı, ancak bir sonraki adım programlamanın doğasını değiştirecekti.

Yazılım 3.0: Konuşma Çağı

Bu bizi bugüne getiriyor. Yazılım 3.0, Büyük Dil Modelleri'nin dünyasıdır. GPT-4 veya Gemini gibi bu modeller, internetin önemli bir bölümü üzerinde eğitilmiş devasa sinir ağlarıdır. Genellikle dondurulmuş, önceden eğitilmiş eserlerdir. Devrim niteliğindeki kısım, onlarla nasıl etkileşim kurduğumuzdur. Karpathy'nin belirttiği gibi, yeni bir programlama dilimiz var: İngilizce [00:04:09].

Yazılım 3.0'da programlama, doğal dil istemleri aracılığıyla yapılır. Modeli basitçe onunla konuşarak yönlendirir, sorgular ve davranışını belirleriz. Bu, bilgi işlem tarihinde erişilebilirlik açısından en önemli sıçramadır. Bir düşünceyi dile getirebilen her insanı potansiyel bir programcıya dönüştürür; Karpathy bu kavramı daha sonra "vibe kodlama" olarak adlandırır.

LLM Yeni Bir Bilgi İşlem Platformu Olarak

Karpathy, bir LLM'nin sadece zeki bir program olmadığını, kendi benzersiz özelliklerine sahip yeni bir bilgisayar türü, yeni bir platform olduğunu ikna edici bir şekilde savunuyor [00:06:10]. Argümanını desteklemek için birkaç güçlü benzetme kullanıyor.

İlk olarak, LLM'leri hem bir hizmet hem de bir yarı iletken fabrikası özelliklerine sahip olarak görüyor. Hizmet benzetmesi [00:06:35], OpenAI ve Google gibi laboratuvarların bu modelleri eğitmek için ihtiyaç duyduğu muazzam sermaye harcamasını (capex) ve ölçülü API'ler aracılığıyla hizmet vermek için gereken işletme giderini (opex) ifade eder. Elektrik şebekesi gibi, muazzam yatırım gerektirirler ve düşük gecikme süresi, yüksek çalışma süresi ve tutarlı kalite ile sunulmaları gerekir [00:07:02]. Fabrika benzetmesi [00:08:04], bu temel modelleri oluşturmak için yapılan derin, merkezi ve genellikle gizli Ar-Ge'ye işaret ederek, birkaç büyük oyuncunun hakim olduğu bir ortam yaratır.

İkinci olarak ve belki de en önemlisi, LLM'yi yeni bir işletim sistemi olarak sunuyor [00:09:07]. Bu derin bir içgörüdür. LLM, kullanıcının istemiyle belirtilen görevleri yürütmek için dahili kaynaklarını (geniş bilgisi, akıl yürütme yeteneği, bağlam penceresi (bir tür RAM olarak)) düzenleyen bir tür biyolojik, uzaylı işletim sistemi gibi davranır [00:10:09]. Bu, 1960'ların zaman paylaşımlı sistemlerini anımsatan yeni bir bilgi işlem modelinin ortaya çıkmasına neden olmuştur [00:11:02]. Çoğumuz bu devasa modelleri yerel olarak çalıştırmıyoruz; buluttaki güçlü, merkezi bir "ana bilgisayara" ağ üzerinden bağlanan istemcileriz.

Bu aynı zamanda teknolojinin yayılma şeklini de tersine çevirdi. Tarihsel olarak, güçlü teknolojiler hükümetlerden ve büyük şirketlerden tüketicilere doğru süzülüyordu. LLM'ler ise şaşırtıcı bir şekilde tam tersini yaptı ve sezgisel sohbet arayüzleri aracılığıyla neredeyse bir gecede milyarlarca tüketiciye ulaştı [00:12:42], bu da işletmeleri yetişmek için acele etmeye zorladı.

"Iron Man Kıyafeti": Abartı Çağında Pragmatizm

LLM'ler süper insan yeteneklerine sahip olsalar da, derin kusurları da vardır. Karpathy, onların "psikolojilerine" ayık bir bakış sunarak, onları "insanların stokastik simülasyonları" olarak tanımlıyor [00:14:49]. Zekaları "düzensiz"dir [00:16:20].

Bir yandan ansiklopedik bilgiye ve neredeyse mükemmel bir hafızaya sahipler [00:15:30]. Diğer yandan, kendinden emin halüsinasyonlara eğilimlidirler, gerçek bir öz-bilgi modeline sahip değillerdir [00:16:07], "anterograd amnezi"den muzdariptirler (etkileşimlerden doğal olarak öğrenmezler) [00:16:43] ve istem enjeksiyonu gibi güvenlik risklerine karşı tehlikeli derecede safdırlar [00:17:38].

Bu nedenle, temel mühendislik zorluğu, güçlü yönlerini kullanırken bu eksikliklerin etrafından dolaşan sistemler tasarlamaktır [00:18:03]. Bu, konuşmanın belki de en pratik ve değerli içgörüsüne yol açar: "Iron Man Kıyafeti" benzetmesi [00:28:22].

Denetim olmadan çalışan tam otonom "Iron Man robotları" için çabalamak yerine (bu hala uzak ve riskli bir hedeftir), "Iron Man kıyafetleri" inşa etmeye odaklanmalıyız. Bunlar, insan yeteneklerini artıran ve insanı sıkıca döngüde tutan uygulamalardır. İdeal iş akışı, sıkı, hızlı bir oluştur-ve-doğrula döngüsüdür [00:22:13]. Yapay zeka ilk taslağı oluşturur (kod, e-posta veya tasarım olsun), insan ise üstün yargısı ve bağlamıyla hızla doğrular, düzenler ve onaylar. Bu döngü ne kadar hızlı olursa, artırma o kadar güçlü olur [00:22:19].

Kodlama için Cursor veya arama için Perplexity gibi günümüzdeki başarılı LLM uygulamaları bunun mükemmel örnekleridir. Gelişmiş bağlam yönetimi [00:19:24], birden fazla LLM çağrısının akıllı orkestrasyonu [00:19:32] ve en önemlisi kolay denetim için tasarlanmış kullanıcı arayüzleri [00:19:44] sunarlar. Genellikle, kullanıcının görevin karmaşıklığına ve sisteme olan güvenine bağlı olarak yapay zekanın katkısını artırmasına veya azaltmasına olanak tanıyan bir "otonomi kaydırıcısı" [00:20:21] içerirler. Anahtar, yapay zekayı dizginlemek, ezici, yönetilemez çıktılar üretmesini [00:22:53] veya "ormanda kaybolmasını" [00:24:41] önlemektir.

Herkes Bir Programcıdır: "Vibe Kodlama"nın Yükselişi

Yazılım 3.0'ın en dönüştürücü sonucu, yaratımın radikal demokratikleşmesidir. Karpathy, doğal dil aracılığıyla programlama eylemini tanımlamak için hoş bir terim olan "vibe kodlama"yı [00:31:07] ortaya atıyor. Oluşturmak istediğiniz iOS uygulamasının "vibe'ını" tanımlamak için Swift bilmenize gerek yok; sadece onu tanımlarsınız ve LLM sözdizimini halleder.

Bu, alan uzmanlarının (doktorlar, avukatlar, bilim insanları, sanatçılar) geleneksel bir yazılım mühendisliği geçmişi olmadan ihtiyaç duydukları araçları inşa edebilecekleri bir dünyanın kapısını açar. Ancak Karpathy, "son mil" sorununa zekice işaret ediyor. Temel mantık "