Andrej Karpathy: Softwareentwicklung im Wandel

Die Welt der künstlichen Intelligenz bewegt sich in schwindelerregendem Tempo. Jede Woche scheint ein neues Modell, eine neue Fähigkeit oder eine neue Debatte über die Zukunft der Menschheit zu bringen. Um diesen Lärm zu durchdringen, bedarf es Stimmen mit sowohl tiefem technischem Verständnis als auch einer klaren Vision des Gesamtbildes. Andrej Karpathy, eine Pionierfigur mit prägender Erfahrung sowohl bei Tesla als auch bei OpenAI, ist eine solche Stimme.

In seinem jüngsten Vortrag bei Y Combinator, betitelt "Software Is Changing (Again)", liefert Karpathy nicht nur ein Update, sondern ein vollständiges Rahmenwerk zum Verständnis des seismischen Wandels, den wir derzeit erleben. Er argumentiert, dass wir nicht nur die Schaffung eines neuen Werkzeugs beobachten, sondern den Beginn eines neuen Rechenparadigmas. Dies ist Software 3.0.

Dieser Beitrag ist ein tiefer Einblick in die Notizen und Überlegungen aus seinem Vortrag, der die Kernkonzepte aufschlüsselt und ihre tiefgreifenden Auswirkungen untersucht. Wir werden seine Taxonomie der Software durchwandern, verstehen, warum er ein Large Language Model (LLM) als eine neue Art von Betriebssystem bezeichnet, den pragmatischen "Iron Man Anzug"-Ansatz zum Aufbau heutiger KI-Produkte erkunden und einen Blick in eine Zukunft werfen, die für KI-Agenten gebaut ist.

💡

Möchten Sie ein großartiges API-Testwerkzeug, das wunderschöne API-Dokumentation generiert?

Möchten Sie eine integrierte All-in-One-Plattform für Ihr Entwicklerteam, um mit maximaler Produktivität zusammenzuarbeiten?

Apidog erfüllt all Ihre Anforderungen und ersetzt Postman zu einem viel erschwinglicheren Preis!

Schaltfläche

Die drei Zeitalter der Software: Eine neue Taxonomie

Um zu verstehen, wohin wir gehen, müssen wir zuerst verstehen, wo wir waren. Karpathy kategorisiert die Geschichte der Software elegant in drei verschiedene Epochen, eine Taxonomie, die die Natur der aktuellen Revolution verdeutlicht.

Software 1.0: Das Zeitalter der Logik

Dies ist die Software, die wir alle kennen, die Grundlage der digitalen Welt. Software 1.0 ist traditioneller Code, der explizit von menschlichen Programmierern geschrieben wurde, um deterministische Anweisungen auszuführen. Es ist das C++, Java und Python, das alles antreibt, von Ihrem Webbrowser bis zur Transaktionsdatenbank einer Bank. In seinem Vortrag nennt Karpathy den grundlegenden C++-Code in Teslas Autopilot-System als Paradebeispiel [00:04:49].

Dieses Paradigma ist durch seine Präzision und Kontrolle definiert. Menschen diktieren die Logik, Schritt für Schritt. Seine Stärke ist seine Vorhersehbarkeit. Seine Schwäche ist jedoch seine Starrheit. Software 1.0 kämpft mit Mehrdeutigkeit und unstrukturierten Daten. Sie können nicht einfach if/else-Anweisungen schreiben, um zuverlässig eine Katze auf einem Foto zu identifizieren oder die Stimmung eines Satzes zu erfassen. Dafür wurde ein neuer Ansatz benötigt.

Software 2.0: Das Zeitalter des Lernens

Software 2.0 entstand mit dem Aufkommen von Deep Learning und neuronalen Netzen. Hier verschiebt sich das Paradigma dramatisch vom Schreiben von Code zum Kuratieren von Daten. Anstatt explizite Anweisungen zu geben, sammeln Entwickler riesige Datensätze und verwenden sie, um ein neuronales Netz zu "trainieren". Der "Code" in diesem Paradigma ist keine menschenlesbare Logik; es sind die Millionen oder Milliarden von Gewichten und Biases innerhalb des Netzes, die von einem Optimierer abgestimmt werden. Der Programmierer wird eher zum Lehrer oder Gärtner, der dem Modell Daten zuführt und seinen Lernprozess formt.

Dieser Ansatz "fraß sich" in vielen Bereichen, insbesondere in denen, die sich mit Wahrnehmung beschäftigen, wie Computer Vision [00:05:26], regelrecht durch den Software 1.0 Stack. Aufgaben, die von Hand unmöglich komplex zu programmieren waren, wurden erreichbar. Dies war die Ära der Bilderkennung, Spracherkennungssysteme und maschinellen Übersetzung, die tatsächlich funktionierten. Es war ein monumentaler Sprung, aber der nächste Schritt sollte die Natur der Programmierung selbst verändern.

Software 3.0: Das Zeitalter der Konversation

Dies bringt uns zum Heute. Software 3.0 ist die Welt der Large Language Models (LLMs). Diese Modelle, wie GPT-4 oder Gemini, sind massive neuronale Netze, die auf einem erheblichen Teil des Internets trainiert wurden. Es handelt sich typischerweise um eingefrorene, vortrainierte Artefakte. Der revolutionäre Teil ist, wie wir mit ihnen interagieren. Wie Karpathy feststellt, haben wir eine neue Programmiersprache: Englisch [00:04:09].

Programmierung in Software 3.0 erfolgt über Prompts in natürlicher Sprache. Wir weisen das Verhalten des Modells an, fragen es ab und steuern es, indem wir einfach mit ihm sprechen. Dies ist der bedeutendste Sprung in der Zugänglichkeit in der Geschichte des Computings. Er verwandelt jeden Menschen, der einen Gedanken formulieren kann, in einen potenziellen Programmierer, ein Konzept, das Karpathy später als "Vibe Coding" bezeichnet.

Das LLM als neue Computerplattform

Karpathy argumentiert überzeugend, dass ein LLM nicht nur ein cleveres Programm ist; es ist eine neue Art von Computer, eine neue Plattform mit eigenen einzigartigen Eigenschaften [00:06:10]. Er verwendet mehrere starke Analogien, um seine These zu untermauern.

Erstens sieht er, dass LLMs Eigenschaften sowohl eines Versorgungsunternehmens als auch einer Halbleiterfabrik haben. Die Analogie des Versorgungsunternehmens [00:06:35] bezieht sich auf die immensen Investitionsausgaben (Capex), die von Labors wie OpenAI und Google für das Training dieser Modelle erforderlich sind, und die Betriebsausgaben (Opex) für deren Bereitstellung über getaktete APIs. Wie ein Stromnetz erfordern sie immense Investitionen und müssen mit geringer Latenz, hoher Verfügbarkeit und gleichbleibender Qualität geliefert werden [00:07:02]. Die Fabrik-Analogie [00:08:04] verweist auf die tiefe, zentralisierte und oft geheime Forschung und Entwicklung, die in den Aufbau dieser Grundlagenmodelle fließt und eine Landschaft schafft, die von wenigen Hauptakteuren dominiert wird.

Zweitens, und vielleicht am wichtigsten, präsentiert er das LLM als neues Betriebssystem [00:09:07]. Dies ist eine tiefgreifende Einsicht. Das LLM fungiert als eine Art biologisches, fremdartiges Betriebssystem, das seine internen Ressourcen – sein riesiges Wissen, seine Denkfähigkeit, sein Kontextfenster (als eine Form von RAM) – orchestriert, um Aufgaben auszuführen, die durch den Prompt des Benutzers spezifiziert sind [00:10:09]. Dies hat zu einem neuen Computermodell geführt, das an das Time-Sharing der 1960er Jahre erinnert [00:11:02]. Die meisten von uns führen diese massiven Modelle nicht lokal aus; wir sind Clients, die sich über ein Netzwerk mit einem leistungsstarken, zentralisierten "Mainframe" in der Cloud verbinden.

Dies hat auch das Drehbuch der Technologieverbreitung umgedreht. Historisch gesehen sickerten leistungsstarke Technologien von Regierungen und großen Unternehmen zu den Verbrauchern durch. LLMs haben bemerkenswerterweise das Gegenteil getan und über intuitive Chat-Schnittstellen fast über Nacht Milliarden von Verbrauchern erreicht [00:12:42], was Unternehmen dazu zwingt, sich zu beeilen, um aufzuholen.

Der "Iron Man Anzug": Pragmatismus in einem Zeitalter des Hypes

Während LLMs übermenschliche Fähigkeiten besitzen, sind sie auch zutiefst fehlerhaft. Karpathy wirft einen nüchternen Blick auf ihre "Psychologie" und beschreibt sie als "stochastische Simulationen von Menschen" [00:14:49]. Ihre Intelligenz ist "gezackt" [00:16:20].

Einerseits verfügen sie über enzyklopädisches Wissen und ein nahezu perfektes Gedächtnis [00:15:30]. Andererseits sind sie anfällig für selbstbewusste Halluzinationen, ihnen fehlt ein echtes Modell des Selbstwissens [00:16:07], sie leiden unter "anterograder Amnesie" (sie lernen nicht nativ aus Interaktionen) [00:16:43] und sind gefährlich leichtgläubig gegenüber Sicherheitsrisiken wie Prompt Injection [00:17:38].

Die zentrale technische Herausforderung besteht daher darin, Systeme zu entwerfen, die diese Defizite umgehen und gleichzeitig ihre Stärken nutzen [00:18:03]. Dies führt zu der vielleicht praktischsten und wertvollsten Erkenntnis aus dem Vortrag: der "Iron Man Anzug"-Analogie [00:28:22].

Anstatt nach vollautonomen "Iron Man Robotern" zu streben, die ohne Aufsicht arbeiten – ein Ziel, das noch weit entfernt und risikoreich ist –, sollten wir uns auf den Bau von "Iron Man Anzügen" konzentrieren. Dies sind Anwendungen, die menschliche Fähigkeiten erweitern, wobei der Mensch fest in der Schleife bleibt. Der ideale Workflow ist ein enger, schneller Generierungs- und Verifizierungszyklus [00:22:13]. Die KI generiert den ersten Entwurf – sei es Code, eine E-Mail oder ein Design – und der Mensch, mit seinem überlegenen Urteilsvermögen und Kontext, verifiziert, bearbeitet und genehmigt schnell. Je schneller diese Schleife, desto stärker die Erweiterung [00:22:19].

Erfolgreiche LLM-Apps heute, wie Cursor für die Programmierung oder Perplexity für die Suche, sind hervorragende Beispiele dafür. Sie verfügen über ausgeklügeltes Kontextmanagement [00:19:24], intelligente Orchestrierung mehrerer LLM-Aufrufe [00:19:32] und, entscheidend, Benutzeroberflächen, die für eine einfache Überprüfung konzipiert sind [00:19:44]. Sie verfügen oft über einen "Autonomie-Schieberegler" [00:20:21], der es dem Benutzer ermöglicht, den Beitrag der KI basierend auf der Komplexität der Aufgabe und seinem Vertrauen in das System hoch- oder runterzuregeln. Der Schlüssel ist, die KI an der Leine zu halten, um zu verhindern, dass sie überwältigende, unkontrollierbare Ausgaben generiert [00:22:53] oder sich "im Wald verirrt" [00:24:41].

Jeder ist ein Programmierer: Der Aufstieg des "Vibe Coding"

Die transformierendste Konsequenz von Software 3.0 ist die radikale Demokratisierung der Schöpfung. Karpathy prägt den reizvollen Begriff "Vibe Coding" [00:31:07], um den Akt des Programmierens durch natürliche Sprache zu beschreiben. Sie müssen kein Swift kennen, um den "Vibe" der iOS-App zu beschreiben, die Sie erstellen möchten; Sie beschreiben sie einfach, und das LLM kümmert sich um die Syntax.

Dies öffnet die Tür zu einer Welt, in der Fachexperten – Ärzte, Anwälte, Wissenschaftler, Künstler – die Werkzeuge bauen können, die sie benötigen, ohne einen traditionellen Software-Engineering-Hintergrund zu haben. Karpathy weist jedoch scharfsinnig auf das "Last Mile"-Problem hin. Während die Kernlogik durch "Vibe Coding" generiert werden kann, beinhaltet die Umsetzung einer echten Anwendung unordentliche "DevOps"-Aufgaben: Authentifizierung einrichten, Zahlungen integrieren, auf einem Server bereitstellen und sich durch unzählige Web-UIs klicken [00:32:30]. Diese manuelle, browserbasierte Arbeit ist der aktuelle Engpass und weist direkt auf die nächste Grenze hin: Agenten.

Die Wege für Agenten ebnen: Aufbau eines LLM-nativen Webs

Wenn sich LLMs von hilfreichen Assistenten zu fähigen Agenten entwickeln sollen, die diese "Last Mile"-Aufgaben ausführen können, muss sich unsere digitale Infrastruktur anpassen. Wir müssen anfangen, für eine neue Art von Benutzer zu bauen: den KI-Agenten [00:33:55]. Das bedeutet, unsere Websites und Dienste maschinenlesbarer zu machen.

Karpathy schlägt mehrere konkrete, umsetzbare Ideen vor:

llm.txt: So wie robots.txt Anweisungen an Web-Crawler gibt, würde eine vorgeschlagene llm.txt-Datei eine direkte, strukturierte Zusammenfassung einer Website oder Domain in natürlicher Sprache für ein besuchendes LLM liefern [00:34:12]. Es ist eine Bedienungsanleitung für die KI.
LLM-freundliche Dokumentation: Die Dokumentation muss sich von Screenshots und menschenzentrierten Layouts hin zu sauberem, einfachem Markdown bewegen, das von einem LLM leicht geparst und verstanden werden kann [00:34:51].
Umsetzbare Dokumentation: Anweisungen sollten sich weiterentwickeln. Anstatt einem Menschen zu sagen, er solle auf die Schaltfläche "Erstellen" klicken, sollte die Dokumentation den curl-Befehl oder API-Aufruf bereitstellen, den ein Agent direkt ausführen kann, um das gleiche Ergebnis zu erzielen [00:35:59].

Wir brauchen auch neue Werkzeuge, die für diese Ära entwickelt wurden, wie das von ihm erwähnte get.ingest-Werkzeug, das ein komplexes GitHub-Repository in eine einzige, saubere Textdatei umwandeln kann, die ein LLM leicht aufnehmen und analysieren kann [00:36:33].

Fazit: Den Wandel annehmen

Andrej Karpathys Vortrag bietet eine klare, strukturierte und inspirierende Vision der Gegenwart und Zukunft der Software. Wir befinden uns an einem entscheidenden Moment, einer "einzigartigen Zeit" [00:38:16], in der die Natur der Software selbst neu definiert wird. Der Übergang zu Software 3.0 ist nicht nur ein technologischer Wandel; es ist ein Paradigmenwechsel, der eine neue Generation von Schöpfern befähigen und grundlegend verändern wird, wie wir mit der digitalen Welt interagieren. Der Weg vor uns wird erfordern, dass wir in allen Paradigmen fließend sind, das "Iron Man Anzug"-Modell der Mensch-KI-Zusammenarbeit annehmen und mit dem Aufbau der Infrastruktur beginnen, die die KI-Agenten von morgen ermöglichen wird.

Dies ist eine einzigartige, aufregende und herausfordernde Zeit, ein Entwickler zu sein. Die Definition von Software selbst erweitert sich, und damit auch die Definition, wer Programmierer sein kann. Der Wandel ist da und er geschieht jetzt.

💡

Schaltfläche