Notes sur la conférence d'Andrej Karpathy : "Le logiciel change (encore)"

Le monde de l'intelligence artificielle évolue à une vitesse vertigineuse. Chaque semaine semble apporter un nouveau modèle, une nouvelle capacité ou un nouveau débat sur l'avenir de l'humanité. Pour percer ce brouhaha, il faut des voix dotées à la fois d'une compréhension technique approfondie et d'une vision claire de la situation dans son ensemble. Andrej Karpathy, figure pionnière avec une expérience formatrice chez Tesla et OpenAI, est l'une de ces voix.

Dans sa récente conférence chez Y Combinator, intitulée "Software Is Changing (Again)" (Le logiciel change (encore)), Karpathy ne fournit pas seulement une mise à jour, mais un cadre complet pour comprendre le changement sismique que nous sommes en train de vivre. Il soutient que nous n'assistons pas seulement à la création d'un nouvel outil, mais à l'aube d'un nouveau paradigme informatique. C'est le Logiciel 3.0.

Cet article est une plongée approfondie dans les notes et réflexions issues de sa conférence, décortiquant les concepts fondamentaux et explorant leurs profondes implications. Nous parcourrons sa taxonomie du logiciel, comprendrons pourquoi il qualifie un Grand Modèle Linguistique (LLM) de nouveau type de système d'exploitation, explorerons l'approche pragmatique du "Costume d'Iron Man" pour construire des produits d'IA aujourd'hui, et nous projetterons dans un avenir construit pour les agents IA.

💡

Vous voulez un excellent outil de test d'API qui génère une magnifique documentation d'API ?

Vous voulez une plateforme intégrée tout-en-un pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !

button

Les trois âges du logiciel : une nouvelle taxonomie

Pour comprendre où nous allons, nous devons d'abord comprendre d'où nous venons. Karpathy catégorise élégamment l'histoire du logiciel en trois époques distinctes, une taxonomie qui clarifie la nature de la révolution actuelle.

Logiciel 1.0 : L'ère de la logique

C'est le logiciel que nous connaissons tous, la base du monde numérique. Le Logiciel 1.0 est le code traditionnel, écrit explicitement par des programmeurs humains pour exécuter des instructions déterministes. C'est le C++, le Java et le Python qui alimentent tout, de votre navigateur web à la base de données de transactions d'une banque. Dans sa conférence, Karpathy cite le code C++ fondamental du système Autopilot de Tesla comme un excellent exemple [00:04:49].

Ce paradigme est défini par sa précision et son contrôle. Les humains dictent la logique, étape par étape. Sa force est sa prévisibilité. Sa faiblesse, cependant, est sa rigidité. Le Logiciel 1.0 a du mal avec l'ambiguïté et les données non structurées. Vous ne pouvez pas facilement écrire des instructions if/else pour identifier de manière fiable un chat sur une photo ou capturer le sentiment d'une phrase. Pour cela, une nouvelle approche était nécessaire.

Logiciel 2.0 : L'ère de l'apprentissage

Le Logiciel 2.0 a émergé avec l'essor de l'apprentissage profond (deep learning) et des réseaux neuronaux. Ici, le paradigme passe radicalement de l'écriture de code à la curation de données. Au lieu de fournir des instructions explicites, les développeurs collectent de vastes ensembles de données et les utilisent pour "entraîner" un réseau neuronal. Le "code" dans ce paradigme n'est pas une logique lisible par l'homme ; ce sont les millions ou milliards de poids et de biais au sein du réseau, ajustés par un optimiseur. Le programmeur devient plus un enseignant ou un jardinier, alimentant le modèle en données et façonnant son processus d'apprentissage.

Cette approche a littéralement "dévoré" la pile du Logiciel 1.0 dans de nombreux domaines, en particulier ceux traitant de la perception, comme la vision par ordinateur [00:05:26]. Des tâches qui étaient incroyablement complexes à coder à la main sont devenues réalisables. C'était l'ère des reconnaisseurs d'images, des systèmes de conversion parole-texte et de la traduction automatique qui fonctionnait réellement. Ce fut un bond monumental, mais l'étape suivante allait changer la nature même de la programmation.

Logiciel 3.0 : L'ère de la conversation

Cela nous amène à aujourd'hui. Le Logiciel 3.0 est le monde des Grands Modèles Linguistiques (LLM). Ces modèles, comme GPT-4 ou Gemini, sont de vastes réseaux neuronaux entraînés sur une fraction significative d'internet. Ce sont généralement des artefacts figés et pré-entraînés. La partie révolutionnaire est la manière dont nous interagissons avec eux. Comme l'indique Karpathy, nous avons un nouveau langage de programmation : l'anglais [00:04:09].

La programmation dans le Logiciel 3.0 se fait par le biais d'invites en langage naturel. Nous instruisons, interrogeons et orientons le comportement du modèle simplement en lui parlant. C'est le bond le plus important en matière d'accessibilité dans l'histoire de l'informatique. Cela transforme toute personne capable d'articuler une pensée en un programmeur potentiel, un concept que Karpathy surnomme plus tard le "vibe coding".

Le LLM comme nouvelle plateforme informatique

Karpathy soutient de manière convaincante qu'un LLM n'est pas seulement un programme intelligent ; c'est un nouveau type d'ordinateur, une nouvelle plateforme avec ses propres caractéristiques uniques [00:06:10]. Il utilise plusieurs analogies puissantes pour étayer son propos.

Premièrement, il considère les LLM comme ayant des propriétés à la fois d'une utilité publique et d'une fabrique de semi-conducteurs. L'analogie de l'utilité publique [00:06:35] fait référence aux immenses dépenses d'investissement (capex) requises par des laboratoires comme OpenAI et Google pour entraîner ces modèles, et aux dépenses d'exploitation (opex) pour les servir via des API facturées à l'usage. Comme un réseau électrique, ils nécessitent d'immenses investissements et doivent être livrés avec une faible latence, une haute disponibilité et une qualité constante [00:07:02]. L'analogie de la fabrique [00:08:04] souligne la R&D profonde, centralisée et souvent secrète qui entre dans la construction de ces modèles fondamentaux, créant un paysage dominé par quelques acteurs majeurs.

Deuxièmement, et peut-être le plus important, il présente le LLM comme un nouveau système d'exploitation [00:09:07]. C'est une idée profonde. Le LLM agit comme une sorte d'OS biologique et étranger qui orchestre ses ressources internes — sa vaste connaissance, sa capacité de raisonnement, sa fenêtre de contexte (comme une forme de RAM) — pour exécuter les tâches spécifiées par l'invite de l'utilisateur [00:10:09]. Cela a donné naissance à un nouveau modèle informatique rappelant le partage de temps des années 1960 [00:11:02]. La plupart d'entre nous n'exécutent pas ces modèles massifs localement ; nous sommes des clients se connectant via un réseau à un "mainframe" puissant et centralisé dans le cloud.

Cela a également inversé le cours de la diffusion technologique. Historiquement, les technologies puissantes se sont diffusées des gouvernements et des grandes entreprises vers les consommateurs. Les LLM, remarquablement, ont fait le contraire, atteignant des milliards de consommateurs via des interfaces de chat intuitives presque du jour au lendemain [00:12:42], forçant les entreprises à se démener pour rattraper leur retard.

Le "Costume d'Iron Man" : Pragmatisme à l'ère du battage médiatique

Bien que les LLM possèdent des capacités surhumaines, ils sont également profondément imparfaits. Karpathy offre un regard sobre sur leur "psychologie", les décrivant comme des "simulations stochastiques de personnes" [00:14:49]. Leur intelligence est "irrégulière" ("jagged") [00:16:20].

D'une part, ils possèdent une connaissance encyclopédique et une mémoire quasi parfaite [00:15:30]. D'autre part, ils sont sujets à des hallucinations confiantes, manquent d'un véritable modèle de connaissance de soi [00:16:07], souffrent d'une "amnésie antérograde" (ils n'apprennent pas nativement des interactions) [00:16:43], et sont dangereusement crédules face aux risques de sécurité comme l'injection d'invite (prompt injection) [00:17:38].

Le principal défi d'ingénierie est donc de concevoir des systèmes qui contournent ces déficits tout en exploitant leurs forces [00:18:03]. Cela mène à ce qui est peut-être l'idée la plus pratique et la plus précieuse de la conférence : l'analogie du "Costume d'Iron Man" [00:28:22].

Au lieu de viser des "robots Iron Man" entièrement autonomes qui opèrent sans supervision — un objectif encore lointain et semé de risques — nous devrions nous concentrer sur la construction de "costumes d'Iron Man". Ce sont des applications qui augmentent les capacités humaines, avec un humain fermement impliqué dans la boucle. Le flux de travail idéal est un cycle générer-et-vérifier serré et rapide [00:22:13]. L'IA génère la première ébauche — qu'il s'agisse de code, d'un e-mail ou d'un design — et l'humain, avec son jugement supérieur et son contexte, vérifie, édite et approuve rapidement. Plus cette boucle est rapide, plus l'augmentation est puissante [00:22:19].

Les applications LLM réussies aujourd'hui, comme Cursor pour le codage ou Perplexity pour la recherche, en sont d'excellents exemples. Elles disposent d'une gestion sophistiquée du contexte [00:19:24], d'une orchestration intelligente de plusieurs appels LLM [00:19:32], et, surtout, d'interfaces utilisateur conçues pour une vérification facile [00:19:44]. Elles comportent souvent un "curseur d'autonomie" [00:20:21], permettant à l'utilisateur d'augmenter ou de diminuer la contribution de l'IA en fonction de la complexité de la tâche et de sa confiance dans le système. La clé est de garder l'IA en laisse, l'empêchant de générer des sorties accablantes et ingérables [00:22:53] ou de se "perdre dans les bois" [00:24:41].

Tout le monde est un programmeur : l'essor du "Vibe Coding"

La conséquence la plus transformatrice du Logiciel 3.0 est la démocratisation radicale de la création. Karpathy invente le terme charmant de "vibe coding" [00:31:07] pour décrire l'acte de programmer via le langage naturel. Vous n'avez pas besoin de connaître Swift pour décrire la "vibe" de l'application iOS que vous voulez construire ; vous la décrivez simplement, et le LLM gère la syntaxe.

Cela ouvre la porte à un monde où les experts de domaine — médecins, avocats, scientifiques, artistes — peuvent construire les outils dont ils ont besoin sans formation traditionnelle en génie logiciel. Cependant, Karpathy souligne astucieusement le problème du "dernier kilomètre". Bien que la logique principale puisse être générée par le "vibe coding", donner vie à une application réelle implique des tâches "devops" complexes : configurer l'authentification, intégrer les paiements, déployer sur un serveur, et cliquer à travers d'innombrables interfaces utilisateur web [00:32:30]. Ce travail manuel basé sur le navigateur est le goulot d'étranglement actuel, et il pointe directement vers la prochaine frontière : les agents.

Préparer le terrain pour les agents : construire un web natif LLM

Si les LLM doivent évoluer de simples assistants utiles à des agents capables d'accomplir ces tâches du "dernier kilomètre", notre infrastructure numérique doit s'adapter. Nous devons commencer à construire pour un nouveau type d'utilisateur : l'agent IA [00:33:55]. Cela signifie rendre nos sites web et services plus lisibles par les machines.

Karpathy propose plusieurs idées concrètes et réalisables :

llm.txt : Tout comme robots.txt donne des instructions aux robots d'exploration web, un fichier llm.txt proposé fournirait un résumé direct, structuré et en langage naturel d'un site web ou d'un domaine pour un LLM visitant [00:34:12]. C'est un manuel d'instructions pour l'IA.
Documentation conviviale pour les LLM : La documentation doit s'éloigner des captures d'écran et des mises en page centrées sur l'humain pour se diriger vers un Markdown propre et simple, facilement analysable et compris par un LLM [00:34:51].
Docs Actionnables : Les instructions doivent évoluer. Au lieu de dire à un humain de "cliquer sur le bouton 'Créer'", la documentation devrait fournir la commande curl ou l'appel API qu'un agent peut exécuter directement pour obtenir le même résultat [00:35:59].

Nous avons également besoin de nouveaux outils conçus pour cette ère, comme l'outil get.ingest qu'il mentionne, qui peut aplatir un dépôt GitHub complexe en un seul fichier texte propre qu'un LLM peut facilement ingérer et analyser [00:36:33].

Conclusion : Embrasser le changement

La conférence d'Andrej Karpathy offre une vision claire, structurée et inspirante du présent et de l'avenir du logiciel. Nous sommes à un moment charnière, une "époque unique" [00:38:16] où la nature même du logiciel est redéfinie. La transition vers le Logiciel 3.0 n'est pas seulement un changement technologique ; c'est un changement de paradigme qui donnera le pouvoir à une nouvelle génération de créateurs et changera fondamentalement notre façon d'interagir avec le monde numérique. Le chemin à parcourir nous obligera à être à l'aise dans tous les paradigmes, à adopter le modèle de collaboration humain-IA du "Costume d'Iron Man", et à commencer à construire l'infrastructure qui permettra l'émergence des agents IA de demain.

C'est une période unique, passionnante et stimulante pour être un bâtisseur. La définition même du logiciel s'élargit, et avec elle, la définition de qui peut être programmeur. Le changement est là, et il se produit maintenant.

💡

button