Notas sobre la charla de Andrej Karpathy: El software está cambiando (otra vez)

El mundo de la inteligencia artificial avanza a una velocidad vertiginosa. Cada semana parece traer un nuevo modelo, una nueva capacidad o un nuevo debate sobre el futuro de la humanidad. Para abrirse paso entre este ruido se necesitan voces con una profunda comprensión técnica y una visión clara del panorama general. Andrej Karpathy, una figura pionera con experiencia formativa tanto en Tesla como en OpenAI, es una de esas voces.

En su reciente charla en Y Combinator, titulada "Software Is Changing (Again)" (El software está cambiando (de nuevo)), Karpathy no solo ofrece una actualización, sino un marco completo para comprender el cambio sísmico que estamos experimentando actualmente. Argumenta que no solo estamos presenciando la creación de una nueva herramienta, sino el amanecer de un nuevo paradigma informático. Esto es Software 3.0.

Esta publicación es una inmersión profunda en las notas y reflexiones de su charla, desgranando los conceptos centrales y explorando sus profundas implicaciones. Viajaremos a través de su taxonomía del software, entenderemos por qué llama a un Modelo de Lenguaje Grande (LLM) un nuevo tipo de sistema operativo, exploraremos el enfoque pragmático del "Traje de Iron Man" para construir productos de IA hoy en día, y miraremos hacia un futuro construido para agentes de IA.

💡

¿Quiere una excelente herramienta de prueba de API que genere hermosa documentación de API?

¿Quiere una plataforma integrada y todo en uno para que su equipo de desarrolladores trabaje junto con la máxima productividad?

Apidog cumple todas sus demandas y reemplaza a Postman a un precio mucho más asequible.

button

Las Tres Edades del Software: Una Nueva Taxonomía

Para entender hacia dónde vamos, primero necesitamos entender de dónde venimos. Karpathy categoriza elegantemente la historia del software en tres eras distintas, una taxonomía que clarifica la naturaleza de la revolución actual.

Software 1.0: La Era de la Lógica

Este es el software que todos conocemos, la base del mundo digital. El Software 1.0 es código tradicional, escrito explícitamente por programadores humanos para ejecutar instrucciones deterministas. Es el C++, Java y Python que impulsa todo, desde su navegador web hasta la base de datos de transacciones de un banco. En su charla, Karpathy señala el código fundamental de C++ en el sistema Autopilot de Tesla como un ejemplo principal [00:04:49].

Este paradigma se define por su precisión y control. Los humanos dictan la lógica, paso a paso. Su fortaleza es su predictibilidad. Su debilidad, sin embargo, es su rigidez. El Software 1.0 tiene dificultades con la ambigüedad y los datos no estructurados. No se pueden escribir fácilmente sentencias if/else para identificar de forma fiable un gato en una foto o capturar el sentimiento de una frase. Para eso, se necesitaba un nuevo enfoque.

Software 2.0: La Era del Aprendizaje

El Software 2.0 surgió con el auge del aprendizaje profundo y las redes neuronales. Aquí, el paradigma cambia drásticamente de escribir código a curar datos. En lugar de proporcionar instrucciones explícitas, los desarrolladores recopilan vastos conjuntos de datos y los utilizan para "entrenar" una red neuronal. El "código" en este paradigma no es lógica legible por humanos; son los millones o miles de millones de pesos y sesgos dentro de la red, ajustados por un optimizador. El programador se convierte más en un maestro o un jardinero, alimentando el modelo con datos y dando forma a su proceso de aprendizaje.

Este enfoque literalmente "se comió" la pila del Software 1.0 en muchos dominios, especialmente aquellos que tratan con la percepción, como la visión por computadora [00:05:26]. Tareas que eran increíblemente complejas de codificar a mano se volvieron alcanzables. Esta fue la era de los reconocedores de imágenes, los sistemas de voz a texto y la traducción automática que realmente funcionaba. Fue un salto monumental, pero el siguiente paso cambiaría la naturaleza de la programación misma.

Software 3.0: La Era de la Conversación

Esto nos lleva al presente. El Software 3.0 es el mundo de los Modelos de Lenguaje Grandes (LLM). Estos modelos, como GPT-4 o Gemini, son redes neuronales masivas entrenadas en una fracción significativa de internet. Típicamente son artefactos congelados y pre-entrenados. La parte revolucionaria es cómo interactuamos con ellos. Como afirma Karpathy, tenemos un nuevo lenguaje de programación: el inglés [00:04:09].

La programación en Software 3.0 se realiza a través de prompts en lenguaje natural. Instruimos, consultamos y dirigimos el comportamiento del modelo simplemente hablando con él. Este es el salto más significativo en accesibilidad en la historia de la computación. Transforma a cada persona que puede articular un pensamiento en un programador potencial, un concepto que Karpathy más tarde denomina "programación por vibración" (vibe coding).

El LLM como Nueva Plataforma Informática

Karpathy argumenta de manera convincente que un LLM no es solo un programa inteligente; es un nuevo tipo de computadora, una nueva plataforma con sus propias características únicas [00:06:10]. Utiliza varias analogías poderosas para fundamentar su argumento.

Primero, ve a los LLM con propiedades tanto de una utilidad como de una fábrica de semiconductores. La analogía de la utilidad [00:06:35] se refiere al inmenso gasto de capital (capex) requerido por laboratorios como OpenAI y Google para entrenar estos modelos, y el gasto operativo (opex) para servirlos a través de APIs con medición. Al igual que una red eléctrica, requieren una inversión inmensa y necesitan ser entregados con baja latencia, alta disponibilidad y calidad consistente [00:07:02]. La analogía de la fábrica [00:08:04] señala la profunda, centralizada y a menudo secreta I+D que se lleva a cabo en la construcción de estos modelos fundamentales, creando un panorama dominado por unos pocos actores principales.

Segundo, y quizás lo más importante, presenta el LLM como un nuevo sistema operativo [00:09:07]. Esta es una percepción profunda. El LLM actúa como una especie de SO biológico y alienígena que orquesta sus recursos internos —su vasto conocimiento, su capacidad de razonamiento, su ventana de contexto (como una forma de RAM)— para ejecutar tareas especificadas por el prompt del usuario [00:10:09]. Esto ha dado lugar a un nuevo modelo informático que recuerda al tiempo compartido de los años 60 [00:11:02]. La mayoría de nosotros no ejecutamos estos modelos masivos localmente; somos clientes que se conectan a través de una red a un potente "mainframe" centralizado en la nube.

Esto también ha invertido la dinámica de la difusión tecnológica. Históricamente, las tecnologías potentes se filtraban desde los gobiernos y las grandes corporaciones hacia los consumidores. Los LLM, sorprendentemente, han hecho lo contrario, llegando a miles de millones de consumidores a través de interfaces de chat intuitivas casi de la noche a la mañana [00:12:42], obligando a las empresas a apresurarse para ponerse al día.

El "Traje de Iron Man": Pragmatismo en una Era de Hype

Si bien los LLM poseen capacidades sobrehumanas, también tienen profundas fallas. Karpathy ofrece una mirada sobria a su "psicología", describiéndolos como "simulaciones estocásticas de personas" [00:14:49]. Su inteligencia es "irregular" (jagged) [00:16:20].

Por un lado, tienen conocimiento enciclopédico y memoria casi perfecta [00:15:30]. Por otro lado, son propensos a alucinaciones con confianza, carecen de un verdadero modelo de autoconocimiento [00:16:07], sufren de "amnesia anterógrada" (no aprenden de forma nativa de las interacciones) [00:16:43], y son peligrosamente crédulos ante riesgos de seguridad como la inyección de prompts [00:17:38].

El desafío de ingeniería principal, por lo tanto, es diseñar sistemas que superen estas deficiencias al tiempo que aprovechan sus fortalezas [00:18:03]. Esto lleva a lo que quizás sea la percepción más práctica y valiosa de la charla: la analogía del "Traje de Iron Man" [00:28:22].

En lugar de esforzarnos por "robots Iron Man" totalmente autónomos que operan sin supervisión —un objetivo que aún está lejano y lleno de riesgos— deberíamos centrarnos en construir "trajes de Iron Man". Estas son aplicaciones que aumentan las capacidades humanas, con un humano firmemente en el bucle. El flujo de trabajo ideal es un ciclo ajustado y rápido de generar y verificar [00:22:13]. La IA genera el primer borrador —ya sea código, un correo electrónico o un diseño— y el humano, con su juicio y contexto superiores, verifica, edita y aprueba rápidamente. Cuanto más rápido sea este bucle, más potente será la mejora [00:22:19].

Las aplicaciones LLM exitosas hoy en día, como Cursor para codificación o Perplexity para búsqueda, son excelentes ejemplos de esto. Cuentan con una gestión de contexto sofisticada [00:19:24], orquestación inteligente de múltiples llamadas a LLM [00:19:32] y, lo que es crucial, interfaces de usuario diseñadas para una fácil auditoría [00:19:44]. A menudo presentan un "control deslizante de autonomía" (autonomy slider) [00:20:21], que permite al usuario aumentar o disminuir la contribución de la IA en función de la complejidad de la tarea y su confianza en el sistema. La clave es mantener a la IA bajo control, evitando que genere resultados abrumadores e inmanejables [00:22:53] o que se "pierda en el bosque" [00:24:41].

Todos son Programadores: El Auge de la "Programación por Vibración" (Vibe Coding)

La consecuencia más transformadora del Software 3.0 es la democratización radical de la creación. Karpathy acuña el encantador término "programación por vibración" (vibe coding) [00:31:07] para describir el acto de programar a través del lenguaje natural. No necesitas saber Swift para describir la "vibración" (vibe) de la aplicación iOS que quieres construir; simplemente la describes, y el LLM se encarga de la sintaxis.

Esto abre la puerta a un mundo donde los expertos en dominio —médicos, abogados, científicos, artistas— pueden construir las herramientas que necesitan sin una formación tradicional en ingeniería de software. Sin embargo, Karpathy señala astutamente el problema de la "última milla". Si bien la lógica central puede generarse a través de la "programación por vibración", dar vida a una aplicación real implica tareas de "devops" desordenadas: configurar la autenticación, integrar pagos, desplegar en un servidor y hacer clic a través de innumerables interfaces de usuario web [00:32:30]. Este trabajo manual basado en el navegador es el cuello de botella actual, y apunta directamente a la próxima frontera: los agentes.

Allanando el Camino para los Agentes: Construyendo una Web Nativa de LLM

Si los LLM van a evolucionar de asistentes útiles a agentes capaces que puedan realizar estas tareas de "última milla", nuestra infraestructura digital necesita adaptarse. Debemos empezar a construir para un nuevo tipo de usuario: el agente de IA [00:33:55]. Esto significa hacer que nuestros sitios web y servicios sean más legibles por máquinas.

Karpathy propone varias ideas concretas y accionables:

llm.txt: Así como robots.txt da instrucciones a los rastreadores web, un archivo llm.txt propuesto proporcionaría un resumen directo, estructurado y en lenguaje natural de un sitio web o dominio para un LLM visitante [00:34:12]. Es un manual de instrucciones para la IA.
Documentación Amigable para LLM: La documentación debe alejarse de las capturas de pantalla y los diseños centrados en humanos hacia un Markdown limpio y simple que sea fácilmente analizable y comprendido por un LLM [00:34:51].
Documentos Accionables: Las instrucciones deben evolucionar. En lugar de decirle a un humano que "haga clic en el botón 'Crear'", la documentación debería proporcionar el comando curl o la llamada a la API que un agente pueda ejecutar directamente para lograr el mismo resultado [00:35:59].

También necesitamos nuevas herramientas diseñadas para esta era, como la herramienta get.ingest que menciona, que puede aplanar un repositorio complejo de GitHub en un único archivo de texto limpio que un LLM puede ingerir y analizar fácilmente [00:36:33].

Conclusión: Abrazando el Cambio

La charla de Andrej Karpathy proporciona una visión clara, estructurada e inspiradora del presente y futuro del software. Estamos en un momento crucial, un "tiempo único" [00:38:16] donde la naturaleza misma del software está siendo redefinida. La transición al Software 3.0 no es solo un cambio tecnológico; es un cambio de paradigma que empoderará a una nueva generación de creadores y cambiará fundamentalmente cómo interactuamos con el mundo digital. El camino por delante requerirá que seamos fluidos en todos los paradigmas, que adoptemos el modelo de colaboración humano-IA del "traje de Iron Man" y que comencemos a construir la infraestructura que permitirá los agentes de IA del mañana.

Este es un momento único, emocionante y desafiante para ser un constructor. La definición misma de software se está expandiendo, y con ella, la definición de quién puede ser un programador. El cambio está aquí, y está ocurriendo ahora.

💡

button