Anotações da Palestra de Andrej Karpathy: A Mudança do Software

O mundo da inteligência artificial está se movendo a uma velocidade vertiginosa. Toda semana parece trazer um novo modelo, uma nova capacidade ou um novo debate sobre o futuro da humanidade. Para atravessar esse ruído, são necessárias vozes com profundo entendimento técnico e uma visão clara do quadro geral. Andrej Karpathy, uma figura pioneira com experiência formativa tanto na Tesla quanto na OpenAI, é uma dessas vozes.

Em sua recente palestra no Y Combinator, intitulada "Software Is Changing (Again)" (O Software Está Mudando (Novamente)), Karpathy oferece não apenas uma atualização, mas um framework completo para entender a mudança sísmica que estamos vivenciando atualmente. Ele argumenta que não estamos apenas testemunhando a criação de uma nova ferramenta, mas o amanhecer de um novo paradigma de computação. Este é o Software 3.0.

Este post é um mergulho profundo nas notas e reflexões de sua palestra, desvendando os conceitos centrais e explorando suas profundas implicações. Viajaremos por sua taxonomia de software, entenderemos por que ele chama um Large Language Model (LLM) de um novo tipo de sistema operacional, exploraremos a abordagem pragmática do "Traje do Homem de Ferro" para construir produtos de IA hoje e olharemos para um futuro construído para agentes de IA.

💡

Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, Tudo-em-Um, para sua Equipe de Desenvolvedores trabalhar junta com máxima produtividade?

Apidog entrega todas as suas demandas, e substitui o Postman por um preço muito mais acessível!

button

As Três Eras do Software: Uma Nova Taxonomia

Para entender para onde estamos indo, primeiro precisamos entender de onde viemos. Karpathy elegantemente categoriza a história do software em três eras distintas, uma taxonomia que esclarece a natureza da revolução atual.

Software 1.0: A Era da Lógica

Este é o software que todos conhecemos, a base do mundo digital. O Software 1.0 é o código tradicional, escrito explicitamente por programadores humanos para executar instruções determinísticas. É o C++, Java e Python que alimentam tudo, desde seu navegador web até o banco de dados de transações de um banco. Em sua palestra, Karpathy aponta o código fundamental em C++ no sistema Autopilot da Tesla como um excelente exemplo [00:04:49].

Este paradigma é definido por sua precisão e controle. Humanos ditam a lógica, passo a passo. Sua força é sua previsibilidade. Sua fraqueza, no entanto, é sua rigidez. O Software 1.0 tem dificuldades com ambiguidade e dados não estruturados. Você não pode facilmente escrever instruções if/else para identificar de forma confiável um gato em uma foto ou capturar o sentimento de uma frase. Para isso, uma nova abordagem era necessária.

Software 2.0: A Era do Aprendizado

O Software 2.0 surgiu com a ascensão do deep learning e das redes neurais. Aqui, o paradigma muda dramaticamente de escrever código para curar dados. Em vez de fornecer instruções explícitas, os desenvolvedores coletam vastos conjuntos de dados e os usam para "treinar" uma rede neural. O "código" neste paradigma não é lógica legível por humanos; são os milhões ou bilhões de pesos e vieses dentro da rede, ajustados por um otimizador. O programador se torna mais um professor ou um jardineiro, alimentando o modelo com dados e moldando seu processo de aprendizado.

Essa abordagem literalmente "devorou" a pilha do Software 1.0 em muitos domínios, especialmente aqueles que lidam com percepção, como visão computacional [00:05:26]. Tarefas que eram impossivelmente complexas de codificar manualmente se tornaram alcançáveis. Esta foi a era dos reconhecedores de imagem, sistemas de fala para texto e tradução automática que realmente funcionavam. Foi um salto monumental, mas o próximo passo mudaria a natureza da programação em si.

Software 3.0: A Era da Conversa

Isso nos traz para hoje. O Software 3.0 é o mundo dos Large Language Models. Esses modelos, como GPT-4 ou Gemini, são redes neurais massivas treinadas em uma fração significativa da internet. Eles são tipicamente artefatos congelados e pré-treinados. A parte revolucionária é como interagimos com eles. Como Karpathy afirma, temos uma nova linguagem de programação: o Inglês [00:04:09].

A programação no Software 3.0 é feita através de prompts em linguagem natural. Instruímos, consultamos e direcionamos o comportamento do modelo simplesmente conversando com ele. Este é o salto mais significativo em acessibilidade na história da computação. Transforma cada pessoa que consegue articular um pensamento em um programador potencial, um conceito que Karpathy mais tarde chama de "vibe coding".

O LLM como uma Nova Plataforma de Computação

Karpathy argumenta de forma convincente que um LLM não é apenas um programa inteligente; é um novo tipo de computador, uma nova plataforma com suas próprias características únicas [00:06:10]. Ele usa várias analogias poderosas para sustentar seu argumento.

Primeiro, ele vê os LLMs como tendo propriedades tanto de uma utility (serviço público) quanto de uma semiconductor fab (fábrica de semicondutores). A analogia da utility [00:06:35] refere-se ao imenso investimento de capital (capex) exigido por laboratórios como OpenAI e Google para treinar esses modelos, e a despesa operacional (opex) para servi-los via APIs tarifadas. Como uma rede elétrica, eles exigem um investimento imenso e precisam ser entregues com baixa latência, alta disponibilidade (uptime) e qualidade consistente [00:07:02]. A analogia da fab [00:08:04] aponta para a pesquisa e desenvolvimento profunda, centralizada e muitas vezes secreta que entra na construção desses modelos fundamentais, criando um cenário dominado por poucos grandes players.

Segundo, e talvez o mais importante, ele apresenta o LLM como um novo sistema operacional [00:09:07]. Esta é uma percepção profunda. O LLM atua como uma espécie de SO biológico e alienígena que orquestra seus recursos internos — seu vasto conhecimento, sua capacidade de raciocínio, sua janela de contexto (como uma forma de RAM) — para executar tarefas especificadas pelo prompt do usuário [00:10:09]. Isso deu origem a um novo modelo de computação que lembra o time-sharing dos anos 1960 [00:11:02]. A maioria de nós não está executando esses modelos massivos localmente; somos clientes conectando-nos por uma rede a um poderoso "mainframe" centralizado na nuvem.

Isso também inverteu o roteiro da difusão tecnológica. Historicamente, tecnologias poderosas gotejavam de governos e grandes corporações para os consumidores. Os LLMs, notavelmente, fizeram o oposto, alcançando bilhões de consumidores através de interfaces de chat intuitivas quase da noite para o dia [00:12:42], forçando as empresas a correrem para se atualizar.

O "Traje do Homem de Ferro": Pragmatismo em uma Era de Hype

Embora os LLMs possuam capacidades sobre-humanas, eles também são profundamente falhos. Karpathy oferece um olhar sóbrio sobre sua "psicologia", descrevendo-os como "simulações estocásticas de pessoas" [00:14:49]. Sua inteligência é "irregular" (jagged) [00:16:20].

Por um lado, eles têm conhecimento enciclopédico e memória quase perfeita [00:15:30]. Por outro, são propensos a alucinações confiantes, falta um verdadeiro modelo de autoconhecimento [00:16:07], sofrem de "amnésia anterógrada" (não aprendem nativamente com as interações) [00:16:43] e são perigosamente crédulos a riscos de segurança como prompt injection [00:17:38].

O principal desafio de engenharia, portanto, é projetar sistemas que contornem esses déficits enquanto aproveitam suas forças [00:18:03]. Isso leva ao que é talvez a percepção mais prática e valiosa da palestra: a analogia do "Traje do Homem de Ferro" [00:28:22].

Em vez de buscar "robôs Homem de Ferro" totalmente autônomos que operam sem supervisão — um objetivo que ainda está longe e repleto de riscos — devemos focar em construir "trajes do Homem de Ferro". São aplicações que aumentam as capacidades humanas, com um humano firmemente no ciclo. O fluxo de trabalho ideal é um ciclo rápido e apertado de gerar e verificar [00:22:13]. A IA gera o primeiro rascunho — seja código, um e-mail ou um design — e o humano, com seu julgamento superior e contexto, verifica, edita e aprova rapidamente. Quanto mais rápido esse ciclo, mais poderoso o aumento [00:22:19].

Aplicativos LLM bem-sucedidos hoje, como Cursor para codificação ou Perplexity para busca, são excelentes exemplos disso. Eles apresentam gerenciamento de contexto sofisticado [00:19:24], orquestração inteligente de múltiplas chamadas LLM [00:19:32] e, crucialmente, interfaces de usuário projetadas para fácil auditoria [00:19:44]. Frequentemente, apresentam um "slider de autonomia" [00:20:21], permitindo que o usuário aumente ou diminua a contribuição da IA com base na complexidade da tarefa e em sua confiança no sistema. A chave é manter a IA sob controle, impedindo-a de gerar saídas esmagadoras e incontroláveis [00:22:53] ou de se "perder na floresta" [00:24:41].

Todos são Programadores: A Ascensão do "Vibe Coding"

A consequência mais transformadora do Software 3.0 é a radical democratização da criação. Karpathy cunha o termo delicioso "vibe coding" [00:31:07] para descrever o ato de programar através da linguagem natural. Você não precisa saber Swift para descrever a "vibe" do aplicativo iOS que deseja construir; você apenas o descreve, e o LLM cuida da sintaxe.

Isso abre a porta para um mundo onde especialistas de domínio — médicos, advogados, cientistas, artistas — podem construir as ferramentas de que precisam sem um background tradicional em engenharia de software. No entanto, Karpathy aponta astutamente o problema da "última milha". Embora a lógica central possa ser gerada através do "vibe coding", dar vida a um aplicativo real envolve tarefas "devops" complicadas: configurar autenticação, integrar pagamentos, implantar em um servidor e clicar em inúmeras interfaces web [00:32:30]. Este trabalho manual baseado em navegador é o gargalo atual e aponta diretamente para a próxima fronteira: agentes.

Pavimentando o Caminho para Agentes: Construindo uma Web Nativa para LLMs

Se os LLMs evoluírem de assistentes úteis para agentes capazes que podem realizar essas tarefas de "última milha", nossa infraestrutura digital precisa se adaptar. Devemos começar a construir para um novo tipo de usuário: o agente de IA [00:33:55]. Isso significa tornar nossos sites e serviços mais legíveis por máquinas.

Karpathy propõe várias ideias concretas e acionáveis:

llm.txt: Assim como o robots.txt fornece instruções para rastreadores web, um arquivo llm.txt proposto forneceria um resumo direto, estruturado e em linguagem natural de um site ou domínio para um LLM visitante [00:34:12]. É um manual de instruções para a IA.
Documentação Amigável para LLMs: A documentação precisa se afastar de capturas de tela e layouts centrados em humanos para Markdown limpo e simples que seja facilmente analisado e compreendido por um LLM [00:34:51].
Documentos Acionáveis: As instruções devem evoluir. Em vez de dizer a um humano para "clicar no botão 'Criar'", a documentação deve fornecer o comando curl ou a chamada de API que um agente pode executar diretamente para alcançar o mesmo resultado [00:35:59].

Também precisamos de novas ferramentas projetadas para esta era, como a ferramenta get.ingest que ele menciona, que pode achatar um repositório complexo do GitHub em um único arquivo de texto limpo que um LLM pode facilmente ingerir e analisar [00:36:33].

Conclusão: Abraçando a Mudança

A palestra de Andrej Karpathy oferece uma visão clara, estruturada e inspiradora do presente e futuro do software. Estamos em um momento crucial, um "tempo único" [00:38:16] onde a própria natureza do software está sendo redefinida. A transição para o Software 3.0 não é apenas uma mudança tecnológica; é uma mudança de paradigma que capacitará uma nova geração de criadores e mudará fundamentalmente como interagimos com o mundo digital. A jornada à frente exigirá que sejamos fluentes em todos os paradigmas, que abracemos o modelo de colaboração humano-IA do "traje do Homem de Ferro" e que comecemos a construir a infraestrutura que permitirá os agentes de IA do amanhã.

Este é um momento único, emocionante e desafiador para ser um construtor. A própria definição de software está se expandindo, e com ela, a definição de quem pode ser um programador. A mudança está aqui e está acontecendo agora.

💡

button