Andrej Karpathy講演「ソフトウェアは再び変化している」に関するノート

人工知能の世界は目まぐるしい速さで動いています。毎週のように新しいモデル、新しい機能、あるいは人類の未来についての新しい議論が巻き起こっているかのようです。この喧騒の中から本質を見抜くためには、深い技術的理解と大局観の両方を持つ声が必要です。テスラとOpenAIの両方で形成期に経験を積んだ先駆的な人物であるアンドレイ・カルパシーは、そのような声の一人です。

Y Combinatorでの最近の講演で、「ソフトウェアは再び変化している」と題したカルパシー氏は、単なる最新情報ではなく、私たちが現在経験している地殻変動を理解するための完全なフレームワークを提供しています。彼は、私たちが単に新しいツールの誕生を目撃しているのではなく、新しいコンピューティングパラダイムの夜明けを迎えていると主張します。これがSoftware 3.0です。

この記事は、彼の講演からのメモと考察を深く掘り下げ、核となる概念を解き明かし、その深遠な意味合いを探求するものです。私たちは彼のソフトウェアの分類をたどり、彼がなぜ大規模言語モデル（LLM）を新しい種類のオペレーティングシステムと呼ぶのかを理解し、今日のAI製品構築における実用的な「アイアンマンスーツ」アプローチを探求し、AIエージェントのために構築される未来を見据えます。

💡

美しいAPIドキュメントを生成する優れたAPIテストツールをお探しですか？

開発チームが最大限の生産性で共同作業できる統合されたオールインワンプラットフォームをお探しですか？

Apidogはあなたのすべての要求に応え、Postmanをはるかに手頃な価格で置き換えます！

button

ソフトウェアの三つの時代：新しい分類法

どこへ向かっているのかを理解するためには、まずどこから来たのかを理解する必要があります。カルパシー氏は、ソフトウェアの歴史を三つの明確な時代にエレガントに分類し、現在の革命の性質を明確にする分類法を提示しています。

Software 1.0：ロジックの時代

これは私たち全員が知っているソフトウェアであり、デジタル世界の基盤です。Software 1.0は、人間のプログラマーによって決定論的な命令を実行するために明示的に書かれた従来のコードです。これは、ウェブブラウザから銀行の取引データベースまで、すべてを動かしているC++、Java、Pythonです。講演で、カルパシー氏はテスラのオートパイロットシステムの基礎となるC++コードを代表的な例として挙げています[00:04:49]。

このパラダイムは、その精度と制御によって定義されます。人間がロジックをステップバイステップで指示します。その強みは予測可能性です。しかし、その弱みは柔軟性のなさです。Software 1.0は曖昧さや非構造化データに対応するのが苦手です。写真の中の猫を確実に識別したり、文章の感情を捉えたりするためのif/else文を簡単に書くことはできません。そのためには、新しいアプローチが必要でした。

Software 2.0：学習の時代

Software 2.0は、深層学習とニューラルネットワークの台頭とともに現れました。ここでは、パラダイムはコードを**書く**ことからデータを**キュレーションする**ことへと劇的にシフトします。開発者は明示的な指示を提供する代わりに、膨大なデータセットを収集し、それを使ってニューラルネットワークを「訓練」します。このパラダイムにおける「コード」は、人間が読めるロジックではなく、オプティマイザーによって調整されたネットワーク内の数百万または数十億の重みとバイアスです。プログラマーは、モデルにデータを供給し、その学習プロセスを形作る教師や庭師のような役割になります。

このアプローチは、特にコンピュータビジョン[00:05:26]のような知覚を扱う多くの領域で、文字通りSoftware 1.0のスタックを「食い破りました」。手作業でコーディングするのが不可能だったタスクが達成可能になりました。これは、画像認識システム、音声認識システム、そして実際に機能する機械翻訳の時代でした。それは記念碑的な飛躍でしたが、次のステップはプログラミング自体の性質を変えることになります。

Software 3.0：対話の時代

これで今日に至ります。Software 3.0は、大規模言語モデルの世界です。GPT-4やGeminiのようなこれらのモデルは、インターネットの大部分で訓練された巨大なニューラルネットワークです。これらは通常、フリーズされた事前訓練済みアーティファクトです。革命的な部分は、私たちがそれらとどのように相互作用するかです。カルパシー氏が述べているように、私たちは新しいプログラミング言語、すなわち英語を持っています[00:04:09]。

Software 3.0でのプログラミングは、自然言語のプロンプトを通じて行われます。私たちは、単に話しかけるだけで、モデルの振る舞いを指示し、問い合わせ、操縦します。これは、コンピューティングの歴史において最も重要なアクセシビリティの飛躍です。思考を明確に表現できるすべての人を潜在的なプログラマーに変えます。この概念をカルパシー氏は後に「バイブコーディング」と名付けています。

新しいコンピューティングプラットフォームとしてのLLM

カルパシー氏は、LLMが単なる巧妙なプログラムではなく、独自の特性を持つ新しい種類のコンピューター、新しいプラットフォームであると説得力を持って主張しています[00:06:10]。彼は、この主張を裏付けるためにいくつかの強力な比喩を用いています。

まず、彼はLLMを**ユーティリティ**と**半導体ファブ**の両方の特性を持つと見ています。ユーティリティの比喩[00:06:35]は、OpenAIやGoogleのような研究所がこれらのモデルを訓練するために必要な莫大な設備投資（capex）と、従量制APIを通じてサービスを提供するための運用費用（opex）を指します。電力網のように、彼らは莫大な投資を必要とし、低遅延、高稼働率、一貫した品質で提供される必要があります[00:07:02]。ファブの比喩[00:08:04]は、これらの基盤モデルを構築するために行われる深く、集中的で、しばしば秘密裏に行われる研究開発を指摘しており、少数の主要プレイヤーによって支配される状況を生み出しています。

次に、そしておそらく最も重要なことですが、彼は**LLMを新しいオペレーティングシステム**として提示しています[00:09:07]。これは深遠な洞察です。LLMは、ユーザーのプロンプトで指定されたタスクを実行するために、その内部リソース（膨大な知識、推論能力、RAMとしてのコンテキストウィンドウ）を調整する、ある種の生物学的で異質なOSとして機能します[00:10:09]。これは、**1960年代のタイムシェアリング**を彷彿とさせる新しいコンピューティングモデルを生み出しました[00:11:02]。私たちのほとんどは、これらの巨大なモデルをローカルで実行しているわけではありません。私たちは、ネットワークを介してクラウドの強力な集中型「メインフレーム」に接続するクライアントです。

これはまた、技術普及のシナリオを逆転させました。歴史的に、強力な技術は政府や大企業から消費者へと徐々に浸透していきました。LLMは、驚くべきことに、その逆を行い、直感的なチャットインターフェースを通じてほぼ一夜にして何十億もの消費者に到達し[00:12:42]、企業は追いつくために奔走せざるを得なくなりました。

「アイアンマンスーツ」：バズの時代における実用主義

LLMは超人的な能力を持っていますが、同時に深い欠陥も抱えています。カルパシー氏は彼らの「心理」について冷静に語り、「人々の確率的シミュレーション」[00:14:49]であり、その知性は「ギザギザしている」[00:16:20]と表現しています。

一方で、彼らは百科事典的な知識とほぼ完璧な記憶力を持っています[00:15:30]。他方で、自信満々のハルシネーションを起こしやすく、真の自己知識モデルを欠き[00:16:07]、「前向性健忘」（相互作用からネイティブに学習しない）に苦しみ[00:16:43]、プロンプトインジェクションのようなセキュリティリスクに対して危険なほど騙されやすい[00:17:38]という欠点があります。

したがって、核となるエンジニアリングの課題は、これらの欠点を回避しつつ、その強みを活用するシステムを設計することです[00:18:03]。これが、おそらく講演の中で最も実用的で価値のある洞察、すなわち「アイアンマンスーツ」の比喩[00:28:22]につながります。

監督なしで動作する完全に自律的な「アイアンマンロボット」を目指すのではなく（これはまだ遠く、リスクを伴う目標です）、私たちは「アイアンマンスーツ」の構築に焦点を当てるべきです。これらは、人間がしっかりと関与する形で人間の能力を拡張するアプリケーションです。理想的なワークフローは、密接で高速な**生成・検証サイクル**[00:22:13]です。AIがコード、メール、デザインなどの初稿を生成し、人間が優れた判断力とコンテキストで迅速に検証、編集、承認します。このループが速ければ速いほど、拡張はより強力になります[00:22:19]。

今日の成功しているLLMアプリ、例えばコーディング用のCursorや検索用のPerplexityは、その優れた例です。これらは、洗練されたコンテキスト管理[00:19:24]、複数のLLM呼び出しのスマートなオーケストレーション[00:19:32]、そして何よりも重要なことに、容易な監査のために設計されたユーザーインターフェース[00:19:44]を備えています。多くの場合、「自律性スライダー」[00:20:21]を備えており、ユーザーはタスクの複雑さとシステムへの信頼に基づいて、AIの貢献度を増減させることができます。鍵は、AIを手綱で制御し、圧倒的な、管理不能な出力を生成させない[00:22:53]、あるいは「森の中で迷子になる」[00:24:41]のを防ぐことです。

誰もがプログラマー：「バイブコーディング」の台頭

Software 3.0の最も変革的な結果は、創造の根本的な民主化です。カルパシー氏は、自然言語を通じてプログラミングを行う行為を表す、楽しい造語**「バイブコーディング」**[00:31:07]を生み出しました。構築したいiOSアプリの「バイブ」を説明するのにSwiftを知っている必要はありません。それを説明するだけで、LLMが構文を処理します。

これにより、ドメインエキスパート（医師、弁護士、科学者、芸術家）が、従来のソフトウェアエンジニアリングのバックグラウンドなしに、自分たちが必要とするツールを構築できる世界への扉が開かれます。しかし、カルパシー氏は「ラストマイル」問題を鋭く指摘しています。コアロジックは「バイブコーディング」を通じて生成できますが、実際のアプリケーションを現実のものにするには、煩雑な「DevOps」タスクが必要です。認証の設定、決済統合、サーバーへのデプロイ、そして無数のウェブUIをクリックする作業です[00:32:30]。この手作業によるブラウザベースの作業が現在のボトルネックであり、次のフロンティア、すなわちエージェントを直接指しています。

エージェントのための道を整備する：LLMネイティブなウェブの構築

LLMが単なる役立つアシスタントから、これらの「ラストマイル」タスクを実行できる有能なエージェントへと進化するためには、私たちのデジタルインフラストラクチャを適応させる必要があります。私たちは新しい種類のユーザー、すなわちAIエージェントのために構築を開始しなければなりません[00:33:55]。これは、私たちのウェブサイトやサービスをより機械が読み取れるようにすることを意味します。

カルパシー氏は、いくつかの具体的で実行可能なアイデアを提案しています。

**llm.txt**：robots.txtがウェブクローラーに指示を与えるように、提案されているllm.txtファイルは、訪問するLLMのためにウェブサイトやドメインの直接的で構造化された自然言語の要約を提供します[00:34:12]。これはAIのための取扱説明書です。
**LLMフレンドリーなドキュメント**：ドキュメントは、スクリーンショットや人間中心のレイアウトから離れ、LLMが容易に解析し理解できるクリーンでシンプルなMarkdownへと移行する必要があります[00:34:51]。
**実行可能なドキュメント**：指示は進化すべきです。「『作成』ボタンをクリックしてください」と人間に伝える代わりに、ドキュメントはエージェントが同じ結果を達成するために直接実行できるcurlコマンドやAPI呼び出しを提供すべきです[00:35:59]。

また、この時代のために設計された新しいツールも必要です。彼が言及しているget.ingestツールのように、複雑なGitHubリポジトリを単一のクリーンなテキストファイルに平坦化し、LLMが容易に取り込んで分析できるようにするツールです[00:36:33]。

結論：変化を受け入れる

アンドレイ・カルパシー氏の講演は、ソフトウェアの現在と未来について、明確で構造化された、そして示唆に富むビジョンを提供しています。私たちは、ソフトウェアの性質そのものが再定義されている「ユニークな時」[00:38:16]という極めて重要な瞬間にいます。Software 3.0への移行は、単なる技術的シフトではなく、新しい世代のクリエイターを力づけ、デジタル世界との関わり方を根本的に変えるパラダイムシフトです。これからの旅は、すべてのパラダイムに精通し、人間とAIのコラボレーションの「アイアンマンスーツ」モデルを受け入れ、明日のAIエージェントを可能にするインフラストラクチャの構築を開始することを要求します。

これは、ビルダーにとってユニークでエキサイティングで挑戦的な時代です。ソフトウェアの定義そのものが拡大しており、それに伴い、プログラマーになれる人物の定義も拡大しています。変化はここにあり、今起こっています。

💡

button