ChatGPT Codex：AIコーディングエージェントの概要

人工知能の絶え間ない進歩は産業を再形成しており、ソフトウェアエンジニアリングはこの変革の最前線に立っています。AIを活用したツールはもはや未来の概念ではなく、開発者の能力を増強し、複雑なワークフローを効率化する実用的なアシスタントです。AI研究の著名な名であるOpenAIは、この進化する状況への最新の貢献として、ChatGPT Codexを発表しました。これは、多数のコーディングタスクを並行して処理するように設計されたクラウドベースのソフトウェアエンジニアリングエージェントです。この新しいサービスは、当初はChatGPT Pro、Team、Enterpriseユーザー向けに提供され、PlusおよびEduバージョンも将来的に提供される予定であり、開発者がコードベースとどのようにやり取りし、ソフトウェアを構築するかを再定義することを約束します。

💡

素晴らしいAPIテストツールをお探しですか？美しいAPIドキュメントを生成します。

開発チームが最大の生産性で共同作業するための、統合されたオールインワンプラットフォームをお探しですか？

Apidogはあなたのすべての要求を満たし、Postmanをはるかに手頃な価格で置き換えます！

button

AIを活用したソフトウェアエンジニアリングの夜明け：Codexの紹介

ChatGPT Codex UI showing a prompt box, repository and branch selectors, and a task list.

「次に何をコーディングすべきか？」と促すダッシュボードを想像してみてください。プロンプトボックス、リポジトリとブランチのセレクター、タスクリストがすべて、パステル調のコードをテーマにした背景に配置されています。これがCodexへの入り口であり、開発者のツールキットに不可欠な一部となる準備ができています。Codexは、新しい機能の作成、コードベースに関する複雑な質問への回答、バグの修正、レビューのためのプルリクエストの提案など、多様なタスクを処理するように設計されています。各タスクは、特定のレポジトリが事前にロードされた独自のクラウドサンドボックス環境で綿密に処理され、分離と集中が保証されます。

その核となるCodexは、OpenAIのo3モデルの特殊なバージョンであるcodex-1によって駆動されており、ソフトウェアエンジニアリングのニュアンスに合わせてファインチューニングされています。このモデルの能力は、様々な環境での実際のコーディングタスクで訓練された厳格な強化学習に由来しています。目標は明確でした。完璧に機能するだけでなく、人間のスタイルの好みを反映し、指示に正確に従い、合格する結果が得られるまでテストを繰り返し実行できるコードを生成することです。Codexの展開は、よりインテリジェントで自律的なコーディング支援に向けた大きな一歩を示しています。

内部の仕組み：Codexの動作

Codexへのアクセスは、対象となるChatGPTユーザーにとって簡単で、サイドバーに専用セクションがあります。開発者は、プロンプトを入力して「Code」コマンドを開始するか、「Ask」機能を使用してコードベースに関する質問をすることで、新しいコーディングタスクを割り当てることができます。

Codexの真の力は、その並列処理能力にあります。各タスクは、分離された独立したクラウドサンドボックス内で個別に処理されます。この環境には関連するコードベースが事前にロードされており、Codexはファイルを読み書きし、コマンド（テストハーネス、リンター、タイプチェッカーを含む）を実行し、他の進行中のタスクからの干渉なしに動作できます。タスクの完了時間は、複雑さによって通常1分から30分まで異なります。ユーザーはリアルタイムで進捗状況を監視できます。

Codexの重要な側面は、検証可能な作業へのコミットメントです。タスクが完了すると、Codexはその環境内で変更をコミットします。最終的なコードを提示するだけでなく、ターミナルログやテスト出力の引用を通じて、そのアクションの検証可能な証拠を提供します。この透明性により、開発者はタスク完了中に実行された各ステップを追跡でき、信頼を育み、徹底的なレビューを可能にします。その後、ユーザーはさらなる修正を要求したり、GitHubプルリクエストを開いたり、変更をローカル開発環境に直接統合したりできます。さらに、Codex環境はユーザーの実際の開発設定を密接に反映するように構成でき、互換性と関連性を確保します。

エージェントのガイド：AGENTS.mdとシステムディレクティブの役割

効果をさらに高め、特定のプロジェクトニーズに合わせて動作を調整するために、Codexはリポジトリ内に配置されたAGENTS.mdファイルによってガイドできます。これらのテキストファイルは、おなじみのREADME.mdと同様に、人間の開発者とAIエージェント間のコミュニケーションチャネルとして機能します。AGENTS.mdを通じて、開発者はコードベースのナビゲート方法、テストのために実行するコマンド、プロジェクトの確立されたコーディング標準とプラクティスに最善に従う方法をCodexに伝えることができます。人間の開発者と同様に、Codexエージェントは、適切に構成された開発環境、信頼性の高いテスト設定、および明確なドキュメントが提供された場合に最適に機能します。

codex-1の基盤となるシステムメッセージは、その動作を規定する明示的な一連の指示も明らかにしています。たとえば、ファイルを変更する際、Codexは新しいブランチを作成しないこと、変更をコミットするためにgitを使用すること（プリコミットの失敗時には再試行すること）、および作業ツリーをクリーンな状態に保つことを指示されています。コミットされたコードのみが評価され、既存のコミットは修正されないことを強調しています。

AGENTS.mdの仕様は非常に詳細です。そのスコープは、その場所をルートとするディレクトリツリー全体であり、その指示はネストの深さに基づいて優先されますが、直接のユーザープロンプトはそれらをオーバーライドできます。重要な指示は、AGENTS.mdにプログラムによるチェックが含まれている場合、Codexはすべてのコード変更後、たとえドキュメントの更新のような単純な修正であっても、それらすべてを実行し、その成功を検証するように努めなければならないということです。引用の指示も厳格であり、閲覧したファイルや実行されたコマンドについて、ファイルパスとターミナル出力の正確な参照を要求し、明確な監査証跡を確保します。

Screenshot of an AGENTS.md file showing instructions for the AI agent.

Codexのテスト：パフォーマンスとベンチマーク

OpenAIは、codex-1がAGENTS.mdファイルや特定の足場による広範なカスタマイズなしでも、コーディング評価および内部ベンチマークで強力なパフォーマンスを示すと報告しています。SWE-Bench Verifiedベンチマークでは、codex-1はk=1で67%、k=8で75%のpass@k精度を示し、o3-high（わずかに異なるサブセットでk=8で70%）を上回りました。OpenAIの内部ソフトウェアエンジニアリング（SWE）タスク（実際の内部課題の厳選されたセット）では、codex-1は70%の精度を達成し、o1-high（25%）、o4-mini-high（40%）、o3-high（61%）を大幅に上回りました。これらのテストは、codex-1を最大コンテキスト長192kトークン、中程度の「推論努力」で実施され、製品で利用可能な設定を反映しています。

信頼を持って構築：安全性、信頼、倫理的考慮事項

Graphic illustrating the isolated cloud sandbox environment for Codex tasks.

Graphic showing the Codex agent workflow with verification steps.

Codexは、OpenAIの反復的な展開戦略に沿って、研究プレビューとしてリリースされています。このアプローチにより、実際の使用に基づいて学習と改良が可能になります。セキュリティと透明性は、Codexの設計において最優先事項でした。ユーザーが引用、ターミナルログ、テスト結果を通じて出力を検証できる機能は、この哲学の基礎であり、AIモデルがより複雑なコーディングタスクを独立して処理するにつれて、ますます不可欠になる安全策です。

不確実性やテストの失敗に直面した場合、Codexエージェントはこれらの問題を明示的に伝えるように設計されており、ユーザーが情報に基づいた決定を下せるようにします。ただし、OpenAIは、統合と実行の前に、エージェントによって生成されたすべてのコードを手動でレビューおよび検証することが引き続き不可欠であることを強調しています。

特にマルウェア開発などの分野での誤用の可能性への対処は、重要な懸念事項です。Codexは、悪意のあるソフトウェアの作成を目的とした要求を特定し、正確に拒否するように訓練されています。同時に、同様の技術を含む可能性のある正当で高度なタスク（例：低レベルのカーネルエンジニアリング）を区別し、サポートします。o3システムカードの補遺に詳述されている強化されたポリシーフレームワークと厳格な安全性評価が、これらの境界を強化しています。

エージェントは、クラウド内の安全で隔離されたコンテナ内で完全に動作します。タスク実行中、インターネットアクセスは無効になり、GitHubリポジトリを介して明示的に提供されたコードとユーザーが構成した事前インストールされた依存関係のみに相互作用が制限されます。これは、エージェントが外部ウェブサイト、API、またはその他のサービスにアクセスできないことを意味し、セキュリティリスクを大幅に軽減します。

人間のタッチ：開発者の好みとワークフローとの連携

codex-1のトレーニングにおける主要な目標は、その出力を人間のコーディングの好みと標準に密接に合わせることでした。汎用OpenAI o3と比較して、codex-1は人間がレビューしやすく、標準的なワークフローに統合しやすい、よりクリーンなパッチを一貫して生成します。これは、一般的なオープンソースプロジェクトに適用された修正のいくつかの例によって示されています。

プロジェクト：Astropy（Python天文学ライブラリ）

バグ：separability_matrix関数が、ネストされたCompoundModelインスタンスの分離性を誤って計算していました。たとえば、m.Linear1D(10) & m.Linear1D(5)のような複合モデルが別のモデル内にネストされている場合、結果の行列は、存在しない依存関係を誤って示していました。
Codexの解決策：
astropy/modeling/separable.pyの_cstack関数に的を絞った修正が加えられました。
この変更により、右辺行列が事前に計算された配列（つまり、ネストされたモデル）を表す場合に、その次元と値が正しく処理されるようになりました。
テスト：修正を確認するために、test_separable.pyに正確な回帰テストが追加され、出力がネストされたモデルに対して期待されるブロック対角分離行列であることを保証しました。
比較：この修正は、広範な説明コメントを含んでいたo3からの潜在的な代替案よりも、より直接的で冗長性が少ないと指摘されました。

プロジェクト：Matplotlib（Pythonプロットライブラリ）

バグ：mlab._spectral_helperの問題により、不要なnp.abs()呼び出しのためにウィンドウ補正が誤っていました。これにより、負の値を持つウィンドウ（例：flattopウィンドウ）に対して不正確な結果が生じました。
Codexの解決策：
(np.abs(window)**2).sum()およびnp.abs(window).sum()**2からのnp.abs()呼び出しが削除されました。
これらはそれぞれ(window.conjugate() * window).sum()およびwindow.sum()**2に変更されました。
この修正により、スケーリングがウィンドウの実際の値を使用し、パワーを正確に保持することが保証されます。
テスト：負の値を含むウィンドウを使用してこの修正を具体的に検証するために、lib/matplotlib/tests/test_mlab.pyに新しいテストtest_psd_windowarray_negativeが追加されました。

プロジェクト：Django（Pythonウェブフレームワーク）

バグ：期間のみの式（例：F('estimated_time') + datetime.timedelta(1)）がSQLiteおよびMySQLで失敗し、decimal.InvalidOperationエラーが発生していました。これは、期間値の変換方法の問題によるものでした。
Codexの解決策：
django/db/backends/base/operations.pyのconvert_durationfield_valueメソッドが改良され、期間の様々な入力タイプ（None、timedelta、string、intなど）を堅牢に処理できるようになりました。
django/db/models/expressions.pyのDurationExpressionの辺のコンパイルが調整され、format_for_duration_arithmeticがより選択的に、主に日付/時刻タイプと組み合わされた場合に適用されるようにしました。
テスト：この修正を検証するために、tests/expressions/tests.pyに新しいテストtest_durationfield_only_expressionが追加されました。
比較：このDjangoの問題に対するo3の解決策は、convert_durationfield_value内の型チェックと解析ロジックがより広範であり、期間の異なる文字列および数値表現を処理するための非常に詳細なアプローチを提供すると説明されました。

プロジェクト：Expensify（ReportUtils.ts - TypeScript）

問題：キャッシュをクリアした後、メンバーのルーム名がLeft Hand Navigator（LHN）で更新されませんでした。
Codexの提案された解決策（レポート名キャッシュに関連する提供された差分に基づく）：
「Codex」の差分は、getCacheKey関数をpolicyNameを含めるように変更しました。この変更により、キャッシュキーがより具体的になり、ポリシー名がルームタイトルに影響する場合に陳腐化を防ぐ可能性があります。
代替のOpenAI o3提案：
「OpenAI o3」の差分は、キャッシュ無効化のより構造的な解決策を提案しました。ONYXKEYS.COLLECTION.POLICYが更新されるたびにreportNameCacheがクリアされるようにすることです。これは、基になるポリシー情報（ルーム名に影響する可能性がある）が変更されたときにキャッシュを積極的に更新することで、古いデータに直接対処します。
洞察：この例は、AIがキャッシュキーの改良からより広範な無効化メカニズムの実装まで、このような問題に対処するために異なる戦略を提案できることを示しています。

これらの例はまとめて、Codexが複雑な問題を理解し、的を絞った効果的な解決策を実装する能力を示しており、多くの場合、正確性を保証するために必要なテストケースを含んでいます。

リーチの拡大：Codex CLIの更新

クラウドベースのエージェントを補完するために、OpenAIは、ターミナルで直接実行される軽量のオープンソースコーディングエージェントであるCodex CLIも更新しました。codex-1の新しい、より小型のバージョンであるcodex-mini-latest（o4-miniの特殊なバージョン）が、現在Codex CLIのデフォルトモデルとなっています。これは、低遅延のコードQ&Aおよび編集に最適化されており、強力な指示追従能力とスタイル能力を維持しています。

開発者アカウントをCodex CLIに接続することも簡素化されました。手動でのAPIトークン生成の代わりに、ユーザーはChatGPTアカウントでサインインし、API組織を選択できるようになり、CLIがAPIキーの自動構成を処理します。このようにサインインするPlusおよびProユーザーは、無料のAPIクレジットも利用できます。

アクセス、手頃な価格、そして抱負：提供状況、価格、および制限

Codexは現在、ChatGPT Pro、Enterprise、およびTeamユーザー向けにグローバルに展開されており、PlusおよびEduのサポートも間もなく予定されています。最初のアクセスは、数週間にわたって寛大かつ追加費用なしで提供され、ユーザーはその機能を探索できます。その後、OpenAIはレート制限付きアクセスとオンデマンド使用のための柔軟な価格オプションを導入します。APIを介してcodex-mini-latestを使用する開発者向けには、入力トークン100万あたり1.50ドル、出力トークン100万あたり6ドルで価格設定されており、プロンプトキャッシュの75%割引があります。

研究プレビューとして、Codexには制限があります。現在、フロントエンド開発のための画像入力や、タスク途中でエージェントの方向を修正する機能がありません。リモートエージェントにタスクを委任すると、インタラクティブな編集と比較して遅延が発生し、ワークフローの調整が必要になる場合があります。OpenAIは、Codexエージェントとのインタラクションが、人間との非同期的な共同作業にますます似てくると想定しています。

今後の展望：CodexによるソフトウェアエンジニアリングにおけるAIの未来

OpenAIは、開発者が自分で所有したい作業を推進し、残りを高度な能力を持つAIエージェントに委任することで、速度と生産性が向上する未来を想像しています。これを実現するために、リアルタイムの共同作業と非同期的な委任の両方をサポートするCodexツールのスイートを構築しています。Codex CLIのようなAIペアリングツールが業界標準になりつつある一方で、ChatGPTで導入されたCodexによる非同期的なマルチエージェントワークフローは、高品質なコードを生成するための将来のデファクトスタンダードと見なされています。

最終的に、これら2つのインタラクションモード（リアルタイムペアリングとタスク委任）は収束すると予想されています。開発者は、Q&A、提案、およびより長いタスクのオフロードのために、IDEや日常のツール全体でAIエージェントと統合されたワークフローで共同作業するでしょう。将来の計画には、よりインタラクティブで柔軟なエージェントワークフローが含まれており、開発者がタスク途中でガイダンスを提供したり、実装戦略で共同作業したり、積極的な進捗状況の更新を受け取ったりできるようになります。GitHub、Codex CLI、ChatGPT Desktop、課題追跡システム、CIシステムなどのツール間でのより深い統合も計画されています。

ソフトウェアエンジニアリングは、AI主導の生産性向上を最初に目の当たりにしている産業の1つであり、個人や小規模チームに新しい可能性を開いています。これらの進歩に楽観的である一方で、OpenAIはパートナーと協力して、多様な人々の開発者ワークフローとスキル開発に対する広範なエージェント導入のより広い影響を理解しようとしています。

ChatGPT Codexのローンチは単なる新しいツールではありません。それは、人間の創意工夫と人工知能がこれまで以上にシームレスに連携して次世代のソフトウェアを構築する未来の片鱗です。これは始まりに過ぎず、開発者がCodexで構築できるものの可能性は広大でエキサイティングです。