Ein kurzer Blick auf ChatGPT Codex, einen KI-Coding-Agenten

Der unaufhaltsame Vormarsch der künstlichen Intelligenz gestaltet Industrien neu, und die Softwareentwicklung steht an vorderster Front dieser Transformation. KI-gestützte Werkzeuge sind keine futuristischen Konzepte mehr, sondern praktische Assistenten, die die Fähigkeiten von Entwicklern erweitern und komplexe Arbeitsabläufe rationalisieren. OpenAI, ein prominenter Name in der KI-Forschung, hat kürzlich seinen neuesten Beitrag zu dieser sich entwickelnden Landschaft vorgestellt: ChatGPT Codex, ein cloudbasierter Software-Engineering-Agent, der eine Vielzahl von Codierungsaufgaben parallel bewältigen soll. Dieses neue Angebot, das zunächst für ChatGPT Pro-, Team- und Enterprise-Benutzer verfügbar ist, mit Plus- und Edu-Versionen am Horizont, verspricht, die Art und Weise, wie Entwickler mit ihren Codebasen interagieren und Software erstellen, neu zu definieren.

💡

Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!

button

Der Beginn des KI-gestützten Software-Engineerings: Einführung von Codex

Stellen Sie sich ein Dashboard vor, das fragt: "Was sollen wir als Nächstes codieren?" komplett mit einem Eingabefeld, Repository- und Branch-Selektoren und einer Aufgabenliste, alles vor einem pastellfarbenen, code-themenbezogenen Hintergrund. Dies ist das Tor zu Codex, einem Agenten, der dazu bestimmt ist, ein unverzichtbarer Bestandteil des Werkzeugkastens eines Entwicklers zu werden. Codex wurde entwickelt, um eine Vielzahl von Aufgaben zu bewältigen – vom Schreiben neuer Funktionen und Beantworten komplizierter Fragen zu einer Codebasis bis hin zum Beheben von Fehlern und Vorschlagen von Pull Requests zur Überprüfung. Jede Aufgabe wird akribisch in ihrer eigenen Cloud-Sandbox-Umgebung verarbeitet, die mit dem spezifischen Repository vorinstalliert ist, um Isolation und Fokus zu gewährleisten.

Im Kern wird Codex von codex-1 angetrieben, einer spezialisierten Version des o3-Modells von OpenAI, die auf die Nuancen des Software-Engineerings abgestimmt ist. Die Leistungsfähigkeit dieses Modells beruht auf rigorosem Verstärkungslernen, bei dem es an realen Codierungsaufgaben in verschiedenen Umgebungen trainiert wurde. Das Ziel war klar: Code generieren, der nicht nur fehlerfrei funktioniert, sondern auch menschliche stilistische Präferenzen widerspiegelt, sich präzise an Anweisungen hält und Tests iterativ ausführen kann, bis ein positives Ergebnis erzielt wird. Die Einführung von Codex ist ein wichtiger Schritt in Richtung intelligenterer und autonomer Codierungsunterstützung.

Unter der Haube: Wie Codex arbeitet

Der Zugriff auf Codex ist für berechtigte ChatGPT-Benutzer unkompliziert, mit einem dedizierten Abschnitt in der Seitenleiste. Entwickler können neue Codierungsaufgaben zuweisen, indem sie eine Eingabeaufforderung eingeben und den Befehl "Code" auslösen, oder Fragen zu ihrer Codebasis mithilfe der Funktion "Fragen" stellen.

Die wahre Stärke von Codex liegt in seinen Parallelverarbeitungsfähigkeiten. Jede Aufgabe wird unabhängig in einer separaten, isolierten Cloud-Sandbox behandelt. Diese Umgebung ist mit der relevanten Codebasis vorinstalliert, sodass Codex Dateien lesen und bearbeiten, Befehle ausführen (einschließlich Testharnesse, Linter und Typenprüfer) und ohne Störung durch andere laufende Aufgaben arbeiten kann. Die Aufgabenbearbeitungszeiten variieren, in der Regel zwischen einer und dreißig Minuten, je nach Komplexität, und Benutzer können den Fortschritt in Echtzeit überwachen.

Ein entscheidender Aspekt von Codex ist sein Engagement für überprüfbare Arbeit. Sobald eine Aufgabe abgeschlossen ist, führt Codex seine Änderungen innerhalb seiner Umgebung durch. Es präsentiert nicht nur den endgültigen Code, sondern liefert auch überprüfbare Beweise für seine Aktionen durch Zitate von Terminalprotokollen und Testergebnissen. Diese Transparenz ermöglicht es Entwicklern, jeden Schritt, der während der Aufgabenbearbeitung unternommen wurde, nachzuvollziehen, Vertrauen zu fördern und eine gründliche Überprüfung zu ermöglichen. Benutzer können dann entscheiden, weitere Überarbeitungen anzufordern, einen GitHub-Pull-Request zu öffnen oder die Änderungen direkt in ihre lokale Entwicklungsumgebung zu integrieren. Darüber hinaus kann die Codex-Umgebung so konfiguriert werden, dass sie die tatsächliche Entwicklungsumgebung des Benutzers genau widerspiegelt, um Kompatibilität und Relevanz zu gewährleisten.

Den Agenten leiten: Die Rolle von AGENTS.md und Systemdirektiven

Um seine Effektivität weiter zu steigern und sein Verhalten an spezifische Projektanforderungen anzupassen, kann Codex durch AGENTS.md-Dateien geleitet werden, die in einem Repository platziert werden. Diese Textdateien dienen, ähnlich wie die vertraute README.md, als Kommunikationskanal zwischen menschlichen Entwicklern und dem KI-Agenten. Über AGENTS.md können Entwickler Codex darüber informieren, wie er durch die Codebasis navigiert, welche Befehle zum Testen ausgeführt werden sollen und wie er sich am besten an die etablierten Codierungsstandards und -praktiken des Projekts hält. Wie bei menschlichen Entwicklern arbeiten Codex-Agenten optimal, wenn sie mit gut konfigurierten Entwicklungsumgebungen, zuverlässigen Test-Setups und klarer Dokumentation ausgestattet sind.

Die zugrunde liegende Systemnachricht für codex-1 zeigt auch eine explizite Reihe von Anweisungen, die sein Verhalten regeln. Wenn beispielsweise Dateien geändert werden, wird Codex angewiesen, keine neuen Branches zu erstellen, git zum Commit von Änderungen zu verwenden (und bei Fehlern vor dem Commit zu wiederholen) und sicherzustellen, dass die Arbeitsbaumstruktur in einem sauberen Zustand verbleibt. Es wird betont, dass nur committeter Code ausgewertet wird und dass vorhandene Commits nicht geändert werden sollten.

Die AGENTS.md-Spezifikation ist recht detailliert. Ihr Geltungsbereich ist die gesamte Verzeichnisstruktur, die an ihrem Standort verwurzelt ist, und ihre Anweisungen haben Vorrang basierend auf der Verschachtelungstiefe, obwohl direkte Benutzereingabeaufforderungen diese außer Kraft setzen können. Eine Schlüsselrichtlinie besagt, dass Codex, wenn AGENTS.md programmgesteuerte Prüfungen enthält, alle von ihnen ausführen und danach streben muss, ihren Erfolg nach allen Codeänderungen zu validieren, selbst bei scheinbar einfachen Änderungen wie Dokumentationsaktualisierungen. Zitationsanweisungen sind ebenfalls streng und fordern eine präzise Referenzierung von Dateipfaden und Terminalausgaben für alle durchsuchten Dateien oder ausgeführten Befehle, um eine klare Audit-Trail zu gewährleisten.

Codex auf die Probe stellen: Leistung und Benchmarks

OpenAI berichtet, dass codex-1 eine starke Leistung bei Codierungsbewertungen und internen Benchmarks zeigt, selbst ohne umfangreiche Anpassungen durch AGENTS.md-Dateien oder spezifische Gerüste. Auf dem SWE-Bench Verified-Benchmark zeigte codex-1 einen pass@k-Genauigkeitsfortschritt von 67 % bei k=1 auf 75 % bei k=8 und übertraf damit o3-high (das 70 % bei k=8 in einer etwas anderen Teilmenge erzielte). Bei den internen Software Engineering (SWE)-Aufgaben von OpenAI, einer kuratierten Reihe von realen internen Herausforderungen, erreichte codex-1 eine Genauigkeit von 70 %, deutlich höher als o1-high (25 %), o4-mini-high (40 %) und o3-high (61 %). Diese Tests wurden mit codex-1 bei einer maximalen Kontextlänge von 192.000 Token und einem mittleren "Reasoning Effort" durchgeführt, was die im Produkt verfügbaren Einstellungen widerspiegelt.

Mit Zuversicht bauen: Sicherheit, Vertrauen und ethische Überlegungen

Codex wird als Forschungs-Vorschau veröffentlicht, was mit der Strategie von OpenAI zur iterativen Bereitstellung übereinstimmt. Dieser Ansatz ermöglicht das Lernen und die Verfeinerung basierend auf der realen Nutzung. Sicherheit und Transparenz waren bei der Entwicklung von Codex von größter Bedeutung. Die Fähigkeit der Benutzer, Ausgaben durch Zitate, Terminalprotokolle und Testergebnisse zu überprüfen, ist ein Eckpfeiler dieser Philosophie – ein Schutz, der immer wichtiger wird, da KI-Modelle komplexere Codierungsaufgaben unabhängig bewältigen.

Bei Unsicherheiten oder Testfehlern ist der Codex-Agent so konzipiert, dass er diese Probleme explizit kommuniziert, sodass Benutzer fundierte Entscheidungen treffen können. OpenAI unterstreicht jedoch, dass es für Benutzer unerlässlich bleibt, den vom Agenten generierten Code vor der Integration und Ausführung manuell zu überprüfen und zu validieren.

Die Auseinandersetzung mit dem Potenzial für Missbrauch, insbesondere in Bereichen wie der Malware-Entwicklung, ist ein wichtiges Anliegen. Codex wurde trainiert, um Anfragen, die auf die Erstellung bösartiger Software abzielen, präzise zu identifizieren und abzulehnen, während er gleichzeitig legitime, erweiterte Aufgaben unterscheidet und unterstützt, die ähnliche Techniken beinhalten könnten (z. B. Kernel-Engineering auf niedriger Ebene). Erweiterte Richtlinienrahmen und strenge Sicherheitsbewertungen, die in einem Anhang zur o3-Systemkarte detailliert beschrieben werden, verstärken diese Grenzen.

Der Agent arbeitet vollständig innerhalb eines sicheren, isolierten Containers in der Cloud. Während der Aufgabenausführung ist der Internetzugang deaktiviert, wodurch die Interaktionen ausschließlich auf den Code beschränkt werden, der explizit über GitHub-Repositories und vom Benutzer konfigurierte, vorinstallierte Abhängigkeiten bereitgestellt wird. Dies bedeutet, dass der Agent nicht auf externe Websites, APIs oder andere Dienste zugreifen kann, wodurch Sicherheitsrisiken erheblich gemindert werden.

Ein menschlicher Touch: Ausrichtung auf Entwicklerpräferenzen und -workflows

Ein Hauptziel während des Trainings von codex-1 war es, seine Ausgaben eng an menschlichen Codierungspräferenzen und -standards auszurichten. Im Vergleich zum Allzweck-OpenAI o3 produziert codex-1 durchweg sauberere Patches, die von Menschen leichter überprüft und einfacher in Standard-Workflows integriert werden können. Dies wird anhand mehrerer Beispiele für Korrekturen veranschaulicht, die auf beliebte Open-Source-Projekte angewendet wurden:

Projekt: Astropy (Python Astronomy Library)

Der Fehler: Die Funktion separability_matrix berechnete die Trennbarkeit für verschachtelte CompoundModel-Instanzen falsch. Wenn beispielsweise ein zusammengesetztes Modell wie m.Linear1D(10) & m.Linear1D(5) in ein anderes verschachtelt war, deutete die resultierende Matrix fälschlicherweise auf Abhängigkeiten hin, wo keine existierten.
Codex' Lösung:
Eine gezielte Änderung wurde an der Funktion _cstack in astropy/modeling/separable.py vorgenommen.
Diese Änderung verarbeitete die Dimensionen und Werte der rechten Matrix korrekt, wenn sie ein vorab berechnetes Array darstellte (d. h. ein verschachteltes Modell).
Testen: Ein präziser Regressionstest wurde zu test_separable.py hinzugefügt, um die Korrektur zu bestätigen und sicherzustellen, dass die Ausgabe die erwartete Blockdiagonal-Trennbarkeitsmatrix für verschachtelte Modelle war.
Vergleich: Diese Korrektur wurde als direkter und weniger ausführlich als eine potenzielle Alternative von o3 vermerkt, die umfangreiche erläuternde Kommentare enthielt.

Projekt: Matplotlib (Python Plotting Library)

Der Fehler: Ein Problem in mlab._spectral_helper verursachte aufgrund eines unnötigen np.abs()-Aufrufs eine falsche Fensterkorrektur. Dies führte zu ungenauen Ergebnissen für Fenster mit negativen Werten (z. B. das flattop-Fenster).
Codex' Lösung:
Die np.abs()-Aufrufe wurden aus (np.abs(window)**2).sum() und np.abs(window).sum()**2 entfernt.
Diese wurden in (window.conjugate() * window).sum() bzw. window.sum()**2 geändert.
Diese Änderung stellt sicher, dass die Skalierung die tatsächlichen Werte des Fensters verwendet und die Leistung genau beibehält.
Testen: Ein neuer Test, test_psd_windowarray_negative, wurde zu lib/matplotlib/tests/test_mlab.py hinzugefügt, um diese Korrektur speziell mithilfe eines Fensters mit negativen Werten zu überprüfen.

Projekt: Django (Python Web Framework)

Der Fehler: Nur-Dauer-Ausdrücke (z. B. F('estimated_time') + datetime.timedelta(1)) schlugen unter SQLite und MySQL fehl und lösten einen decimal.InvalidOperation-Fehler aus. Dies lag an Problemen bei der Konvertierung von Dauerwerten.
Codex' Lösung:
Die Methode convert_durationfield_value in django/db/backends/base/operations.py wurde verfeinert, um verschiedene Eingabetypen für die Dauer (z. B. None, timedelta, string und int) robust zu verarbeiten.
Die Kompilierung von Seiten für DurationExpression in django/db/models/expressions.py wurde angepasst, um sicherzustellen, dass format_for_duration_arithmetic selektiver angewendet wird, hauptsächlich in Kombination mit Datums-/Uhrzeittypen.
Testen: Ein neuer Test, test_durationfield_only_expression, wurde in tests/expressions/tests.py hinzugefügt, um diese Korrektur zu validieren.
Vergleich: Die o3-Lösung für dieses Django-Problem wurde als umfangreicher in ihrer Typenprüfung und Parsing-Logik innerhalb von convert_durationfield_value beschrieben und bot einen sehr detaillierten Ansatz zur Handhabung verschiedener Zeichenketten- und numerischer Darstellungen von Dauern.

Projekt: Expensify (ReportUtils.ts - TypeScript)

Das Problem: Die Raumnamen der Mitglieder wurden im Left Hand Navigator (LHN) nach dem Löschen des Caches nicht aktualisiert.
Codex' vorgeschlagene Lösung (basierend auf bereitgestellten Diffs in Bezug auf die Berichtsnamencache):
Der "Codex"-Diff änderte die Funktion getCacheKey, um policyName einzubeziehen. Diese Änderung könnte Cache-Schlüssel spezifischer machen und möglicherweise verhindern, dass die Daten veralten, wenn Richtliniennamen Raumtitel beeinflussen.
Alternative OpenAI o3-Vorschlag:
Der "OpenAI o3"-Diff schlug eine stärker strukturelle Lösung zur Cache-Ungültigkeit vor: Sicherstellen, dass der reportNameCache gelöscht wird, wenn ONYXKEYS.COLLECTION.POLICY aktualisiert wird. Dies behebt veraltete Daten direkt, indem der Cache proaktiv aktualisiert wird, wenn sich zugrunde liegende Richtlinieninformationen (die sich auf Raumnamen auswirken können) ändern.
Einblick: Dieses Beispiel zeigt, wie KI verschiedene Strategien vorschlagen kann – von der Verfeinerung von Cache-Schlüsseln bis zur Implementierung umfassenderer Ungültigkeitsmechanismen –, um solche Probleme anzugehen.

Diese Beispiele veranschaulichen zusammenfassend die Fähigkeit von Codex, komplexe Probleme zu verstehen und gezielte, effektive Lösungen zu implementieren, häufig einschließlich der erforderlichen Testfälle, um die Richtigkeit sicherzustellen.

Reichweite erweitern: Aktualisierungen der Codex-CLI

Ergänzend zum cloudbasierten Agenten hat OpenAI auch die Codex CLI aktualisiert, einen leichten, Open-Source-Codierungsagenten, der direkt im Terminal ausgeführt wird. Eine neue, kleinere Version von codex-1, namens codex-mini-latest (eine spezialisierte Version von o4-mini), ist jetzt das Standardmodell in Codex CLI. Es ist für Code-Q&A und -Bearbeitung mit geringer Latenz optimiert und behält gleichzeitig starke Anweisungsbefolgung und Stilfähigkeiten bei.

Das Verbinden eines Entwicklerkontos mit Codex CLI wurde ebenfalls vereinfacht. Anstelle der manuellen API-Token-Generierung können sich Benutzer jetzt mit ihrem ChatGPT-Konto anmelden und ihre API-Organisation auswählen, wobei die CLI die automatische API-Schlüsselkonfiguration übernimmt. Plus- und Pro-Benutzer, die sich auf diese Weise anmelden, können auch kostenlose API-Gutschriften einlösen.

Zugang, Erschwinglichkeit und Bestrebungen: Verfügbarkeit, Preise und Einschränkungen

Codex wird derzeit weltweit für ChatGPT Pro-, Enterprise- und Team-Benutzer eingeführt, wobei Plus- und Edu-Unterstützung in Kürze erwartet wird. Der anfängliche Zugriff ist großzügig und für mehrere Wochen kostenlos, sodass Benutzer seine Fähigkeiten erkunden können. Anschließend wird OpenAI einen eingeschränkten Zugriff und flexible Preisoptionen für die On-Demand-Nutzung einführen. Für Entwickler, die codex-mini-latest über die API verwenden, kostet es 1,50 $ pro 1 Mio. Eingabe-Token und 6 $ pro 1 Mio. Ausgabe-Token, mit einem Rabatt von 75 % auf die Eingabeaufforderung.

Als Forschungs-Vorschau hat Codex Einschränkungen. Derzeit fehlen Funktionen wie Bildeingaben für die Frontend-Entwicklung und die Fähigkeit, den Agenten während der Aufgabe zu korrigieren. Das Delegieren von Aufgaben an einen Remote-Agenten führt auch zu einer Latenz im Vergleich zur interaktiven Bearbeitung, was möglicherweise eine Anpassung des Workflows erfordert. OpenAI geht davon aus, dass die Interaktion mit Codex-Agenten zunehmend der asynchronen Zusammenarbeit mit menschlichen Kollegen ähneln wird.

Der Weg nach vorn: Die Zukunft der KI im Software-Engineering mit Codex

OpenAI stellt sich eine Zukunft vor, in der Entwickler die Arbeit vorantreiben, die sie besitzen möchten, und den Rest an hochfähige KI-Agenten delegieren, was zu mehr Geschwindigkeit und Produktivität führt. Um dies zu realisieren, entwickeln sie eine Reihe von Codex-Tools, die sowohl die Echtzeit-Zusammenarbeit als auch die asynchrone Delegation unterstützen. Während KI-Pairing-Tools wie Codex CLI zu Branchennormen werden, wird der asynchrone Multi-Agenten-Workflow, der von Codex in ChatGPT eingeführt wurde, als der zukünftige De-facto-Standard für die Erstellung von qualitativ hochwertigem Code angesehen.

Letztendlich wird erwartet, dass diese beiden Interaktionsmodi – Echtzeit-Pairing und Aufgaben-Delegation – zusammenlaufen. Entwickler werden mit KI-Agenten über ihre IDEs und alltäglichen Tools für Q&A, Vorschläge und das Auslagern längerer Aufgaben in einem einheitlichen Workflow zusammenarbeiten. Zukünftige Pläne umfassen interaktivere und flexiblere Agenten-Workflows, die es Entwicklern ermöglichen, während der Aufgabe Anleitung zu geben, bei Implementierungsstrategien zusammenzuarbeiten und proaktive Fortschrittsaktualisierungen zu erhalten. Tiefere Integrationen sind auch über Tools wie GitHub, Codex CLI, ChatGPT Desktop, Problemverfolgungs- und CI-Systeme geplant.

Software-Engineering ist eine der ersten Branchen, die erhebliche KI-gestützte Produktivitätssteigerungen erlebt, die neue Möglichkeiten für Einzelpersonen und kleine Teams eröffnen. OpenAI ist zwar optimistisch in Bezug auf diese Fortschritte, arbeitet aber auch mit Partnern zusammen, um die umfassenderen Auswirkungen der weit verbreiteten Agenten-Akzeptanz auf Entwickler-Workflows und die Kompetenzentwicklung in verschiedenen Bevölkerungsgruppen zu verstehen.

Der Start von ChatGPT Codex ist mehr als nur ein neues Tool; es ist ein Blick in eine Zukunft, in der menschlicher Einfallsreichtum und künstliche Intelligenz nahtloser als je zuvor zusammenarbeiten, um die nächste Generation von Software zu erstellen. Dies ist erst der Anfang, und das Potenzial für das, was Entwickler mit Codex erstellen können, ist riesig und aufregend.