ChatGPT Codex AI 코딩 에이전트 빠르게 살펴보기

인공지능의 끊임없는 발전은 산업을 재편하고 있으며, 소프트웨어 엔지니어링은 이러한 변화의 최전선에 있습니다. AI 기반 도구는 더 이상 미래의 개념이 아니라 개발자의 역량을 강화하고 복잡한 워크플로우를 간소화하는 실용적인 조력자입니다. AI 연구 분야의 저명한 이름인 OpenAI는 최근 이러한 발전하는 환경에 대한 최신 기여를 공개했습니다. 바로 병렬로 다양한 코딩 작업을 처리하도록 설계된 클라우드 기반 소프트웨어 엔지니어링 에이전트인 ChatGPT Codex입니다. 처음에 ChatGPT Pro, Team, Enterprise 사용자에게 제공되며 Plus 및 Edu 버전도 곧 출시될 이 새로운 서비스는 개발자가 코드베이스와 상호 작용하고 소프트웨어를 구축하는 방식을 재정의할 것을 약속합니다. 💡 💡아름다운 API 문서를 생성하는 훌륭한 API 테스팅 도구를 원하십니까?

최대 생산성으로 개발 팀이 함께 작업할 수 있는 통합 올인원 플랫폼을 원하십니까?

Apidog는 모든 요구 사항을 충족하며 훨씬 저렴한 가격으로 Postman을 대체합니다!

button

AI 기반 소프트웨어 엔지니어링의 시작: Codex 소개

"다음에는 무엇을 코딩해야 할까요?"라는 프롬프트와 함께 프롬프트 상자, 저장소 및 브랜치 선택기, 작업 목록이 모두 파스텔 톤의 코드 테마 배경에 표시되는 대시보드를 상상해 보세요. 이것이 바로 개발자 도구 키트의 필수적인 부분이 될 준비가 된 에이전트인 Codex의 게이트웨이입니다. Codex는 새로운 기능 작성, 코드베이스에 대한 복잡한 질문 답변, 버그 수정, 검토를 위한 풀 리퀘스트 제안 등 다양한 작업을 처리하도록 설계되었습니다. 각 작업은 특정 저장소가 미리 로드된 자체 클라우드 샌드박스 환경에서 세심하게 처리되어 격리 및 집중을 보장합니다.

핵심적으로 Codex는 OpenAI의 o3 모델의 특수 버전인 codex-1에 의해 구동되며, 소프트웨어 엔지니어링의 미묘한 차이에 맞게 미세 조정되었습니다. 이 모델의 능력은 다양한 환경에서 실제 코딩 작업을 훈련한 엄격한 강화 학습에서 비롯됩니다. 목표는 명확했습니다. 완벽하게 기능할 뿐만 아니라 인간의 스타일 선호도를 반영하고, 지침을 정확하게 준수하며, 통과 결과가 달성될 때까지 반복적으로 테스트를 실행할 수 있는 코드를 생성하는 것입니다. Codex의 출시는 보다 지능적이고 자율적인 코딩 지원을 향한 중요한 단계를 의미합니다.

내부 작동 방식: Codex는 어떻게 작동하는가

Codex에 접근하는 것은 자격이 있는 ChatGPT 사용자에게는 간단하며, 사이드바에 전용 섹션이 있습니다. 개발자는 프롬프트를 입력하고 "Code" 명령을 시작하여 새로운 코딩 작업을 할당하거나 "Ask" 기능을 사용하여 코드베이스에 대해 질문할 수 있습니다.

Codex의 진정한 힘은 병렬 처리 기능에 있습니다. 각 작업은 별도의 격리된 클라우드 샌드박스 내에서 독립적으로 처리됩니다. 이 환경에는 관련 코드베이스가 미리 로드되어 있어 Codex가 파일을 읽고 편집하고, 명령(테스트 하네스, 린터, 타입 체커 포함)을 실행하고, 다른 진행 중인 작업의 방해 없이 작동할 수 있습니다. 작업 완료 시간은 복잡성에 따라 일반적으로 1분에서 30분까지 다양하며, 사용자는 실시간으로 진행 상황을 모니터링할 수 있습니다.

Codex의 중요한 측면은 검증 가능한 작업에 대한 약속입니다. 작업이 완료되면 Codex는 환경 내에서 변경 사항을 커밋합니다. 최종 코드만 제시하는 것이 아니라, 터미널 로그 및 테스트 출력의 인용을 통해 작업의 검증 가능한 증거를 제공합니다. 이러한 투명성은 개발자가 작업 완료 중 수행된 각 단계를 추적할 수 있도록 하여 신뢰를 높이고 철저한 검토를 가능하게 합니다. 그런 다음 사용자는 추가 수정을 요청하거나, GitHub 풀 리퀘스트를 열거나, 변경 사항을 로컬 개발 환경에 직접 통합할 수 있습니다. 또한 Codex 환경은 사용자의 실제 개발 설정과 밀접하게 일치하도록 구성하여 호환성 및 관련성을 보장할 수 있습니다.

에이전트 안내: AGENTS.md 및 시스템 지침의 역할

효과성을 더욱 높이고 특정 프로젝트 요구에 맞게 동작을 조정하기 위해 Codex는 저장소 내에 배치된 AGENTS.md 파일의 안내를 받을 수 있습니다. 이러한 텍스트 파일은 익숙한 README.md와 마찬가지로 인간 개발자와 AI 에이전트 간의 통신 채널 역할을 합니다. AGENTS.md를 통해 개발자는 Codex에게 코드베이스 탐색 방법, 테스트 실행 명령, 프로젝트의 확립된 코딩 표준 및 관행 준수 방법에 대해 알릴 수 있습니다. 인간 개발자와 마찬가지로 Codex 에이전트는 잘 구성된 개발 환경, 신뢰할 수 있는 테스트 설정 및 명확한 문서를 제공받을 때 최적으로 작동합니다.

codex-1의 기본 시스템 메시지는 또한 그 동작을 제어하는 명시적인 지침 세트를 보여줍니다. 예를 들어, 파일을 수정할 때 Codex는 새 브랜치를 만들지 않고, 변경 사항을 커밋하기 위해 git을 사용하며(사전 커밋 실패 시 재시도), 작업 트리가 깨끗한 상태로 유지되도록 지시받습니다. 커밋된 코드만 평가되며 기존 커밋은 수정되어서는 안 된다는 점을 강조합니다.

AGENTS.md 사양은 매우 상세합니다. 그 범위는 해당 위치를 루트로 하는 전체 디렉토리 트리이며, 지침은 중첩 깊이에 따라 우선 순위를 갖지만 직접적인 사용자 프롬프트가 이를 재정의할 수 있습니다. 핵심 지침은 AGENTS.md에 프로그램적 검사가 포함된 경우, Codex는 문서 업데이트와 같이 간단해 보이는 수정 사항에 대해서도 모든 코드 변경 후 모든 검사를 실행하고 성공을 검증하기 위해 노력해야 한다는 것입니다. 인용 지침도 엄격하여, 탐색된 파일 또는 실행된 명령에 대해 파일 경로 및 터미널 출력의 정확한 참조를 요구하여 명확한 감사 추적을 보장합니다.

Codex 테스트: 성능 및 벤치마크

OpenAI는 codex-1이 AGENTS.md 파일이나 특정 스캐폴딩을 통한 광범위한 사용자 지정 없이도 코딩 평가 및 내부 벤치마크에서 강력한 성능을 보여준다고 보고합니다. SWE-Bench Verified 벤치마크에서 codex-1은 k=1에서 67%에서 k=8에서 75%로 pass@k 정확도 진행을 보여주었으며, o3-high(약간 다른 하위 집합에서 k=8에서 70%를 기록)를 능가했습니다. OpenAI의 내부 소프트웨어 엔지니어링(SWE) 작업(실제 내부 문제의 큐레이션된 세트)에서 codex-1은 70%의 정확도를 달성하여 o1-high(25%), o4-mini-high(40%), o3-high(61%)보다 훨씬 높았습니다. 이러한 테스트는 최대 192k 토큰의 컨텍스트 길이와 중간 '추론 노력'으로 codex-1을 사용하여 수행되었으며, 이는 제품에서 사용할 수 있는 설정을 반영합니다.

자신감 있는 구축: 안전, 신뢰 및 윤리적 고려 사항

Codex는 OpenAI의 반복 배포 전략에 맞춰 연구 미리보기로 출시되고 있습니다. 이 접근 방식은 실제 사용을 기반으로 학습 및 개선을 가능하게 합니다. 보안 및 투명성은 Codex 설계에서 가장 중요했습니다. 사용자가 인용, 터미널 로그 및 테스트 결과를 통해 출력을 확인할 수 있는 기능은 이러한 철학의 초석이며, AI 모델이 더 복잡한 코딩 작업을 독립적으로 처리함에 따라 점점 더 중요해지는 안전 장치입니다.

불확실성이나 테스트 실패에 직면했을 때 Codex 에이전트는 이러한 문제를 명시적으로 전달하도록 설계되어 사용자가 정보에 입각한 결정을 내릴 수 있도록 합니다. 그러나 OpenAI는 통합 및 실행 전에 모든 에이전트 생성 코드를 수동으로 검토하고 검증하는 것이 필수적임을 강조합니다.

오용 가능성, 특히 멀웨어 개발과 같은 분야에서의 오용 가능성을 다루는 것은 중요한 관심사입니다. Codex는 악성 소프트웨어 생성을 목표로 하는 요청을 식별하고 정확하게 거부하도록 훈련되었으며, 동시에 유사한 기술을 포함할 수 있는 합법적이고 고급 작업(예: 저수준 커널 엔지니어링)을 구별하고 지원합니다. o3 시스템 카드 부록에 자세히 설명된 강화된 정책 프레임워크 및 엄격한 안전 평가는 이러한 경계를 강화합니다.

에이전트는 클라우드의 안전하고 격리된 컨테이너 내에서 완전히 작동합니다. 작업 실행 중에는 인터넷 액세스가 비활성화되어 GitHub 저장소 및 사용자가 구성한 사전 설치된 종속성을 통해 명시적으로 제공된 코드로만 상호 작용이 제한됩니다. 이는 에이전트가 외부 웹사이트, API 또는 기타 서비스에 액세스할 수 없어 보안 위험을 크게 완화함을 의미합니다.

인간적인 손길: 개발자 선호도 및 워크플로우와의 정렬

codex-1 훈련의 주요 목표는 출력을 인간 코딩 선호도 및 표준과 밀접하게 일치시키는 것이었습니다. 일반적인 목적의 OpenAI o3와 비교하여 codex-1은 인간이 더 쉽게 검토하고 표준 워크플로우에 더 쉽게 통합할 수 있는 더 깨끗한 패치를 일관되게 생성합니다. 이는 인기 있는 오픈 소스 프로젝트에 적용된 몇 가지 수정 예시를 통해 입증됩니다.

프로젝트: Astropy (Python 천문학 라이브러리)

버그: separability_matrix 함수가 중첩된 CompoundModel 인스턴스에 대한 분리성을 잘못 계산했습니다. 예를 들어, m.Linear1D(10) & m.Linear1D(5)와 같은 복합 모델이 다른 모델 내에 중첩된 경우, 결과 행렬은 존재하지 않는 종속성을 잘못 나타냈습니다.
Codex의 해결책:
astropy/modeling/separable.py의 _cstack 함수에 대상 수정이 이루어졌습니다.
이 변경은 미리 계산된 배열(즉, 중첩된 모델)을 나타낼 때 우측 행렬의 차원 및 값을 올바르게 처리했습니다.
테스팅: 수정 사항을 확인하기 위해 test_separable.py에 정확한 회귀 테스트가 추가되어, 출력이 중첩된 모델에 대한 예상 블록 대각 분리성 행렬임을 보장했습니다.
비교: 이 수정은 광범위한 설명 주석을 포함했던 o3의 잠재적 대안보다 더 직접적이고 간결하다는 점이 주목되었습니다.

프로젝트: Matplotlib (Python 플로팅 라이브러리)

버그: mlab._spectral_helper의 문제로 인해 불필요한 np.abs() 호출로 인해 창 보정이 잘못되었습니다. 이로 인해 음수 값을 가진 창(예: flattop 창)에 대해 부정확한 결과가 발생했습니다.
Codex의 해결책:
(np.abs(window)**2).sum() 및 np.abs(window).sum()**2에서 np.abs() 호출이 제거되었습니다.
이들은 각각 (window.conjugate() * window).sum() 및 window.sum()**2로 변경되었습니다.
이 수정은 스케일링이 창의 실제 값을 사용하도록 보장하여 파워를 정확하게 보존합니다.
테스팅: 음수 값을 포함하는 창을 사용하여 이 수정을 구체적으로 확인하기 위해 lib/matplotlib/tests/test_mlab.py에 새로운 테스트인 test_psd_windowarray_negative가 추가되었습니다.

프로젝트: Django (Python 웹 프레임워크)

버그: 기간 전용 표현식(예: F('estimated_time') + datetime.timedelta(1))이 SQLite 및 MySQL에서 실패하여 decimal.InvalidOperation 오류를 발생시켰습니다. 이는 기간 값이 변환되는 방식의 문제 때문이었습니다.
Codex의 해결책:
django/db/backends/base/operations.py의 convert_durationfield_value 메서드가 기간에 대한 다양한 입력 유형(예: None, timedelta, string, int)을 강력하게 처리하도록 개선되었습니다.
django/db/models/expressions.py의 DurationExpression에 대한 측면 컴파일이 조정되어, format_for_duration_arithmetic이 날짜/시간 유형과 결합될 때 주로 더 선택적으로 적용되도록 보장했습니다.
테스팅: 이 수정을 검증하기 위해 tests/expressions/tests.py에 새로운 테스트인 test_durationfield_only_expression이 추가되었습니다.
비교: 이 Django 문제에 대한 o3 해결책은 convert_durationfield_value 내에서 유형 검사 및 구문 분석 논리가 더 광범위하여 기간의 다양한 문자열 및 숫자 표현을 처리하는 매우 상세한 접근 방식을 제공하는 것으로 설명되었습니다.

프로젝트: Expensify (ReportUtils.ts - TypeScript)

문제: 캐시를 지운 후 좌측 내비게이터(LHN)에서 멤버의 방 이름이 업데이트되지 않았습니다.
Codex의 제안된 해결책 (보고서 이름 캐싱과 관련된 제공된 차이점을 기반으로):
"Codex" 차이점은 getCacheKey 함수를 수정하여 policyName을 포함하도록 했습니다. 이 변경은 캐시 키를 더 구체적으로 만들 수 있으며, 정책 이름이 방 제목에 영향을 미치는 경우 오래된 상태를 방지할 수 있습니다.
대안 OpenAI o3 제안:
"OpenAI o3" 차이점은 캐시 무효화에 대한 보다 구조적인 해결책을 제안했습니다. ONYXKEYS.COLLECTION.POLICY가 업데이트될 때마다 reportNameCache가 지워지도록 보장하는 것입니다. 이는 기본 정책 정보(방 이름에 영향을 줄 수 있음)가 변경될 때 캐시를 사전에 새로 고침으로써 오래된 데이터를 직접 해결합니다.
통찰력: 이 예시는 AI가 캐시 키 개선부터 더 광범위한 무효화 메커니즘 구현까지 다양한 전략을 제안하여 이러한 문제를 해결할 수 있음을 보여줍니다.

이러한 예시는 Codex가 복잡한 문제를 이해하고 대상이 명확하고 효과적인 해결책을 구현하며, 정확성을 보장하기 위해 필요한 테스트 케이스를 자주 포함하는 능력을 종합적으로 보여줍니다.

도달 범위 확장: Codex CLI 업데이트

클라우드 기반 에이전트를 보완하기 위해 OpenAI는 터미널에서 직접 실행되는 경량 오픈 소스 코딩 에이전트인 Codex CLI도 업데이트했습니다. codex-1의 새롭고 더 작은 버전인 codex-mini-latest(o4-mini의 특수 버전)가 이제 Codex CLI의 기본 모델입니다. 이는 낮은 지연 시간 코드 Q&A 및 편집에 최적화되어 있으며, 강력한 지침 준수 및 스타일 기능을 유지합니다.

개발자 계정을 Codex CLI에 연결하는 것도 간소화되었습니다. 수동 API 토큰 생성 대신 사용자는 이제 ChatGPT 계정으로 로그인하고 API 조직을 선택할 수 있으며, CLI가 자동 API 키 구성을 처리합니다. 이러한 방식으로 로그인하는 Plus 및 Pro 사용자는 무료 API 크레딧도 사용할 수 있습니다.

접근성, 경제성 및 포부: 가용성, 가격 및 제한 사항

Codex는 현재 전 세계 ChatGPT Pro, Enterprise, Team 사용자에게 출시되고 있으며, Plus 및 Edu 지원은 곧 예상됩니다. 초기 액세스는 몇 주 동안 추가 비용 없이 관대하게 제공되어 사용자가 기능을 탐색할 수 있도록 합니다. 이후 OpenAI는 온디맨드 사용을 위한 속도 제한 액세스 및 유연한 가격 옵션을 도입할 예정입니다. API를 통해 codex-mini-latest를 사용하는 개발자의 경우, 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 6달러로 책정되며, 프롬프트 캐싱 할인 75%가 적용됩니다.

연구 미리보기로서 Codex에는 제한 사항이 있습니다. 현재 프런트엔드 개발을 위한 이미지 입력과 작업 중간에 에이전트의 경로를 수정하는 기능이 부족합니다. 원격 에이전트에게 작업을 위임하는 것은 대화형 편집에 비해 지연 시간을 발생시켜 워크플로우에 일부 조정이 필요할 수 있습니다. OpenAI는 Codex 에이전트와의 상호 작용이 인간 동료와의 비동기 협업과 점점 더 유사해질 것으로 예상합니다.

앞으로 나아갈 길: Codex와 함께하는 소프트웨어 엔지니어링의 AI 미래

OpenAI는 개발자가 소유하고 싶은 작업을 주도하고 나머지는 고도로 유능한 AI 에이전트에게 위임하여 속도와 생산성을 높이는 미래를 상상합니다. 이를 실현하기 위해 실시간 협업과 비동기 위임을 모두 지원하는 Codex 도구 모음을 구축하고 있습니다. Codex CLI와 같은 AI 페어링 도구가 업계 표준이 되고 있지만, ChatGPT에 도입된 비동기 다중 에이전트 워크플로우는 고품질 코드를 생성하기 위한 미래의 사실상 표준으로 간주됩니다.

궁극적으로 이러한 두 가지 상호 작용 모드(실시간 페어링 및 작업 위임)는 수렴될 것으로 예상됩니다. 개발자는 Q&A, 제안, 더 긴 작업 오프로딩을 위해 IDE 및 일상적인 도구 전반에 걸쳐 AI 에이전트와 통합된 워크플로우로 협업할 것입니다. 향후 계획에는 개발자가 작업 중간에 지침을 제공하고, 구현 전략에 대해 협력하며, 사전에 진행 상황 업데이트를 받을 수 있는 더 대화적이고 유연한 에이전트 워크플로우가 포함됩니다. GitHub, Codex CLI, ChatGPT Desktop, 이슈 트래커, CI 시스템과 같은 도구 전반에 걸쳐 더 깊은 통합도 계획되어 있습니다.

소프트웨어 엔지니어링은 AI 기반 생산성 향상을 목격하는 최초의 산업 중 하나이며, 개인 및 소규모 팀에게 새로운 가능성을 열어줍니다. 이러한 발전에 대해 낙관적이지만, OpenAI는 또한 다양한 인구 집단에 걸쳐 개발자 워크플로우 및 기술 개발에 대한 광범위한 에이전트 채택의 더 넓은 의미를 이해하기 위해 파트너와 협력하고 있습니다.

ChatGPT Codex의 출시는 단순한 새로운 도구 이상입니다. 이는 인간의 창의성과 인공지능이 이전보다 더 원활하게 협력하여 차세대 소프트웨어를 구축하는 미래를 엿볼 수 있는 기회입니다. 이것은 시작일 뿐이며, 개발자가 Codex로 구축할 수 있는 잠재력은 방대하고 흥미진진합니다.