클로드(Claude)로 오래 실행되는 AI 에이전트 구축하는 방법

요약

Claude Managed Agents는 Anthropic이 프로덕션 에이전트를 위해 새로 출시한 호스팅 런타임입니다. 팀이 인프라를 처음부터 구축할 필요 없이 샌드박스 실행, 장기 세션, 범위 지정 권한, 추적, 그리고 선택적인 다중 에이전트 조정을 제공합니다. 에이전트가 내부 도구, 서드파티 API 또는 긴 워크플로우를 호출해야 하는 경우, Apidog은 에이전트가 실제 시스템을 건드리기 전에 해당 도구 계약을 검증하는 데 도움을 줍니다.

소개

Claude Managed Agents는 에이전트 프로젝트가 지연되는 가장 큰 이유 중 하나를 해결합니다: 프롬프트보다 런타임을 배포하기가 더 어렵다는 점입니다. Anthropic은 이제 샌드박싱, 권한, 추적 및 세션 지속성이 내장된 방식으로 장기 실행 에이전트를 호스팅하여 팀이 기반 작업을 구축하는 데 시간을 덜 들이고 유용한 워크플로우를 배포하는 데 더 많은 시간을 할애할 수 있도록 돕습니다.

💡

이는 API 팀의 논의를 바꿉니다. 어려운 부분은 더 이상 Claude가 작업을 추론할 수 있는지 여부가 아닙니다. 어려운 부분은 에이전트가 올바른 도구를 안전하게 호출하고, 잘못된 응답에서 복구하며, 일반적인 채팅 요청보다 작업이 더 오래 걸릴 때 계속 작동할 수 있는지 여부입니다.

버튼

내부 API 또는 도구 엔드포인트를 에이전트에 노출할 계획이라면, 출시 전에 해당 표면을 테스트해야 합니다. Apidog은 도구 엔드포인트를 모의하고, JSON 스키마를 검증하며, 다단계 테스트 시나리오를 연결하고, Apidog CLI를 사용하여 CI에서 회귀 테스트를 실행하는 직접적인 방법을 제공합니다. 이는 새로운 호스팅 에이전트에 실시간 액세스를 제공하고 프로덕션에서 계약 버그를 발견하는 것보다 더 안전한 시작점입니다.

프로덕션 에이전트를 배포하기 어려운 이유

주말 데모 에이전트는 쉽습니다. 프로덕션 에이전트는 그렇지 않습니다.

단일 요청 및 응답을 넘어서면 어려운 부분이 빠르게 나타납니다:

파일을 생성하거나, 데이터를 변환하거나, 사용자 지정 스크립트를 호출하는 작업을 위한 안전한 코드 실행이 필요합니다.
네트워크 끊김 및 브라우저 새로 고침에도 유지되는 상태가 필요합니다.
에이전트가 다른 시스템을 몰래 편집하지 않고 하나의 시스템을 읽을 수 있도록 명확한 권한 경계가 필요합니다.
"모델이 이상한 짓을 했다"는 것은 인시던트 검토 중에 충분하지 않으므로 디버깅을 위한 추적이 필요합니다.
전체 워크플로우를 처음부터 다시 재생하지 않고 실패한 단계를 다시 시도할 방법이 필요합니다.
에이전트가 호출할 API 및 도구에 대한 예측 가능한 계약이 필요합니다.

이것이 많은 팀이 프로토타입과 출시 사이에서 정체되는 이유입니다. 모델 부분은 계속 개선되지만, 운영 부분은 여전히 일정을 지연시킵니다.

이러한 패턴은 에이전트 제품 전반에 걸쳐 익숙합니다. 코딩 보조, 연구 에이전트, 회의 준비 도구 및 워크플로우 자동화를 구축하는 팀은 모두 동일한 병목 현상에 직면합니다: 런타임 자체가 하나의 제품이 됩니다. Anthropic은 이 계층을 관리형 서비스로 통합하려고 노력하고 있습니다.

Claude Managed Agents에 포함된 기능

Anthropic의 출시 게시물에 따르면, Claude Managed Agents는 Claude에 최적화된 오케스트레이션 하니스와 호스팅된 프로덕션 인프라를 결합합니다. 실제로는 이번 출시를 통해 API 팀에 중요한 다섯 가지 기능이 소개됩니다.

1. 호스팅 에이전트 런타임

작업, 도구 액세스 및 보호 장치를 정의합니다. Anthropic은 자체 인프라에서 루프를 실행합니다. 이는 큐, 샌드박스 워커, 세션 계층 및 실행 컨트롤러를 구축해야 할 팀에게 많은 양의 사용자 지정 백엔드 작업을 제거합니다.

이것이 이번 출시의 가장 큰 가치입니다. 대부분의 팀은 이미 모델을 호출할 수 있습니다. 하지만 실제 작업을 위한 깔끔한 런타임이 없습니다.

2. 장기 실행 세션

Anthropic은 세션이 몇 시간 동안 실행될 수 있으며 클라이언트 연결이 끊어져도 출력과 진행 상황이 지속된다고 말합니다. 이는 연구 작업, 대용량 파일 생성, 다단계 계획 또는 짧은 대화형 요청에 맞지 않는 백그라운드 운영 작업에 중요합니다.

에이전트가 보고서를 작성하고, 코드베이스를 감사하며, 문서를 처리하거나, 여러 시스템에서 결과물을 조립하는 경우, 장기 실행 세션은 주요 제약을 제거합니다. 짧은 채팅 창을 중심으로 설계하는 것을 멈추고 완료된 작업을 중심으로 설계하기 시작합니다.

3. 샌드박스 실행 및 거버넌스

이번 출시는 보안 샌드박싱, 인증, ID 및 범위 지정 권한을 강조합니다. 이는 부수적인 세부 사항이 아닙니다. 이는 흥미로운 데모와 엔터프라이즈 준비 시스템의 차이입니다.

풀 리퀘스트를 열고, 스프레드시트를 생성하거나, 재무 데이터와 상호 작용할 수 있는 에이전트는 기본적으로 광범위한 액세스를 가져서는 안 됩니다. 호스팅된 거버넌스를 통해 런타임이 수행할 수 있는 작업을 제한하고 보안 팀에 더 명확한 검토 표면을 제공합니다.

4. 내장된 추적 및 문제 해결

Anthropic은 도구 호출, 결정, 분석 및 실패 모드가 Claude Console에서 보인다고 말합니다. 좋은 추적 기능은 "무언가 실패했다"와 "여기에 정확한 요청, 도구 출력 및 원인이 된 브랜치가 있습니다" 사이의 격차를 줄여줍니다.

이는 프롬프트 대신 도구를 디버깅할 때 특히 유용합니다. 많은 에이전트 시스템에서 가장 약한 연결 고리는 모델 자체가 아니라 도구 주변의 API 계약입니다.

5. 연구 미리보기(Research Preview) 중인 다중 에이전트 조정

Anthropic은 또한 에이전트가 다른 에이전트를 지시하여 작업을 병렬화할 수 있는 다중 에이전트 조정을 발표했습니다. 이는 아직 연구 미리보기 단계이므로, 이 글에서 주로 다룰 부분은 아닙니다. 하지만 이는 플랫폼이 어디로 향하고 있는지를 보여줍니다: 단일 작업자에서 조정된 에이전트 팀으로.

이것이 에이전트 제품 아키텍처를 어떻게 바꾸는가

Managed Agents가 출시되기 전에는 일반적인 팀에게 두 가지 선택지가 있었습니다.

옵션 A: 런타임을 직접 구축

이는 최대의 제어 권한을 제공합니다. 또한 다음을 직접 소유한다는 의미이기도 합니다:

컨테이너 또는 VM 격리
도구 실행 수명 주기
세션 지속성
체크포인트 생성
비밀 및 자격 증명
권한 부여
로그 및 추적
재시도 및 복구
출시 후 운영 유지 관리

이 경로는 특이한 인프라, 엄격한 사내 호스팅 요구 사항 또는 심층적인 사용자 지정 오케스트레이션 로직이 필요할 때 여전히 의미가 있습니다.

옵션 B: 관리형 런타임 사용

이는 속도를 위해 일부 제어 권한을 포기하는 것입니다. 런타임이 이미 준비되어 있으므로, 팀은 기반 작업을 구축하는 대신 작업 설계, UX 및 도구 품질에 시간을 할애할 수 있습니다.

이것이 Anthropic이 Managed Agents를 프로덕션에 10배 더 빠르게 도달할 수 있는 방법으로 제시하는 이유입니다. 출시 게시물은 또한 구조화된 파일 생성에 대한 내부 테스트에서 표준 프롬프트 루프보다 작업 성공률이 최대 10점 향상되었으며, 더 어려운 문제에서 가장 큰 성과를 보였다고 언급합니다.

중요한 변화는 다음과 같습니다: 호스팅된 에이전트 인프라가 스택 내의 부수적인 프로젝트가 아니라 하나의 제품 범주가 되고 있다는 점입니다.

Claude Managed Agents vs DIY 에이전트 인프라

결정 영역	Claude Managed Agents	DIY 런타임
첫 프로덕션 출시까지의 시간	런타임이 이미 호스팅되어 있어 빠름	런타임을 먼저 구축해야 하므로 느림
샌드박싱 및 거버넌스	내장됨	전체 설계를 직접 소유
장기 실행 세션	내장됨	세션 상태를 직접 구축하고 유지 관리
추적	Claude Console에서 사용 가능	자체 관측 가능성 계층 구축
유연성	지원되는 모델 및 런타임 패턴에 적합	최고의 유연성
지속적인 운영 부담	낮음	높음
가장 적합한 경우	에이전트 제품을 신속하게 출시하고자 하는 팀	특이한 인프라 또는 엄격한 사용자 지정 런타임 요구 사항이 있는 팀

다음은 실용적인 규칙입니다.

이번 분기에 에이전트 제품을 출시하고 싶고, 핵심 차별화 요소가 워크플로우, UI 또는 그 이면에 있는 독점 도구인 경우 Managed Agents를 선택하세요.

런타임 자체가 당신의 해자(moat)의 일부이거나, 호스팅 및 오케스트레이션에 대한 완전한 제어가 필요하거나, 보안 모델이 관리형 서비스가 제공할 수 있는 것보다 더 심층적인 사용자 지정 처리를 요구하는 경우 DIY를 선택하세요.

이해해야 할 가격 책정 및 장단점

Managed Agents는 표준 Claude Platform 토큰 가격에 더하여 활성 세션 시간당 $0.08를 사용합니다. 이는 시간이 지남에 따라 실제 작업을 수행하는 에이전트에게는 합리적이지만, 비용에 대해 생각하는 방식을 바꿉니다.

일반적인 채팅 API 워크플로우에서는 비용이 주로 토큰에서 발생합니다. 관리형 런타임에서는 비용이 토큰과 경과된 활성 런타임에서 발생합니다. 즉, 작업을 깔끔하게 완료하고, 잘못된 입력에 빠르게 실패하며, 불필요한 루프를 피하도록 에이전트를 설계해야 합니다.

도입하기 전에 세 가지 질문이 중요합니다:

세션이 몇 분 동안 실행되는 경우와 몇 시간 동안 실행되는 경우는 얼마나 자주 발생할까요?
완료된 한 번의 실행이 사용자에게 얼마나 많은 가치를 창출할까요?
어떤 작업은 동기식으로 유지되어야 하며, 어떤 작업은 백그라운드 실행으로 이동해야 할까요?

답변이 "우리 에이전트는 대부분 짧고 결정론적인 호출을 수행한다"라면, 일반적인 API 통합으로도 충분할 수 있습니다.

답변이 "우리 에이전트는 조사하고, 작성하고, 패치하고, 도구를 조정하며, 나중에 결과물을 반환한다"라면, 관리형 런타임이 훨씬 더 매력적으로 보이기 시작합니다.

출시 전 Apidog으로 에이전트 도구 API를 테스트하는 방법

이 부분이 이 글이 구체적으로 다루어야 할 내용입니다.

많은 에이전트 출시의 약점은 모델이 아닙니다. 바로 도구 계층입니다. 에이전트가 search_customers, create_invoice, open_pr 또는 send_slack_message를 호출할 수 있다면, 이 모든 도구는 API 계약입니다. 페이로드가 잘못 형성되었을 때, 스키마가 변경되었을 때, 필수 필드가 사라졌을 때, 또는 인증 토큰의 범위가 잘못되었을 때 어떤 일이 발생하는지 알아야 합니다.

Apidog's interface showing how to test API endpoints.

Apidog은 에이전트가 프로덕션에 도달하기 전에 도구 계약을 모델링할 수 있기 때문에 이 워크플로우에 잘 맞습니다.

Smart Mock을 사용하여 도구 엔드포인트를 조기에 설정

Smart Mock은 API 사양에서 직접 현실적인 응답을 생성하고 JSON 스키마 제약 조건을 준수합니다. 이는 실제 백엔드가 아직 변경 중인 동안 가짜 도구 엔드포인트를 빠르게 설정할 수 있는 방법을 팀에 제공합니다.

에이전트 작업의 경우, 모든 다운스트림 서비스가 준비되기 전에 계획 및 도구 선택을 테스트할 수 있기 때문에 중요합니다. 관리형 에이전트가 ticket_priority, account_id 또는 status 열거형을 기대하는 경우, Smart Mock은 버그를 숨기는 수동 작성된 플레이스홀더 대신 스키마와 일치하는 데이터를 반환할 수 있습니다.

이 워크플로우를 팀 전체에 표준화하는 경우 2026년 Postman 없이 API 테스트하기도 참조하세요.

에이전트 워크플로우를 위한 다단계 테스트 시나리오 구축

Apidog 테스트 시나리오는 한 도구 호출이 다음 도구 호출로 이어질 때 유용합니다. 문서에는 순차적 실행, 요청 간 데이터 전달, 흐름 제어, 사전 정의된 테스트 데이터 및 CI/CD 통합에 대한 지원이 설명되어 있습니다.

이는 에이전트 시스템에 깔끔하게 적용됩니다.

현실적인 유효성 검사 흐름은 다음과 같을 수 있습니다:

POST /tasks를 모의하거나 호출
반환된 task_id 추출
GET /tasks/{task_id} 호출
상태 전환 확인
유효하지 않은 자격 증명으로 오류 분기 트리거
에이전트가 마주하는 오류 페이로드가 계약 내에 유지되는지 확인

이러한 시나리오는 에이전트 런타임이 프로덕션에서 복구해야 하기 전에 도구 버그를 잡아냅니다.

계약 변경(Contract Drift)이 에이전트를 손상시키기 전에 검증

에이전트는 스키마 변경에 민감합니다. 이름이 바뀐 필드, 느슨해진 열거형 또는 누락된 중첩 속성은 추론 실패처럼 보이는 방식으로 도구 체인을 손상시킬 수 있습니다.

Apidog을 사용하여 OpenAPI 및 JSON 스키마로 요청 및 응답 형태를 고정하고, 백엔드가 변경될 때 시나리오 기반 검사를 실행하세요. 팀에서 생성된 도구 정의를 사용하는 경우, 에이전트가 제공하는 사양을 신뢰할 것이기 때문에 이는 더욱 중요합니다.

회귀 테스트 범위를 위해 CI에 CLI 검사 추가

Apidog CLI는 명령줄에서 테스트 스위트를 실행하고 생성된 apidog-reports/ 디렉터리에 HTML 보고서를 포함한 보고서를 출력할 수 있습니다. 이는 에이전트 도구에 대한 사전 병합 또는 사전 배포 검사에 적합합니다.

간단한 정책으로도 충분합니다:

모든 도구 엔드포인트는 스키마 검사가 필요합니다.
모든 쓰기 작업은 최소한 하나의 인증 실패 테스트가 필요합니다.
모든 장기 실행 워크플로우는 타임아웃 및 재시도 사례가 필요합니다.
모든 고위험 도구는 잘못된 상태에 대한 하나의 음성 테스트가 필요합니다.

이렇게 하면 관리형 에이전트는 더 깔끔한 도구 표면으로 프로덕션에 진입하게 됩니다.

시작하기 위한 간단한 아키텍처 패턴

첫날부터 거대한 에이전트 플랫폼이 필요하지는 않습니다. 간단한 패턴으로 충분합니다.

사용자 요청
  -> Claude Managed Agent 세션
  -> 도구 선택
  -> 내부 API 및 서드파티 서비스
  -> 결과 아티팩트 또는 작업
  -> Claude Console에서 추적 검토

출시 전:
  Apidog 사양 -> Smart Mock -> 테스트 시나리오 -> CI에서 CLI 회귀 테스트

이러한 분리는 건전합니다.

Claude Managed Agents가 세션 관리, 호스팅 실행 및 오케스트레이션과 같은 런타임 문제를 처리하도록 하세요. Apidog이 에이전트가 의존하는 도구 주변의 API 계약 설계, 모의, 테스트 및 회귀 검사를 처리하도록 하세요.

이는 모델 계층과 API 품질 계층을 분리하여 유지하며, 이는 대부분의 팀에 정확히 필요한 것입니다.

이 출시가 가장 중요한 경우

Claude Managed Agents는 다음 다섯 가지 그룹에 가장 흥미롭습니다:

코딩 또는 디버깅 에이전트를 구축하는 팀
몇 분 이상 걸리는 문서 또는 연구 워크플로우를 실행하는 팀
앱 내에서 백그라운드 작업을 실행하려는 제품 팀
거버넌스, 추적 및 범위 지정 권한이 필요한 엔터프라이즈 팀
이미 내부 도구를 가지고 있고 에이전트 제품으로 가는 더 빠른 경로를 원하는 API 팀

팀이 여전히 사용 사례를 입증하는 중이라면, 좁은 워크플로우와 작은 도구 표면으로 시작하세요.

사용 사례가 이미 작동하고 인프라가 병목 현상이라면, 이 출시는 진지하게 주목할 가치가 있습니다.

결론

Claude Managed Agents는 단순히 또 다른 모델 기능이 아닙니다. 이는 Anthropic이 에이전트 배포의 복잡한 부분, 즉 호스팅 실행, 지속성, 거버넌스 및 추적을 제품화하려는 시도입니다.

이것이 이번 출시가 중요한 이유입니다. 이는 구축 문제를 "에이전트 런타임을 어떻게 생성할 것인가"에서 "어떤 워크플로우가 에이전트를 사용할 가치가 있으며, 그 뒤에 있는 도구는 얼마나 안전한가"로 전환합니다.

그 두 번째 질문이 Apidog이 적합한 지점입니다. 장기 실행 호스팅 에이전트에 내부 API를 노출하기 전에 계약을 모델링하고, 응답을 모의하고, 실패 경로를 테스트하며, CI에 회귀 테스트 범위를 추가하세요. 이 작업은 에이전트에게 더 깔끔한 작동 표면을 제공하고 출시 후 팀에게 더 적은 놀라움을 안겨줄 것입니다.

버튼

FAQ

Claude Managed Agents는 무엇인가요?

Claude Managed Agents는 Claude Platform의 클라우드 기반 에이전트를 위한 Anthropic의 호스팅 런타임입니다. 여기에는 샌드박스 실행, 장기 실행 세션, 추적, 범위 지정 권한 및 호스팅 오케스트레이션이 포함됩니다.

Claude Managed Agents는 현재 사용 가능한가요?

네. Anthropic은 2026년 4월 8일에 이를 공개 베타로 발표했습니다. 다중 에이전트 조정 및 자체 평가 루프와 같은 일부 기능은 아직 연구 미리보기 단계에 있습니다.

Claude Managed Agents의 가격은 어떻게 되나요?

Anthropic은 표준 Claude Platform 토큰 가격에 더하여 활성 세션 시간당 $0.08가 적용된다고 말합니다.

자체 런타임을 구축하는 대신 Managed Agents를 사용해야 하는 시점은 언제인가요?

심층적인 런타임 사용자 지정보다 프로덕션 출시 속도가 더 중요할 때 Managed Agents를 사용하세요. 팀에 특이한 호스팅, 엄격한 사내 제어 또는 관리형 플랫폼이 지원할 수 없는 사용자 지정 오케스트레이션이 필요한 경우, DIY가 더 나은 선택일 수 있습니다.

API 팀은 왜 에이전트 도구를 별도로 테스트해야 하나요?

많은 에이전트 실패는 부실한 추론보다는 깨진 도구 계약, 인증 문제 또는 스키마 변경으로 인해 발생하기 때문입니다. 도구를 별도로 테스트하면 런타임에 도달하기 전에 이러한 실패를 잡아내는 데 도움이 됩니다.

Apidog은 에이전트 도구 테스트에 어떻게 도움을 줄 수 있나요?

Apidog은 도구 계약을 정의하고, Smart Mock을 사용하여 스키마에서 모의 응답을 생성하며, 테스트 시나리오를 사용하여 다단계 유효성 검사를 연결하고, Apidog CLI를 사용하여 CI에서 회귀 테스트를 실행하는 데 도움을 줍니다.