트레이딩 에이전트: 오픈소스 LLM 트레이딩 프레임워크

대부분의 다중 에이전트 LLM 프레임워크는 약속한 것보다 더 많은 것을 제공합니다. TradingAgents는 드문 예외 중 하나입니다. Tauric Research가 arXiv 논문과 함께 오픈소스화했으며, 현재 버전 0.2.4에 도달했습니다. 이 프레임워크는 다른 프레임워크들이 설명만 하고 거의 구현하지 않는 깔끔한 역할 분할을 제공합니다. 이 시스템은 실제 리서치 데스크를 반영합니다: 기본 분석, 심리 분석, 뉴스 분석, 기술 분석가가 Bull/Bear 리서치 토론에 정보를 제공하고, 이어서 트레이더, 그리고 리스크 관리 위원회가 구조화된 결정을 내리고 감사용으로 기록합니다.

이 리뷰는 TradingAgents가 실제로 무엇을 하는지, v0.2.4에 어떤 기능이 포함되었는지, LangGraph 및 CrewAI와 어떻게 비교되는지, 그리고 Apidog를 사용하여 LLM 및 시장 데이터 계층을 테스트하는 방법을 설명합니다. 에이전트 계약 계층에 대해 이미 깊이 이해하고 있다면, API 팀을 위한 agents.md 가이드가 이 게시물과 자연스럽게 연결될 것입니다.

요약 (TL;DR)

TradingAgents는 Tauric Research의 다중 에이전트 LLM 트레이딩 프레임워크로, arXiv 2412.20138에 게시되었으며, 2025년에 오픈소스화되어 현재 버전 0.2.4입니다.
이 프레임워크는 트레이딩을 전문가 에이전트로 분할합니다: 기본 분석가, 심리 분석가, 뉴스 분석가, 기술 분석가, Bull/Bear 연구원, 트레이더, 그리고 리스크 관리 위원회.
v0.2.4에서는 구조화된 출력 에이전트, LangGraph 체크포인트 재개, 영구적인 결정 로그, DeepSeek, Qwen, GLM 및 Azure OpenAI에 대한 공급자 지원이 추가되었습니다.
이 프레임워크는 모든 OpenAI 호환 LLM 엔드포인트에서 실행될 수 있어 호스팅, 로컬 및 자체 호스팅 모델을 상호 교환할 수 있습니다.
Apidog를 사용하여 기본 시장 데이터 API를 모의하고, LLM 공급자 트래픽을 재현하고, DeepSeek, OpenAI 및 Anthropic 간의 사고 모드 비용을 벤치마킹하십시오.
에이전트를 실제 돈과 함께 신뢰하기 전에 이 모든 것을 CI에 연결하려면 Apidog를 다운로드하십시오.

TradingAgents의 실제 모습

이 프레임워크는 트레이딩 워크플로우를 전문 역할로 분해하는 Python 패키지 및 CLI입니다. 각 역할은 직무 설명이 주어지고, 특화된 도구 세트에 접근하며, LangGraph에 의해 조정되는 LLM 에이전트입니다. 결정은 데이터 수집, 토론, 결정, 기록 단계로 흐릅니다.

README에는 투자 조언이 아닌 연구 코드라고 설명되어 있습니다. 이러한 설명은 중요합니다. 목표는 단일 프롬프트 설정과 비교하여 다중 에이전트 협업이 결과에 어떤 영향을 미치는지 연구하는 것이지, 노트북에서 생산 트레이딩 봇을 출시하는 것이 아닙니다.

공학적인 관점에서 흥미로운 점은 역할 분리가 얼마나 깔끔한지입니다. 기본 분석가는 회사 재무를 평가합니다. 심리 분석가는 소셜 미디어를 평가합니다. 뉴스 분석가는 거시 경제 지표를 모니터링합니다. 기술 분석가는 MACD와 RSI를 계산합니다. Bull 및 Bear 연구원들은 토론합니다. 트레이더는 모든 보고서를 읽고 결정합니다. 리스크 관리는 제약 조건에 대해 결정을 확인합니다. 모든 에이전트는 하나의 작업과 하나의 도구 세트를 가집니다.

이것은 모든 복잡한 에이전트 워크플로우를 위해 설계할 패턴과 동일합니다: 전문가 역할, 토론 단계, 결정 단계 및 검증 단계. TradingAgents는 오후에 읽을 수 있는 작동하는 참조 구현입니다.

v0.2.4에 포함된 기능

2026년 4월 릴리스는 생산에 관심 있는 사용자에게 의미가 있습니다.

구조화된 출력 에이전트. 연구 관리자, 트레이더 및 포트폴리오 관리자는 이제 OpenAI 응답 API 또는 Anthropic의 도구 사용 채널을 통해 구조화된 출력을 내보냅니다. 이는 이전의 자유 텍스트 파싱을 유형화된 JSON으로 대체하여 다운스트림 자동화를 안정적으로 만듭니다.

LangGraph 체크포인트 재개. 장기 실행은 저장된 체크포인트에서 일시 중지하고 다시 시작할 수 있습니다. 시장 데이터 API가 제한되거나 LLM 공급자가 429 오류를 반환해도 실행이 처음부터 다시 시작되지 않습니다.

영구적인 결정 로그. 트레이더가 내리는 모든 결정은 추론, 입력 및 타임스탬프와 함께 SQLite 로그에 기록됩니다. 검토하거나 평가에 다시 공급할 수 있는 감사 추적을 얻습니다.

다중 공급자 지원. v0.2.4는 기존 OpenAI, Anthropic, Gemini 및 Grok 매트릭스에 DeepSeek, Qwen, GLM 및 Azure OpenAI를 추가했습니다. 토큰당 가장 저렴한 추론이 필요하다면 OpenAI 호환 엔드포인트를 통해 DeepSeek V4로 교체할 수 있습니다. 긴 컨텍스트 또는 비전이 필요하다면 Gemini로 교체하십시오.

Docker 지원 및 Windows UTF-8 수정. 지루하지만 중요합니다: 프레임워크는 이제 Dockerfile을 제공하며, v0.2.3의 Windows 경로 인코딩 버그는 사라졌습니다.

에이전트 아키텍처 상세

완전한 TradingAgents 실행은 다음과 같습니다.

CLI는 티커 심볼과 날짜 범위를 허용합니다.
분석 팀은 확산됩니다: 네 명의 분석가 각각은 티커에 대한 데이터를 독립적으로 가져와 보고서를 작성합니다.
연구 팀은 네 개의 보고서를 검토합니다. Bull 연구원은 롱(long) 논문을 작성하고, Bear 연구원은 숏(short) 논문을 작성합니다. 그들은 토론합니다.
연구 관리자는 토론을 종합하여 권고안을 만듭니다.
트레이더는 권고안을 받아 영구적인 결정 로그와 비교하고 거래 계획을 수립합니다.
리스크 관리 팀이 검토합니다. 세 명의 리스크 에이전트(공격적, 보수적, 중립적)는 다양한 관점에서 계획에 대해 이의를 제기합니다.
포트폴리오 관리자는 계획을 승인하거나 수정하기 위해 되돌려 보냅니다.
최종 결정은 SQLite 로그에 기록됩니다.

LLM 비용의 대부분은 여러 에이전트가 토론하는 3단계와 6단계에 발생합니다. 이 또한 작은 모델이 노출되는 지점입니다: Bull/Bear 토론을 실행하는 7B 모델은 시끄럽고 반복적인 주장을 생성합니다. 추론 모델(DeepSeek V4 사고 모드, GPT-5.5, Claude 4.5)은 실제 연구 회의와 유사한 구조화된 상호 작용을 생성합니다.

API 도구로 LLM 계층을 테스트해야 하는 이유

TradingAgents를 실행할 때, 두 가지 표면이 생산에서 실패합니다: 시장 데이터 API(Yahoo Finance, FinnHub, Polygon, OpenBB) 및 LLM 공급자 API.

시장 데이터 측면은 지저분합니다. 무료 계층은 일관되지 않은 속도 제한을 가지며, 문서화되지 않은 필드가 나타나고 사라지며, 거래일 경계가 공급업체마다 다릅니다. 화요일에 작동했던 실행이 공급업체가 `regularMarketTime`을 `regular_market_time`으로 변경했기 때문에 수요일에 조용히 중단될 수 있습니다.

LLM 측면도 다른 방식으로 지저분합니다. DeepSeek V4 사고 모드는 비용을 두 배로 늘립니다; OpenAI 응답 API는 자체적인 특이점을 가지며; Anthropic의 도구 사용은 일부 다운스트림 파서가 인식하지 못하는 콘텐츠 블록을 반환합니다.

두 가지 표면 모두 여러분에게 동일한 것을 원합니다: 어설션이 포함된 저장 가능하고 재현 가능한 정식 요청 컬렉션. 그것이 바로 Apidog의 목적입니다. 우리는 MCP 서버 테스트 플레이북에서 프로토콜 수준에서 동일한 테스트 패턴을 다루었습니다.

Apidog에서 시장 데이터 API 모의하기

TradingAgents 테스트 실행에서 공급업체의 불안정성을 제거하는 세 단계입니다.

1단계: 업스트림 엔드포인트 정의. Apidog 프로젝트에서 TradingAgents가 호출하는 Yahoo Finance, FinnHub, Polygon 또는 OpenBB 엔드포인트를 추가합니다. 각 도구 사양의 README에는 정확한 URL이 나열되어 있습니다. 실제 응답에서 가져온 예제 응답 본문과 함께 각각을 요청으로 저장합니다.

2단계: 모의 서버 켜기. Apidog의 모의 서버는 실제 공급업체가 사용하는 것과 동일한 URL 경로에서 예제 응답을 반환합니다. TradingAgents의 도구 구성을 모의 URL로 지정합니다. 이제 기본 분석가는 확정적인 데이터를 기반으로 실행됩니다. 테스트는 더 이상 Yahoo의 속도 제한에 좌우되지 않습니다.

3단계: 공급업체 드리프트 캡처. 일주일에 한 번 라이브 엔드포인트를 재현하고 저장된 픽스처와 응답 형태를 비교합니다. Apidog는 추가되거나 제거되거나 이름이 변경된 필드를 강조 표시합니다. 이것이 `regularMarketTime` 이름 변경이 실행을 중단시키기 전에 감지하는 방법입니다.

우리는 계약 우선 API 개발에서 정확히 동일한 패턴을 사용하며, 이는 더 넓은 워크플로우를 설명합니다.

LLM 공급자 계층 테스트

실행 규모를 늘리기 전에 공급자 계층에서 세 가지를 테스트해야 합니다.

역할당 비용. 네 명의 분석가와 토론을 통해 단일 티커를 실행합니다. Apidog의 요청 로그에서 에이전트당 토큰 수를 캡처합니다. Bull/Bear 토론은 일반적으로 분석가보다 3-5배 더 비쌉니다. 그렇지 않다면 모델이 단락(short-circuit)되고 있는 것입니다.

출력 형태. v0.2.4의 구조화된 출력 에이전트(연구 관리자, 트레이더, 포트폴리오 관리자)는 항상 잘 구성된 JSON을 반환해야 합니다. Apidog에서 JSONPath 어설션을 추가하여 확인하십시오. 여기에서의 회귀는 조용하고 파괴적입니다. 다운스트림 코드가 충돌할 때에만 알게 될 것입니다.

공급자 동등성. 비용을 테스트하기 위해 OpenAI에서 DeepSeek V4로 교체할 때, 트레이더의 결정은 개별 실행에서는 다를 수 있지만, 많은 실행에서 유사한 결론으로 수렴해야 합니다. 두 공급자를 통해 50개의 티커를 실행하고, 영구적인 결정 로그를 비교하고, 드리프트를 정량화하십시오. 저희 DeepSeek V4 API 가이드는 요청 형태를 다루고, GPT-5.5 API 가이드는 OpenAI 측면을 다룹니다. Apidog의 응답 비교 기능은 시각적인 비교를 가능하게 합니다.

최소한의 TradingAgents 실행

README의 빠른 시작은 대략 다음과 같습니다.

git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt

export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models gpt-5.5 \
  --rounds 2

두 라운드의 토론은 최소한의 의미 있는 실행입니다. 출력은 JSON과 마크다운 결정 요약으로 `tradingagents/results/`에 기록됩니다.

추론이 많은 역할에 DeepSeek V4 Pro로 교체하려면 `--models` 플래그를 설정하고 프레임워크의 공급자 구성을 통해 OpenAI 클라이언트를 DeepSeek의 기본 URL로 지정합니다:

export DEEPSEEK_API_KEY="sk-..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models deepseek-v4-pro \
  --provider deepseek \
  --rounds 2

동일한 패턴이 Qwen 3.6, GLM 5 또는 Ollama 또는 vLLM에서 제공되는 모든 로컬 모델에 적용됩니다. 저희 2026년 최고의 로컬 LLM 게시물은 로컬 서비스 측면을 다룹니다.

흔한 함정

이러한 문제들은 GitHub 이슈 스레드에 나타납니다.

작은 모델로 실행하기. 7B 로컬 모델은 해결되지 않고 반복되는 Bull/Bear 토론을 생성합니다. 프레임워크는 최소한 중간 수준의 추론 품질이 필요합니다. DeepSeek V4 Flash, Qwen 3.6 32B, GPT-5.5, Claude 4.5가 현실적인 최소 사양입니다.

시장 데이터 캐싱 건너뛰기. 모든 분석가는 데이터 계층을 개별적으로 호출합니다. 캐싱 없이는 실행당 4-8개의 공급업체 요청이 확산되어 속도 제한 예산을 빠르게 소진합니다. 프레임워크는 캐싱을 지원하므로 켜십시오.

트레이딩 봇으로 취급하기. 이것은 연구 코드입니다. 백테스트 성능은 모델 선택, 프롬프트 시드, 토론 길이 및 데이터 품질에 민감합니다. 이 코드가 생성하는 모든 숫자를 전략이 아닌 가설로 취급하십시오.

토큰 사용량 기록을 잊어버리기. 단일 티커 실행은 모델과 라운드에 따라 $0.10에서 $5까지 비용이 들 수 있습니다. Apidog의 재생 기록에 실행당 비용을 기록하십시오. 토론 단계의 폭주 루프는 몇 분 안에 실제 돈을 소진할 수 있습니다.

단일 공급업체 고정. v0.2.0은 여러 공급업체 지원을 추가하여 교체할 수 있도록 했습니다. 사용하십시오. 세 개의 공급업체를 통해 소량 배치를 실행하고, 결정 로그를 비교한 다음 커밋하십시오.

개발 루프에서 Apidog의 역할

TradingAgents 프로젝트 전반에 걸쳐 Apidog가 제 역할을 하는 세 가지 구체적인 지점입니다.

첫 번째는 설계 단계입니다. 라이브 공급업체와 프레임워크를 연결하기 전에, Apidog에서 각 시장 데이터 엔드포인트를 예시 본문과 함께 요청으로 스케치하십시오. 스키마 보기는 프레임워크가 실제로 어떤 필드를 사용하는지에 대해 정직하게 생각하도록 강제합니다. 많은 팀은 자신들이 거의 사용하지 않는 Polygon 요금제를 지불하고 있었다는 사실을 발견합니다.

두 번째는 로컬 CI입니다. Apidog의 모의 서버는 단위 테스트가 실행되는 동안 모든 공급업체를 대신하므로, 테스트 스위트는 5초 미만으로 유지되고 주말 시장 시간에 의존하지 않게 됩니다. 우리는 Postman 없이 API 테스트에서 이와 동일한 패턴을 다루었습니다.

세 번째는 회귀 비교입니다. 매주 실행 시 라이브 엔드포인트를 저장된 픽스처와 비교하여 재현합니다. Apidog는 필드 이름 변경 및 형태 변화를 강조 표시합니다. 이는 "데이터 계층이 고장났고 에이전트가 숫자를 환각하기 시작했다"는 가장 저렴한 경보입니다.

이것이 트레이딩을 넘어 중요한 이유

TradingAgents는 현재 우리가 가진 에이전트 분해의 가장 명확한 오픈소스 예시입니다. 이 패턴은 다음 분야에 직접 적용됩니다.

고객 지원 분류 (티켓 유형별 분석가 에이전트, 토론, 결정)
코드 리뷰 (보안, 성능, 스타일 에이전트, 그 다음 종합)
준수 검토 (데이터 분석가, 리스크 검토자, 의사결정 위원회)
연구 요약 (여러 전문가 독자, 토론, 종합)

다단계 에이전트 워크플로우를 설계하고 있다면, 먼저 TradingAgents 코드를 읽어보십시오. 역할 분리, 토론 단계, 구조화된 출력 결정, 영구 로그는 재사용 가능한 패턴입니다. 또한 Apidog와 프레임워크를 함께 사용하는 목적이기도 한 테스트 가능한 패턴입니다.

실제 사용 사례

퀀트 연구 학생은 TradingAgents를 사용하여 동일한 30개 티커 바스켓에서 DeepSeek V4 대 GPT-5.5 대 Claude 4.5를 비교합니다. Apidog는 모든 요청과 응답을 캡처하여 비교를 재현 가능하게 만듭니다.

핀테크 엔지니어는 다중 에이전트 패턴(트레이딩 코드 아님)을 사용하여 내부 서비스에 대한 코드 리뷰를 실행합니다. 전문가 에이전트는 보안, 성능, 명명 규칙을 확인합니다. 종합 에이전트가 PR 코멘트를 작성합니다. PR당 총 리뷰 비용은 약 $0.04입니다.

솔로 개발자는 10개 티커로 구성된 감시 목록에 대해 매일 밤 TradingAgents를 실행하고, 나중에 검사할 수 있도록 모든 결정을 Postgres에 기록합니다. Apidog 모의 서버는 주말 테스트 실행 중에 라이브 시장 데이터 공급업체를 대신합니다.

결론

TradingAgents는 채팅이 아닌 구조화된 결정을 생성하는 다중 에이전트 LLM 시스템을 구축하는 방법에 대한 작동하고 잘 설계된 예시입니다. v0.2.4는 구조화된 출력, 체크포인트 재개, 감사 추적, 다중 공급자 지원을 통해 생산에 대한 관심을 높였습니다. 하지만 그 무엇도 그 아래의 LLM 및 시장 데이터 계층을 테스트할 수 없다면 의미가 없습니다. 바로 그 점에서 Apidog와 함께 사용하는 것이 가치를 증명합니다.

다섯 가지 핵심 사항:

TradingAgents는 트레이딩을 명확한 역할과 토론 단계를 가진 전문 에이전트로 분해합니다.
v0.2.4는 구조화된 출력, LangGraph 체크포인트, DeepSeek/Qwen/GLM/Azure 공급자를 추가합니다.
Apidog에서 시장 데이터 공급업체를 모의하여 테스트 실행이 확정적이도록 합니다.
생산에서 모델을 교체하기 전에 LLM 공급자 동등성을 테스트하십시오.
이 패턴(전문가, 토론, 결정, 로그)은 여러분이 구축하는 모든 비트레이딩 에이전트 워크플로우에 적용됩니다.

다음 단계: 레포를 클론하고, 선호하는 LLM에 대해 단일 티커를 실행한 다음, 업스트림 호출을 Apidog 모의 서버를 통해 파이프하십시오. 한 시간 이내에 프레임워크가 여러분의 워크플로우에 적합한지 알 수 있을 것입니다.

자주 묻는 질문

TradingAgents는 실제 돈과 함께 사용해도 안전한가요?

이 레포는 명시적으로 연구 코드이며 금융 조언이 아니라고 밝히고 있습니다. 그 출력을 가설로 취급하십시오. 라이브 중개에 대해 이 코드를 사용하는 사람은 개인적으로 위험을 감수합니다. 유지보수자는 이를 지지하지 않습니다.

어떤 LLM 공급자가 최고의 비용-품질 균형을 제공하나요?

2026년 초 대부분의 워크로드에서 사고 모드가 있는 DeepSeek V4 Flash는 GPT-5.5보다 비용 면에서 훨씬 뛰어나고 Bull/Bear 토론 품질에서는 일치합니다. 요청 형태에 대한 자세한 내용은 DeepSeek V4 API 가이드를 참조하십시오.

TradingAgents를 로컬 모델에서 실행할 수 있나요?

예. v0.2.0은 다중 공급자 지원을 추가했으며, Ollama, vLLM 및 LM Studio는 모두 프레임워크가 사용하는 OpenAI 호환 엔드포인트를 제공합니다. 모델 선택에 대한 자세한 내용은 2026년 최고의 로컬 LLM 게시물을 참조하십시오.

시장 데이터 API를 어떻게 모의하나요?

Apidog에서 각 공급업체 엔드포인트를 정의하고, 모의 서버를 켠 다음, 프레임워크의 도구 구성을 모의 URL로 지정합니다. 동일한 패턴은 QA 엔지니어를 위한 API 테스트 도구에 문서화되어 있습니다.

이를 실행하기 위한 최소 하드웨어 사양은 무엇인가요?

호스팅된 LLM(OpenAI, Anthropic, DeepSeek)을 호출하는 경우, Python 3.10+가 설치된 모든 노트북에서 실행됩니다. 로컬 모델을 제공하는 경우, 최소 하드웨어는 모델에 따라 다릅니다: 24GB GPU는 DeepSeek V4 Flash 또는 Qwen 3.6 32B를 실행하고, 8GB GPU는 Llama 5.1 8B를 실행합니다. 작은 모델일수록 품질이 떨어집니다.

시간 외 및 주말 시뮬레이션을 지원하나요?

시장 데이터 공급업체는 과거 데이터를 반환합니다. 프레임워크는 여러분이 선택한 모든 날짜를 실행할 수 있습니다. 라이브 트레이딩은 프레임워크가 명시적으로 해결하지 않는 다른 문제입니다.

다른 다중 에이전트 프레임워크와 어떻게 비교되나요?

TradingAgents는 트레이딩 도메인에 특화되어 있습니다. CrewAI, AutoGen, LangGraph 자체는 범용입니다. 이 패턴을 배우고 다른 곳에 적용하고 싶다면 TradingAgents를 읽어보십시오. 일반적인 에이전트 시스템을 구축하고 싶다면 기본 LangGraph 코드부터 시작하십시오.