TradingAgents: Open Source LLM Trading Framework

Die meisten Multi-Agenten-LLM-Frameworks versprechen mehr, als sie halten. TradingAgents ist eine der seltenen Ausnahmen: Open-Source von Tauric Research zusammen mit einem arXiv-Paper, jetzt in Version 0.2.4, und liefert genau die Art von sauberer Rollenverteilung, die andere Frameworks beschreiben, aber selten implementieren. Das System spiegelt einen echten Research-Desk wider: Fundamentalanalyse, Sentimentanalyse, Nachrichtenanalyse und Technische Analysten speisen eine Bull/Bear-Forschungsdebatte, dann einen Trader und dann ein Risikomanagement-Komitee, was in einer strukturierten, zur Prüfung protokollierten Entscheidung mündet.

Diese Rezension geht darauf ein, was TradingAgents tatsächlich leistet, was in v0.2.4 ausgeliefert wurde, wie es sich gegen LangGraph und CrewAI behauptet und wie man die darunterliegenden LLM- und Marktdaten-Schichten mit Apidog testen kann. Wenn Sie sich bereits intensiv mit der Agenten-Vertragsschicht befasst haben, passt unser agents.md-Leitfaden für API-Teams natürlich zu diesem Beitrag.

TL;DR

TradingAgents ist ein Multi-Agenten-LLM-Handelsframework von Tauric Research, arXiv 2412.20138, Open-Source im Jahr 2025 und jetzt in Version 0.2.4.
Es teilt den Handel in spezialisierte Agenten auf: Fundamentalanalyse, Sentimentanalyse, Nachrichtenanalyse, Technische Analyse, Bull/Bear-Forscher, Trader und ein Risikomanagement-Komitee.
v0.2.4 fügte Agenten mit strukturierten Ausgaben, LangGraph-Checkpoint-Wiederaufnahme, persistente Entscheidungslogs und Provider-Unterstützung für DeepSeek, Qwen, GLM und Azure OpenAI hinzu.
Das Framework läuft auf jedem OpenAI-kompatiblen LLM-Endpunkt, was gehostete, lokale und selbst gehostete Modelle austauschbar macht.
Verwenden Sie Apidog, um die zugrunde liegenden Marktdaten-APIs zu mocken, LLM-Provider-Traffic wiederzugeben und die Kosten des Denkmodus über DeepSeek, OpenAI und Anthropic zu benchmarken.
Laden Sie Apidog herunter, um dies alles in Ihre CI zu integrieren, bevor Sie einem Agenten echtes Geld anvertrauen.

Was TradingAgents tatsächlich ist

Das Framework ist ein Python-Paket und CLI, das den Handels-Workflow in spezialisierte Rollen zerlegt. Jede Rolle ist ein LLM-Agent, der mit einer Jobbeschreibung aufgefordert wird, Zugriff auf einen fokussierten Werkzeugsatz erhält und von LangGraph orchestriert wird. Entscheidungen durchlaufen Phasen: Daten sammeln, debattieren, entscheiden, protokollieren.

Das README beschreibt es als Forschungscode, nicht als Anlageberatung. Diese Einordnung ist wichtig. Es geht darum zu untersuchen, wie Multi-Agenten-Zusammenarbeit die Ergebnisse im Vergleich zu Single-Prompt-Setups verändert, nicht darum, einen Produktions-Trading-Bot vom Laptop aus zu betreiben.

Was aus technischer Sicht interessant ist, ist die saubere Rollentrennung. Der Fundamentalanalyse-Analyst bewertet Unternehmensfinanzen. Der Sentiment-Analyst bewertet soziale Medien. Der Nachrichten-Analyst überwacht makroökonomische Indikatoren. Der Technische Analyst berechnet MACD und RSI. Die Bullen- und Bären-Forscher debattieren. Der Trader liest die Berichte aller und entscheidet. Das Risikomanagement prüft die Entscheidung anhand von Beschränkungen. Jeder Agent hat eine Aufgabe und einen Werkzeugsatz.

Dies ist dasselbe Muster, das Sie für jeden komplexen agentenbasierten Workflow entwerfen würden: Spezialistenrollen, eine Debattenphase, eine Entscheidungsphase und ein Überprüfungsschritt. TradingAgents ist eine funktionierende Referenzimplementierung, die Sie an einem Nachmittag lesen können.

Was v0.2.4 ausgeliefert hat

Die Veröffentlichung im April 2026 ist für produktionsinteressierte Benutzer bedeutsam.

Agenten mit strukturierter Ausgabe. Der Forschungsmanager, Trader und Portfoliomanager geben jetzt strukturierte Ausgaben über die OpenAI Responses API oder Anthropic’s Tool-Use-Kanal aus. Dies ersetzt die alte Freitextanalyse durch getyptes JSON, was die nachgelagerte Automatisierung zuverlässig macht.

LangGraph Checkpoint-Wiederaufnahme. Langlaufende Ausführungen können pausieren und von einem gespeicherten Checkpoint aus neu starten. Wenn eine Marktdaten-API drosselt oder ein LLM-Anbieter 429 zurückgibt, beginnt die Ausführung nicht von vorne.

Persistentes Entscheidungslog. Jede Entscheidung des Traders landet in einem SQLite-Log mit Begründung, Eingaben und Zeitstempeln. Sie erhalten einen Audit-Trail, den Sie überprüfen oder in die Evaluierung zurückführen können.

Multi-Provider-Unterstützung. v0.2.4 fügte DeepSeek, Qwen, GLM und Azure OpenAI zur bestehenden OpenAI, Anthropic, Gemini und Grok Matrix hinzu. Wenn Sie die günstigste Argumentation pro Token wünschen, können Sie auf DeepSeek V4 über dessen OpenAI-kompatiblen Endpunkt umsteigen. Wenn Sie lange Kontexte oder Vision benötigen, wechseln Sie zu Gemini.

Docker-Unterstützung und Windows UTF-8-Fix. Langweilig, aber wichtig: Das Framework liefert jetzt ein Dockerfile mit, und der Windows-Pfad-Codierungsfehler aus v0.2.3 ist behoben.

Die Agentenarchitektur im Detail

Eine vollständige TradingAgents-Ausführung sieht so aus.

Das CLI akzeptiert ein Tickersymbol und einen Datumsbereich.
Das Analysten-Team fächert sich auf: Jeder der vier Analysten ruft unabhängig Daten für den Ticker ab und schreibt einen Bericht.
Das Forschungsteam nimmt die vier Berichte auf. Der Bull-Researcher schreibt eine Long-These. Der Bear-Researcher schreibt eine Short-These. Sie debattieren.
Der Forschungsmanager synthetisiert die Debatte zu einer Empfehlung.
Der Trader nimmt die Empfehlung entgegen, prüft sie gegen das persistente Entscheidungslog und erstellt einen Handelsplan.
Das Risikomanagement-Team prüft. Drei Risikoagenten (Aggressiv, Konservativ, Neutral) widersprechen dem Plan aus verschiedenen Blickwinkeln.
Der Portfoliomanager genehmigt entweder oder sendet den Plan zur Überarbeitung zurück.
Die endgültige Entscheidung landet im SQLite-Log.

Die meisten LLM-Kosten fallen in den Schritten 3 und 6 an, wo mehrere Agenten debattieren. Hier werden auch kleine Modelle entlarvt: Ein 7B-Modell, das die Bull/Bear-Debatte durchführt, produziert laute, sich wiederholende Argumente. Ein Reasoning-Modell (DeepSeek V4 Denkmodus, GPT-5.5, Claude 4.5) produziert einen strukturierten Austausch, der einem echten Forschungsmeeting ähnelt.

Warum die LLM-Schicht mit einem API-Tool testen

Wenn Sie TradingAgents ausführen, scheitern in der Produktion zwei Schnittstellen: die Marktdaten-APIs (Yahoo Finance, FinnHub, Polygon, OpenBB) und die LLM-Provider-APIs.

Die Marktdaten-Seite ist schmutzig. Kostenlose Tiers haben inkonsistente Ratenlimits, undokumentierte Felder fallen aus oder kommen hinzu, und die Handelsgrenzen unterscheiden sich zwischen den Anbietern. Eine Ausführung, die am Dienstag funktionierte, bricht am Mittwoch stillschweigend ab, weil ein Anbieter `regularMarketTime` in `regular_market_time` umbenannt hat.

Die LLM-Seite ist ebenfalls schmutzig, auf eine andere Art. Der DeepSeek V4 Denkmodus verdoppelt Ihre Kosten; die OpenAI Responses API hat ihre eigenen Eigenheiten; Anthropic's Tool-Nutzung gibt Inhaltsblöcke zurück, an denen einige nachgelagerte Parser ersticken.

Beide Schnittstellen wollen dasselbe von Ihnen: eine gespeicherte, wiederholbare kanonische Anfragesammlung mit Zusicherungen. Genau dafür ist Apidog da. Dasselbe Testmuster auf Protokollebene haben wir in MCP server testing playbook behandelt.

Mocking der Marktdaten-APIs in Apidog

Drei Schritte, um die Unzuverlässigkeit der Anbieter aus Ihren TradingAgents-Testläufen zu entfernen.

Schritt 1: Definieren Sie die Upstream-Endpunkte. Fügen Sie in einem Apidog-Projekt die Yahoo Finance-, FinnHub-, Polygon- oder OpenBB-Endpunkte hinzu, die TradingAgents aufruft. Das README für jede Tool-Spezifikation listet die genauen URLs auf. Speichern Sie jede als Anfrage mit Beispiel-Antwortkörpern, die aus realen Antworten stammen.

Schritt 2: Schalten Sie den Mock-Server ein. Apidogs Mock-Server gibt die Beispielantworten auf denselben URL-Pfaden zurück, die der reale Anbieter verwendet. Zeigen Sie die Tool-Konfiguration von TradingAgents auf die Mock-URL. Der Fundamentalanalyse-Analyst läuft nun mit deterministischen Daten; Ihre Tests sind nicht mehr der Gnade von Yahoos Ratenlimit ausgeliefert.

Schritt 3: Erfassen Sie Anbieterabweichungen. Einmal pro Woche spielen Sie die Live-Endpunkte erneut ab und vergleichen die Antwortstruktur mit Ihren gespeicherten Fixtures. Apidog hebt alle hinzugefügten, entfernten oder umbenannten Felder hervor. So fangen Sie die Umbenennung von `regularMarketTime` ab, bevor sie eine Ausführung zum Erliegen bringt.

Wir verwenden das exakte Muster in der Contract-First-API-Entwicklung, die den breiteren Workflow beschreibt.

Testen der LLM-Anbieter-Schicht

Die Anbieter-Schicht benötigt drei getestete Punkte, bevor Sie die Ausführungen skalieren können.

Kosten pro Rolle. Führen Sie einen einzigen Ticker durch alle vier Analysten und die Debatte. Erfassen Sie die Token-Anzahl pro Agent im Anfrageprotokoll von Apidog. Die Bull/Bear-Debatte ist normalerweise 3-5x teurer als die Analysten; wenn nicht, überbrückt das Modell.

Ausgabeform. Die Agenten mit strukturierter Ausgabe von v0.2.4 (Forschungsmanager, Trader, Portfoliomanager) sollten immer wohlgeformtes JSON zurückgeben. Fügen Sie JSONPath-Assertionen in Apidog hinzu, um dies zu überprüfen. Eine Regression hier ist still und verheerend; Sie finden es erst heraus, wenn nachgelagerter Code abstürzt.

Anbieter-Parität. Wenn Sie von OpenAI zu DeepSeek V4 wechseln, um Kosten zu testen, sollten die Entscheidungen des Traders bei einzelnen Läufen unterschiedlich sein, aber über viele Läufe hinweg zu ähnlichen Schlussfolgerungen konvergieren. Führen Sie 50 Ticker durch beide Anbieter, vergleichen Sie das persistente Entscheidungslog und quantifizieren Sie die Abweichung. Unser DeepSeek V4 API-Leitfaden behandelt die Anforderungsform; unser GPT-5.5 API-Leitfaden behandelt die OpenAI-Seite. Apidogs Antwort-Diff macht den Vergleich visuell.

Ein minimaler TradingAgents-Lauf

Der README-Schnellstart sieht ungefähr so aus.

git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt

export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models gpt-5.5 \
  --rounds 2

Zwei Debattenrunden sind der kleinste sinnvolle Lauf. Die Ausgabe landet in `tradingagents/results/` als JSON plus eine Markdown-Entscheidungszusammenfassung.

Um für die reasoning-intensiven Rollen zu DeepSeek V4 Pro zu wechseln, setzen Sie das `--models`-Flag und zeigen Sie den OpenAI-Client über die Provider-Konfiguration des Frameworks auf DeepSeeks Basis-URL:

export DEEPSEEK_API_KEY="sk-..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models deepseek-v4-pro \
  --provider deepseek \
  --rounds 2

Dasselbe Muster funktioniert für Qwen 3.6, GLM 5 oder jedes lokale Modell, das von Ollama oder vLLM bereitgestellt wird. Unser Beitrag beste lokale LLMs von 2026 behandelt die lokale Bereitstellung.

Häufige Fallstricke

Diese tauchen im GitHub-Issue-Thread auf.

Betrieb mit einem kleinen Modell. Ein 7B lokales Modell erzeugt eine Bull/Bear-Debatte, die endlos läuft, ohne eine Lösung zu finden. Das Framework benötigt mindestens eine mittlere Reasoning-Qualität. DeepSeek V4 Flash, Qwen 3.6 32B, GPT-5.5 und Claude 4.5 sind die realistische Untergrenze.

Überspringen des Marktdaten-Cachings. Jeder Analyst ruft die Datenschicht separat auf. Ohne Caching führen Sie 4-8 Anbieteranfragen pro Lauf aus und verbrauchen schnell Ihr Ratenlimit-Budget. Das Framework unterstützt Caching; schalten Sie es ein.

Behandlung als Trading-Bot. Es ist Forschungscode. Die Backtest-Performance ist empfindlich gegenüber der Modellwahl, dem Prompt-Seed, der Debattelänge und der Datenqualität. Behandeln Sie jede Zahl, die es produziert, als Hypothese, nicht als Strategie.

Vergessen, den Token-Verbrauch zu protokollieren. Ein einzelner Ticker-Lauf kann je nach Modell und Runden 0,10 bis 5 US-Dollar kosten. Protokollieren Sie die Kosten pro Lauf in der Wiedergabe-Historie von Apidog; eine Endlosschleife in der Debattenphase kann in wenigen Minuten echtes Geld kosten.

Feste Kodierung eines Anbieters. v0.2.0 fügte Multi-Provider-Unterstützung hinzu, genau damit Sie wechseln können. Nutzen Sie es. Führen Sie eine kleine Charge durch drei Anbieter und vergleichen Sie das Entscheidungslog, bevor Sie sich festlegen.

Wo Apidog in den Entwicklungszyklus passt

Drei konkrete Bereiche, in denen Apidog bei einem TradingAgents-Projekt seinen Wert beweist.

Der erste ist die Design-Oberfläche. Bevor Sie das Framework mit Live-Anbietern verbinden, skizzieren Sie jeden Marktdaten-Endpunkt in Apidog als Anfrage mit Beispielkörpern. Die Schema-Ansicht zwingt Sie dazu, ehrlich zu sein, welche Felder das Framework tatsächlich verwendet. Viele Teams entdecken, dass sie für einen Polygon-Plan bezahlten, den sie kaum nutzten.

Der zweite ist die lokale CI. Apidogs Mock-Server ersetzt jeden Anbieter, während die Unit-Tests laufen, so dass die Testsuite unter fünf Sekunden bleibt und nicht mehr von den Marktöffnungszeiten am Wochenende abhängt. Dieses genaue Muster haben wir in API-Tests ohne Postman behandelt.

Der dritte ist die Regressions-Diff. Bei jeder wöchentlichen Ausführung spielen Sie die Live-Endpunkte gegen Ihre gespeicherten Fixtures ab. Apidog hebt Feldumbenennungen und Strukturabweichungen hervor. Dies ist der günstigste Alarm für "die Datenschicht ist kaputt und die Agenten fangen an, Zahlen zu halluzinieren".

Warum das über den Handel hinaus wichtig ist

TradingAgents ist das klarste Open-Source-Beispiel für agentenbasierte Zerlegung, das wir derzeit haben. Das Muster lässt sich direkt übertragen auf:

Kunden-Support-Triage (Analysten-Agenten pro Ticket-Typ, Debatte, Entscheidung)
Code-Review (Sicherheits-, Performance-, Stil-Agenten, dann ein Synthetisierer)
Compliance-Review (Datenanalysten, Risikoprüfer, Entscheidungsausschuss)
Forschungszusammenfassung (mehrere spezialisierte Leser, Debatte, Synthese)

Wenn Sie einen mehrstufigen Agenten-Workflow entwerfen, lesen Sie zuerst den TradingAgents-Code. Die Rollentrennung, die Debattenphase, die strukturierten Ausgabenentscheidungen und das persistente Log sind wiederverwendbare Muster. Sie sind auch testbare Muster, was der Punkt ist, warum das Framework mit Apidog kombiniert wird.

Anwendungsfälle in der Praxis

Ein Quant-Forschungsstudent nutzt TradingAgents, um DeepSeek V4 vs. GPT-5.5 vs. Claude 4.5 auf dem gleichen Korb von 30 Ticker zu vergleichen. Apidog erfasst jede Anfrage und Antwort, sodass der Vergleich reproduzierbar ist.

Ein Fintech-Ingenieur verwendet das Multi-Agenten-Muster (nicht den Trading-Code), um Code-Reviews für interne Dienste durchzuführen. Spezialisierte Agenten prüfen Sicherheit, Performance, Benennung. Ein Synthetisierer schreibt den PR-Kommentar. Gesamtkosten pro PR: ca. 0,04 US-Dollar.

Ein Solo-Entwickler, der TradingAgents nachts für eine Watchlist von 10 Ticker ausführt, protokolliert jede Entscheidung zur späteren Überprüfung in Postgres. Der Apidog-Mock-Server ersetzt die Live-Marktdatenanbieter während der Testläufe am Wochenende.

Fazit

TradingAgents ist ein funktionierendes, gut strukturiertes Beispiel dafür, wie man ein Multi-Agenten-LLM-System aufbaut, das strukturierte Entscheidungen anstelle von Chats produziert. v0.2.4 macht es produktionsinteressiert: strukturierte Ausgaben, Checkpoint-Wiederaufnahme, Audit-Trail, Multi-Provider. Nichts davon ist relevant, wenn man die darunterliegenden LLM- und Marktdatenschichten nicht testen kann. Genau hier zahlt sich die Kombination mit Apidog aus.

Fünf Erkenntnisse:

TradingAgents zerlegt den Handel in spezialisierte Agenten mit klaren Rollen und einer Debattenphase.
v0.2.4 fügt strukturierte Ausgaben, LangGraph-Checkpoints und DeepSeek/Qwen/GLM/Azure-Anbieter hinzu.
Mocken Sie die Marktdatenanbieter in Apidog, damit Testläufe deterministisch sind.
Testen Sie die LLM-Anbieterparität, bevor Sie Modelle in der Produktion austauschen.
Das Muster (Spezialisten, Debatte, Entscheidung, Protokoll) lässt sich auf jeden Nicht-Handels-Agenten-Workflow übertragen, den Sie erstellen.

Nächster Schritt: Klonen Sie das Repository, führen Sie einen einzelnen Ticker gegen Ihr bevorzugtes LLM aus und leiten Sie die Upstream-Aufrufe über einen Apidog Mock-Server. Innerhalb einer Stunde werden Sie wissen, ob das Framework zu Ihrem Workflow passt.

FAQ

Ist TradingAgents sicher mit echtem Geld zu verwenden?

Das Repository weist explizit darauf hin, dass es sich um Forschungscode und keine Finanzberatung handelt. Behandeln Sie seine Ausgaben als Hypothese. Jeder, der es gegen einen Live-Broker einsetzt, trägt das Risiko persönlich; die Betreuer unterstützen dies nicht.

Welcher LLM-Anbieter bietet das beste Kosten-Qualitäts-Verhältnis?

Für die meisten Workloads Anfang 2026 übertrifft DeepSeek V4 Flash mit Denkmodus GPT-5.5 bei den Kosten deutlich und erreicht es bei der Qualität der Bull/Bear-Debatte. Siehe unseren DeepSeek V4 API-Leitfaden für die Anforderungsform.

Kann ich TradingAgents auf lokalen Modellen ausführen?

Ja. v0.2.0 fügte Multi-Provider-Unterstützung hinzu; Ollama, vLLM und LM Studio stellen alle OpenAI-kompatible Endpunkte bereit, die das Framework nutzt. Siehe unseren Beitrag beste lokale LLMs von 2026 für Modell-Auswahlen.

Wie mocke ich die Marktdaten-APIs?

Definieren Sie jeden Anbieter-Endpunkt in Apidog, aktivieren Sie den Mock-Server und richten Sie die Tool-Konfiguration des Frameworks auf die Mock-URL aus. Dasselbe Muster ist in API-Testtools für QA-Ingenieure dokumentiert.

Was ist die Mindesthardware, um dies auszuführen?

Wenn Sie gehostete LLMs (OpenAI, Anthropic, DeepSeek) aufrufen, läuft es auf jedem Laptop mit Python 3.10+. Wenn Sie lokale Modelle bereitstellen, folgt die Mindesthardware dem Modell: Eine 24 GB GPU führt DeepSeek V4 Flash oder Qwen 3.6 32B aus; eine 8 GB GPU führt Llama 5.1 8B aus. Die Qualität nimmt mit kleineren Modellen ab.

Unterstützt es Simulationen nach Börsenschluss und am Wochenende?

Die Marktdatenanbieter geben historische Daten zurück; das Framework kann jedes von Ihnen gewählte Datum ausführen. Live-Handel ist ein anderes Problem, das das Framework explizit nicht löst.

Wie vergleicht es sich mit anderen Multi-Agenten-Frameworks?

TradingAgents ist meinungsbildend für den Handelsbereich. CrewAI, AutoGen und LangGraph selbst sind universell einsetzbar. Wenn Sie das Muster lernen und anderswo anwenden möchten, lesen Sie TradingAgents; wenn Sie ein generisches Agentensystem aufbauen möchten, beginnen Sie mit dem zugrunde liegenden LangGraph-Code.