A maioria dos frameworks LLM multi-agente promete mais do que entrega. TradingAgents é uma das raras exceções: de código aberto pela Tauric Research juntamente com um artigo do arXiv, agora na versão 0.2.4, e entregando o tipo de decomposição de funções limpa que outros frameworks descrevem, mas raramente implementam. O sistema espelha uma mesa de pesquisa real: analistas de fundamentos, sentimento, notícias e técnicos alimentando um debate de pesquisa Bull/Bear, depois um Trader, depois um comitê de Gerenciamento de Risco, terminando em uma decisão estruturada registrada para auditoria.
Esta revisão detalha o que o TradingAgents realmente faz, o que foi lançado na v0.2.4, como ele se compara ao LangGraph e CrewAI, e como testar as camadas de LLM e dados de mercado subjacentes com Apidog. Se você já se aprofundou na camada de contrato de agente, nosso guia agents.md para equipes de API combina naturalmente com esta publicação.
TL;DR
- TradingAgents é um framework de negociação LLM multi-agente da Tauric Research, arXiv 2412.20138, de código aberto em 2025 e agora na versão 0.2.4.
- Ele divide a negociação em agentes especialistas: Analista de Fundamentos, Analista de Sentimento, Analista de Notícias, Analista Técnico, Pesquisadores Bull/Bear, Trader e um comitê de Gerenciamento de Risco.
- A v0.2.4 adicionou agentes de saída estruturada, retomada de checkpoint LangGraph, logs de decisão persistentes e suporte a provedores como DeepSeek, Qwen, GLM e Azure OpenAI.
- O framework funciona em qualquer endpoint LLM compatível com OpenAI, o que torna os modelos hospedados, locais e auto-hospedados intercambiáveis.
- Use Apidog para simular as APIs de dados de mercado subjacentes, reproduzir o tráfego do provedor LLM e comparar o custo do modo de pensamento entre DeepSeek, OpenAI e Anthropic.
- Baixe o Apidog para integrar tudo isso ao seu CI antes de confiar em um agente com dinheiro real.
O que TradingAgents realmente é
O framework é um pacote Python e CLI que decompõe o fluxo de trabalho de negociação em funções especializadas. Cada função é um agente LLM solicitado com uma descrição de trabalho, com acesso a um conjunto de ferramentas focado e orquestrado pelo LangGraph. As decisões fluem por estágios: coletar dados, debater, decidir, registrar.
O README o descreve como código de pesquisa, não como conselho de investimento. Essa abordagem é importante. O objetivo é estudar como a colaboração multi-agente altera os resultados em comparação com configurações de prompt único, e não lançar um bot de negociação de produção a partir do seu laptop.
O que é interessante do ponto de vista da engenharia é a clareza da separação de funções. O Analista de Fundamentos avalia as finanças da empresa. O Analista de Sentimento pontua as mídias sociais. O Analista de Notícias monitora os indicadores macroeconômicos. O Analista Técnico calcula MACD e RSI. Os Pesquisadores Bull e Bear debatem. O Trader lê os relatórios de todos e decide. O Gerenciamento de Risco verifica a decisão em relação às restrições. Cada agente tem uma única tarefa e um único conjunto de ferramentas.
Este é o mesmo padrão que você projetaria para qualquer fluxo de trabalho agente complexo: funções especialistas, uma fase de debate, uma fase de decisão e uma etapa de verificação. TradingAgents é uma implementação de referência funcional que você pode ler em uma tarde.
O que a v0.2.4 entregou
O lançamento de abril de 2026 é significativo para usuários curiosos sobre produção.
- Agentes de saída estruturada. O Gerente de Pesquisa, o Trader e o Gerente de Portfólio agora emitem saída estruturada através da API de Respostas da OpenAI ou do canal de uso de ferramentas da Anthropic. Isso substitui a antiga análise de texto livre por JSON tipado, o que torna a automação subsequente confiável.
- Retomada de checkpoint LangGraph. Execuções de longa duração podem pausar e reiniciar a partir de um checkpoint salvo. Se uma API de dados de mercado for limitada ou um provedor LLM retornar 429, a execução não começa do zero.
- Log de decisão persistente. Cada decisão que o Trader toma é registrada em um log SQLite com raciocínio, entradas e carimbos de data/hora. Você obtém um rastro de auditoria que pode revisar ou alimentar de volta para avaliação.
- Suporte a múltiplos provedores. A v0.2.4 adicionou DeepSeek, Qwen, GLM e Azure OpenAI à matriz existente de OpenAI, Anthropic, Gemini e Grok. Se você busca o raciocínio mais barato por token, pode mudar para o DeepSeek V4 através de seu endpoint compatível com OpenAI. Se precisar de contexto longo ou visão, mude para o Gemini.
- Suporte Docker e correção UTF-8 do Windows. Entediante, mas importante: o framework agora inclui um Dockerfile, e o bug de codificação de caminho do Windows da v0.2.3 foi corrigido.
A arquitetura do agente em detalhes
Uma execução completa do TradingAgents se parece com isto.
- A CLI aceita um símbolo de ticker e um intervalo de datas.
- A Equipe de Analistas se expande: cada um dos quatro analistas busca dados de forma independente para o ticker e escreve um relatório.
- A Equipe de Pesquisa recebe os quatro relatórios. O Pesquisador Bull escreve uma tese de alta. O Pesquisador Bear escreve uma tese de baixa. Eles debatem.
- O Gerente de Pesquisa sintetiza o debate em uma recomendação.
- O Trader pega a recomendação, verifica o log de decisão persistente e produz um plano de negociação.
- A equipe de Gerenciamento de Risco revisa. Três agentes de risco (Agressivo, Conservador, Neutro) contestam o plano de diferentes ângulos.
- O Gerente de Portfólio aprova ou envia o plano de volta para revisão.
- A decisão final é registrada no log SQLite.
A maior parte do custo do LLM está nas etapas 3 e 6, onde múltiplos agentes debatem. É também onde modelos pequenos são expostos: um modelo de 7B executando o debate Bull/Bear produz argumentos ruidosos e repetitivos. Um modelo de raciocínio (modo de pensamento DeepSeek V4, GPT-5.5, Claude 4.5) produz um diálogo estruturado que se assemelha a uma reunião de pesquisa real.
Por que testar a camada LLM com uma ferramenta de API
Ao executar o TradingAgents, duas superfícies falham em produção: as APIs de dados de mercado (Yahoo Finance, FinnHub, Polygon, OpenBB) e as APIs do provedor LLM.
O lado dos dados de mercado é sujo. Camadas gratuitas têm limites de taxa inconsistentes, campos não documentados aparecem e desaparecem, e os limites dos dias de negociação diferem entre os fornecedores. Uma execução que funcionou na terça-feira quebra silenciosamente na quarta-feira porque um fornecedor renomeou regularMarketTime para regular_market_time.
O lado do LLM também é sujo, de uma maneira diferente. O modo de pensamento DeepSeek V4 dobra seu custo; a API de Respostas da OpenAI tem suas próprias peculiaridades; o uso de ferramentas da Anthropic retorna blocos de conteúdo que alguns parsers a jusante engasgam.
Ambas as superfícies querem a mesma coisa de você: uma coleção de requisições canônicas salvas e reproduzíveis com asserções. É exatamente para isso que o Apidog serve. Cobrimos o mesmo padrão de teste no nível de protocolo em nosso manual de teste de servidor MCP.
Simulando as APIs de dados de mercado no Apidog
Três passos para remover a instabilidade dos fornecedores das suas execuções de teste do TradingAgents.
- Passo 1: defina os endpoints upstream. Em um projeto Apidog, adicione os endpoints Yahoo Finance, FinnHub, Polygon ou OpenBB que o TradingAgents chama. O README para cada especificação de ferramenta lista as URLs exatas. Salve cada um como uma requisição com corpos de resposta de exemplo extraídos de respostas reais.
- Passo 2: ligue o servidor mock. O servidor mock do Apidog retorna as respostas de exemplo nos mesmos caminhos de URL que o fornecedor real usa. Aponte a configuração de ferramenta do TradingAgents para a URL mock. O Analista de Fundamentos agora é executado contra dados determinísticos; seus testes não estão mais à mercê do limite de taxa do Yahoo.
- Passo 3: capture o desvio do fornecedor. Uma vez por semana, reproduza os endpoints ativos e compare o formato da resposta com suas 'fixtures' salvas. O Apidog destaca quaisquer campos adicionados, removidos ou renomeados. É assim que você detecta a renomeação de
regularMarketTimeantes que ela mate uma execução.
Usamos o padrão exato no desenvolvimento de API 'contract-first', que descreve o fluxo de trabalho mais amplo.
Testando a camada do provedor LLM
A camada do provedor precisa de três coisas testadas antes de você escalar as execuções.
- Custo por função. Execute um único ticker através dos quatro analistas e do debate. Capture a contagem de tokens por agente no log de requisições do Apidog. O debate Bull/Bear geralmente é 3-5x mais caro que os analistas; se não, o modelo está "short-circuitando".
- Formato de saída. Os agentes de saída estruturada da v0.2.4 (Gerente de Pesquisa, Trader, Gerente de Portfólio) devem sempre retornar JSON bem-formado. Adicione asserções JSONPath no Apidog para verificar. Uma regressão aqui é silenciosa e devastadora; você só descobrirá quando o código downstream falhar.
- Paridade do provedor. Ao alternar da OpenAI para o DeepSeek V4 para testar o custo, as decisões do Trader devem diferir em execuções individuais, mas convergir para conclusões semelhantes em várias execuções. Execute 50 tickers em ambos os provedores, compare o log de decisão persistente e quantifique o desvio. Nosso guia da API DeepSeek V4 abrange o formato da requisição; nosso guia da API GPT-5.5 abrange o lado OpenAI. A diferença de resposta do Apidog torna a comparação visual.
Uma execução mínima do TradingAgents
O início rápido do README se parece aproximadamente com isto.
git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt
export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."
python -m tradingagents.cli \
--ticker AAPL \
--date 2026-04-30 \
--models gpt-5.5 \
--rounds 2
Duas rodadas de debate é a menor execução significativa. A saída é gravada em tradingagents/results/ como JSON, além de um resumo de decisão em markdown.
Para alternar para DeepSeek V4 Pro para as funções que exigem raciocínio, defina o flag --models e aponte o cliente OpenAI para a URL base do DeepSeek através da configuração do provedor do framework:
export DEEPSEEK_API_KEY="sk-..."
python -m tradingagents.cli \
--ticker AAPL \
--date 2026-04-30 \
--models deepseek-v4-pro \
--provider deepseek \
--rounds 2
O mesmo padrão funciona para Qwen 3.6, GLM 5 ou qualquer modelo local servido por Ollama ou vLLM. Nossa publicação sobre os melhores LLMs locais de 2026 aborda o lado do serviço local.
Armadilhas comuns
Estas aparecem no thread de issues do GitHub.
- Execução com um modelo pequeno. Um modelo local de 7B produz um debate Bull/Bear que entra em loop sem resolução. O framework precisa de qualidade de raciocínio de nível intermediário, no mínimo. DeepSeek V4 Flash, Qwen 3.6 32B, GPT-5.5 e Claude 4.5 são o piso realista.
- Ignorar o cache de dados de mercado. Cada analista chama a camada de dados separadamente. Sem cache, você dispara de 4 a 8 requisições de fornecedores por execução e queima rapidamente o orçamento de limite de taxa. O framework suporta cache; ative-o.
- Tratá-lo como um bot de negociação. É código de pesquisa. O desempenho do backtest é sensível à escolha do modelo, à semente do prompt, à duração do debate e à qualidade dos dados. Trate qualquer número que ele produza como uma hipótese, não como uma estratégia.
- Esquecer de registrar o gasto de tokens. Uma única execução de ticker pode custar de $0.10 a $5, dependendo do modelo e das rodadas. Registre o custo por execução no histórico de replay do Apidog; um loop descontrolado na fase de debate pode acumular dinheiro real em minutos.
- Codificar um provedor. A v0.2.0 adicionou suporte a múltiplos provedores precisamente para que você possa alternar. Use-o. Execute um pequeno lote através de três provedores e compare o log de decisão antes de se comprometer.
Onde o Apidog se encaixa no ciclo de desenvolvimento
Três lugares concretos onde o Apidog se faz valer em um projeto TradingAgents.
- O primeiro é a superfície de design. Antes de conectar o framework a fornecedores reais, esboce cada endpoint de dados de mercado no Apidog como uma requisição com corpos de exemplo. A visualização do esquema força você a ser honesto sobre quais campos o framework realmente usa. Muitas equipes descobrem que estavam pagando por um plano Polygon que mal consumiam.
- O segundo é o CI local. O servidor mock do Apidog substitui cada fornecedor enquanto os testes de unidade são executados, para que o conjunto de testes permaneça abaixo de cinco segundos e pare de depender do horário de funcionamento do mercado nos fins de semana. Cobrimos esse padrão exato em testes de API sem Postman.
- O terceiro é a diferenciação de regressão. A cada execução semanal, reproduza os endpoints ativos contra suas 'fixtures' salvas. O Apidog destaca renomeações de campos e desvios de formato. Este é o alarme mais barato possível para “a camada de dados quebrou e os agentes começaram a alucinar números”
Por que isso importa além da negociação
TradingAgents é o exemplo de código aberto mais claro de decomposição agêntica que temos atualmente. O padrão se transfere diretamente para:
- Triagem de suporte ao cliente (agentes analistas por tipo de ticket, debate, decisão)
- Revisão de código (agentes de segurança, desempenho, estilo, então um sintetizador)
- Revisão de conformidade (analistas de dados, revisores de risco, comitê de decisão)
- Resumo de pesquisa (múltiplos leitores especialistas, debate, síntese)
Se você está projetando qualquer fluxo de trabalho de agente multi-etapas, leia o código do TradingAgents primeiro. A separação de funções, o estágio de debate, as decisões de saída estruturada e o log persistente são padrões reutilizáveis. São também padrões testáveis, o que é o ponto de emparelhar o framework com o Apidog.
Casos de uso no mundo real
- Um estudante de pesquisa quantitativa usa o TradingAgents para comparar DeepSeek V4 vs GPT-5.5 vs Claude 4.5 na mesma cesta de 30 tickers. O Apidog captura cada requisição e resposta para que a comparação seja reproduzível.
- Um engenheiro de fintech usa o padrão multi-agente (não o código de negociação) para executar revisões de código em serviços internos. Agentes especialistas verificam segurança, desempenho, nomenclatura. Um sintetizador escreve o comentário do PR. Custo total da revisão por PR: cerca de US$ 0,04.
- Um desenvolvedor solo executando o TradingAgents todas as noites em uma lista de 10 tickers registra cada decisão no Postgres para posterior inspeção. O servidor mock do Apidog substitui os fornecedores de dados de mercado ativos durante as execuções de teste de fim de semana.
Conclusão
TradingAgents é um exemplo funcional e bem arquitetado de como construir um sistema LLM multi-agente que produz decisões estruturadas em vez de chat. A v0.2.4 o torna "production-curious": saídas estruturadas, retomada de checkpoint, trilha de auditoria, múltiplos provedores. Nada disso importa se você não consegue testar as camadas de LLM e dados de mercado subjacentes. É aí que a combinação com o Apidog se justifica.
Cinco pontos chave:
- TradingAgents decompõe a negociação em agentes especialistas com funções claras e uma fase de debate.
- A v0.2.4 adiciona saídas estruturadas, checkpoints do LangGraph e provedores DeepSeek/Qwen/GLM/Azure.
- Simule os fornecedores de dados de mercado no Apidog para que as execuções de teste sejam determinísticas.
- Teste a paridade do provedor LLM antes de trocar modelos em produção.
- O padrão (especialistas, debate, decisão, log) se transfere para todos os fluxos de trabalho de agentes não relacionados a negociação que você construir.
Próximo passo: clone o repositório, execute um único ticker contra o seu LLM preferido e direcione as chamadas upstream através de um servidor mock do Apidog. Você saberá em uma hora se o framework se encaixa no seu fluxo de trabalho.
Perguntas Frequentes
- É seguro usar o TradingAgents com dinheiro real?
O repositório é explícito ao afirmar que é código de pesquisa e não conselho financeiro. Trate sua saída como uma hipótese. Qualquer pessoa que o utilize em uma corretora ativa assume o risco pessoalmente; os mantenedores não endossam isso.
- Qual provedor LLM oferece o melhor equilíbrio entre custo e qualidade?
Para a maioria das cargas de trabalho no início de 2026, o DeepSeek V4 Flash com modo de pensamento supera o GPT-5.5 em custo por uma ampla margem e o iguala em qualidade no debate Bull/Bear. Consulte nosso guia da API DeepSeek V4 para o formato da requisição.
- Posso executar o TradingAgents em modelos locais?
Sim. A v0.2.0 adicionou suporte a múltiplos provedores; Ollama, vLLM e LM Studio todos servem endpoints compatíveis com OpenAI que o framework consome. Consulte nossa publicação sobre os melhores LLMs locais de 2026 para sugestões de modelos.
- Como faço para simular as APIs de dados de mercado?
Defina cada endpoint do fornecedor no Apidog, ligue o servidor mock e aponte a configuração da ferramenta do framework para a URL mock. O mesmo padrão está documentado em ferramentas de teste de API para engenheiros de QA.
- Qual é o hardware mínimo para executá-lo?
Se você estiver chamando LLMs hospedados (OpenAI, Anthropic, DeepSeek), qualquer laptop com Python 3.10+ o executa. Se você serve modelos locais, o hardware mínimo acompanha o modelo: uma GPU de 24 GB executa DeepSeek V4 Flash ou Qwen 3.6 32B; uma GPU de 8 GB executa Llama 5.1 8B. A qualidade diminui com modelos menores.
- Ele suporta simulação após o horário de negociação e nos fins de semana?
Os fornecedores de dados de mercado retornam dados históricos; o framework pode executar qualquer data que você escolher. A negociação ao vivo é um problema diferente que o framework explicitamente não resolve.
- Como ele se compara a outros frameworks multi-agente?
TradingAgents é específico para o domínio de negociação. CrewAI, AutoGen e o próprio LangGraph são de propósito geral. Se você quiser aprender o padrão e aplicá-lo em outro lugar, leia TradingAgents; se você quiser construir um sistema de agente genérico, comece com o código subjacente do LangGraph.
