TradingAgents: Framework de Trading Open Source con LLM

La mayoría de los frameworks LLM multiagente prometen más de lo que cumplen. TradingAgents es una de las raras excepciones: de código abierto por Tauric Research junto con un artículo de arXiv, ahora en la versión 0.2.4, e implementa el tipo de clara descomposición de roles que otros frameworks describen pero rara vez implementan. El sistema refleja una mesa de investigación real: analistas de fundamentos, sentimiento, noticias y técnicos alimentan un debate de investigación entre alcistas/bajistas, luego un Comerciante, luego un comité de Gestión de Riesgos, terminando en una decisión estructurada registrada para auditoría.

Esta reseña explica lo que TradingAgents realmente hace, lo que se incluyó en la v0.2.4, cómo se compara con LangGraph y CrewAI, y cómo probar las capas LLM y de datos de mercado subyacentes con Apidog. Si ya ha profundizado en la capa de contrato del agente, nuestra guía agents.md para equipos de API se combina naturalmente con esta publicación.

TL;DR

TradingAgents es un framework de trading LLM multiagente de Tauric Research, arXiv 2412.20138, de código abierto en 2025 y ahora en la versión 0.2.4.
Divide el trading en agentes especializados: Analista Fundamental, Analista de Sentimiento, Analista de Noticias, Analista Técnico, Investigadores Alcistas/Bajistas, Comerciante y un comité de Gestión de Riesgos.
La v0.2.4 añadió agentes de salida estructurada, reanudación de puntos de control de LangGraph, registros de decisiones persistentes y soporte de proveedores para DeepSeek, Qwen, GLM y Azure OpenAI.
El framework se ejecuta en cualquier punto final LLM compatible con OpenAI, lo que hace que los modelos alojados, locales y autoalojados sean intercambiables.
Use Apidog para simular las API de datos de mercado subyacentes, reproducir el tráfico del proveedor LLM y comparar el costo del modo de pensamiento entre DeepSeek, OpenAI y Anthropic.
Descargue Apidog para integrar todo esto en su CI antes de confiar a un agente con dinero real.

Qué es realmente TradingAgents

El framework es un paquete y CLI de Python que descompone el flujo de trabajo de trading en roles especializados. Cada rol es un agente LLM provisto de una descripción de trabajo, con acceso a un conjunto de herramientas enfocado y orquestado por LangGraph. Las decisiones fluyen a través de etapas: recopilar datos, debatir, decidir, registrar.

El README lo describe como código de investigación, no como asesoramiento de inversión. Ese enfoque importa. El objetivo es estudiar cómo la colaboración multiagente cambia los resultados en comparación con las configuraciones de un solo prompt, no lanzar un bot de trading de producción desde su computadora portátil.

Lo interesante desde el punto de vista de la ingeniería es lo limpia que es la separación de roles. El Analista Fundamental evalúa las finanzas de la empresa. El Analista de Sentimiento califica las redes sociales. El Analista de Noticias monitorea los indicadores macroeconómicos. El Analista Técnico calcula el MACD y el RSI. Los Investigadores Alcistas y Bajistas debaten. El Comerciante lee los informes de todos y decide. La Gestión de Riesgos verifica la decisión con respecto a las restricciones. Cada agente tiene un trabajo y un conjunto de herramientas.

Este es el mismo patrón que diseñaría para cualquier flujo de trabajo agéntico complejo: roles especializados, una fase de debate, una fase de decisión y un paso de verificación. TradingAgents es una implementación de referencia funcional que puede leer en una tarde.

Lo que se incluyó en la v0.2.4

La versión de abril de 2026 es significativa para los usuarios curiosos por la producción.

Agentes de salida estructurada. El Gerente de Investigación, el Comerciante y el Gerente de Cartera ahora emiten salida estructurada a través de la API de Respuestas de OpenAI o el canal de uso de herramientas de Anthropic. Esto reemplaza el antiguo análisis de texto libre con JSON tipado, lo que hace que la automatización posterior sea confiable.

Reanudación de puntos de control de LangGraph. Las ejecuciones de larga duración pueden pausarse y reiniciarse desde un punto de control guardado. Si una API de datos de mercado se estrangula o un proveedor de LLM devuelve 429, la ejecución no comienza desde cero.

Registro de decisiones persistente. Cada decisión que toma el Comerciante se registra en un log SQLite con el razonamiento, las entradas y las marcas de tiempo. Obtiene un rastro de auditoría que puede revisar o alimentar de nuevo en la evaluación.

Soporte multiproveedor. La v0.2.4 añadió DeepSeek, Qwen, GLM y Azure OpenAI a la matriz existente de OpenAI, Anthropic, Gemini y Grok. Si desea el razonamiento más económico por token, puede cambiar a DeepSeek V4 a través de su punto final compatible con OpenAI. Si necesita contexto largo o visión, cambie a Gemini.

Soporte de Docker y corrección de UTF-8 de Windows. Aburrido pero importante: el framework ahora incluye un Dockerfile, y el error de codificación de ruta de Windows de la v0.2.3 ha desaparecido.

La arquitectura del agente en detalle

Una ejecución completa de TradingAgents se ve así.

La CLI acepta un símbolo de cotización y un rango de fechas.
El Equipo de Analistas se expande: cada uno de los cuatro analistas obtiene datos de forma independiente para el símbolo de cotización y escribe un informe.
El Equipo de Investigación recoge los cuatro informes. El Investigador Alcista escribe una tesis larga. El Investigador Bajista escribe una tesis corta. Debaten.
El Gerente de Investigación sintetiza el debate en una recomendación.
El Comerciante toma la recomendación, verifica el registro de decisiones persistente y produce un plan de trading.
El equipo de Gestión de Riesgos revisa. Tres agentes de riesgo (Agresivo, Conservador, Neutral) se oponen al plan desde diferentes ángulos.
El Gerente de Cartera aprueba o envía el plan para su revisión.
La decisión final se registra en el log de SQLite.

La mayor parte del costo de LLM se encuentra en los pasos 3 y 6, donde múltiples agentes debaten. Aquí también es donde se exponen los modelos pequeños: un modelo 7B que ejecuta el debate Alcista/Bajista produce argumentos ruidosos y repetitivos. Un modelo de razonamiento (modo de pensamiento de DeepSeek V4, GPT-5.5, Claude 4.5) produce un diálogo estructurado que se asemeja a una reunión de investigación real.

Por qué probar la capa LLM con una herramienta API

Cuando se ejecuta TradingAgents, dos superficies fallan en producción: las API de datos de mercado (Yahoo Finance, FinnHub, Polygon, OpenBB) y las API del proveedor LLM.

El lado de los datos de mercado es sucio. Los niveles gratuitos tienen límites de tasa inconsistentes, los campos no documentados aparecen y desaparecen, y los límites del día de trading difieren entre proveedores. Una ejecución que funcionó el martes se rompe silenciosamente el miércoles porque un proveedor cambió el nombre de regularMarketTime a regular_market_time.

El lado LLM también es sucio, de una manera diferente. El modo de pensamiento de DeepSeek V4 duplica su costo; la API de respuestas de OpenAI tiene sus propias peculiaridades; el uso de herramientas de Anthropic devuelve bloques de contenido que algunos analizadores posteriores no pueden procesar.

Ambas superficies quieren lo mismo de usted: una colección de solicitudes canónicas guardadas y reproducibles con aserciones. Para eso sirve exactamente Apidog. Cubrimos el mismo patrón de prueba a nivel de protocolo en el libro de jugadas de pruebas de servidor MCP.

Simulación de las API de datos de mercado en Apidog

Tres pasos para eliminar la inestabilidad del proveedor de sus ejecuciones de prueba de TradingAgents.

Paso 1: definir los puntos finales ascendentes. En un proyecto de Apidog, agregue los puntos finales de Yahoo Finance, FinnHub, Polygon u OpenBB que TradingAgents llama. El README de cada lista de herramientas especifica las URL exactas. Guarde cada uno como una solicitud con cuerpos de respuesta de ejemplo extraídos de respuestas reales.

Paso 2: activar el servidor simulado. El servidor simulado de Apidog devuelve las respuestas de ejemplo en las mismas rutas de URL que utiliza el proveedor real. Apunte la configuración de la herramienta de TradingAgents a la URL simulada. El Analista Fundamental ahora se ejecuta con datos deterministas; sus pruebas ya no están a merced del límite de tasa de Yahoo.

Paso 3: capturar la deriva del proveedor. Una vez a la semana, reproduzca los puntos finales en vivo y compare la forma de la respuesta con sus datos guardados. Apidog resalta cualquier campo agregado, eliminado o renombrado. Así es como detecta el cambio de nombre de regularMarketTime antes de que detenga una ejecución.

Utilizamos el patrón exacto en el desarrollo de API primero por contrato, que describe el flujo de trabajo más amplio.

Prueba de la capa del proveedor LLM

La capa del proveedor necesita que se prueben tres cosas antes de escalar las ejecuciones.

Costo por rol. Ejecute un solo ticker a través de los cuatro analistas y el debate. Capture el recuento de tokens por agente en el registro de solicitudes de Apidog. El debate Alcista/Bajista suele ser 3-5 veces más caro que el de los analistas; si no, el modelo está cortocircuitando.

Forma de salida. Los agentes de salida estructurada de la v0.2.4 (Gerente de Investigación, Comerciante, Gerente de Cartera) siempre deben devolver JSON bien formado. Agregue aserciones JSONPath en Apidog para verificar. Una regresión aquí es silenciosa y devastadora; solo se da cuenta cuando el código posterior falla.

Paridad de proveedores. Cuando cambia de OpenAI a DeepSeek V4 para probar el costo, las decisiones del Comerciante deben diferir en las ejecuciones individuales, pero converger en conclusiones similares en muchas ejecuciones. Ejecute 50 tickers a través de ambos proveedores, compare el registro de decisiones persistente y cuantifique la desviación. Nuestra guía de la API de DeepSeek V4 cubre la forma de la solicitud; nuestra guía de la API de GPT-5.5 cubre el lado de OpenAI. La diferencia de respuesta de Apidog hace que la comparación sea visual.

Una ejecución mínima de TradingAgents

El inicio rápido del README se ve más o menos así.

git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt

export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models gpt-5.5 \
  --rounds 2

Dos rondas de debate es la ejecución significativa más pequeña. La salida se guarda en tradingagents/results/ como JSON más un resumen de decisiones en markdown.

Para cambiar a DeepSeek V4 Pro para los roles con mucha razonamiento, configure el flag --models y apunte el cliente OpenAI a la URL base de DeepSeek a través de la configuración del proveedor del framework:

export DEEPSEEK_API_KEY="sk-..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models deepseek-v4-pro \
  --provider deepseek \
  --rounds 2

El mismo patrón funciona para Qwen 3.6, GLM 5 o cualquier modelo local servido por Ollama o vLLM. Nuestra publicación sobre los mejores LLM locales de 2026 cubre el lado del servicio local.

Errores comunes

Estos aparecen en el hilo de problemas de GitHub.

Ejecutar con un modelo pequeño. Un modelo local de 7B produce un debate Alcista/Bajista que se repite sin resolverse. El framework necesita al menos una calidad de razonamiento de nivel medio. DeepSeek V4 Flash, Qwen 3.6 32B, GPT-5.5 y Claude 4.5 son el límite inferior realista.

Omitir el almacenamiento en caché de datos de mercado. Cada analista llama a la capa de datos por separado. Sin almacenamiento en caché, se distribuyen de 4 a 8 solicitudes de proveedor por ejecución y se agota rápidamente el presupuesto de límite de tasa. El framework admite el almacenamiento en caché; actívelo.

Tratarlo como un bot de trading. Es código de investigación. El rendimiento del backtest es sensible a la elección del modelo, la semilla del prompt, la duración del debate y la calidad de los datos. Trate cualquier número que produzca como una hipótesis, no como una estrategia.

Olvidar registrar el gasto de tokens. Una sola ejecución de ticker puede costar entre $0.10 y $5, dependiendo del modelo y las rondas. Registre el costo por ejecución en el historial de reproducción de Apidog; un bucle descontrolado en la fase de debate puede acumular dinero real en minutos.

Codificar un solo proveedor. La v0.2.0 añadió soporte multiproveedor precisamente para que pueda intercambiar. Úselo. Ejecute un pequeño lote a través de tres proveedores y compare el registro de decisiones antes de comprometerse.

Dónde encaja Apidog en el ciclo de desarrollo

Tres lugares concretos donde Apidog demuestra su valía en un proyecto de TradingAgents.

El primero es la superficie de diseño. Antes de conectar el framework a proveedores en vivo, esquematice cada punto final de datos de mercado en Apidog como una solicitud con cuerpos de ejemplo. La vista de esquema le obliga a ser honesto sobre qué campos utiliza realmente el framework. Muchos equipos descubren que estaban pagando por un plan de Polygon que apenas consumían.

El segundo es la CI local. El servidor simulado de Apidog reemplaza a cada proveedor mientras se ejecutan las pruebas unitarias, por lo que el conjunto de pruebas se mantiene por debajo de los cinco segundos y deja de depender de las horas de mercado del fin de semana. Cubrimos este patrón exacto en Pruebas de API sin Postman.

El tercero es la diferenciación de regresión. Cada ejecución semanal, reproduce los puntos finales en vivo con respecto a sus datos guardados. Apidog resalta los cambios de nombre de campo y la deriva de forma. Esta es la alarma más económica posible para "la capa de datos se rompió y los agentes comenzaron a alucinar números".

Por qué esto importa más allá del trading

TradingAgents es el ejemplo de código abierto más claro de descomposición agéntica que tenemos ahora mismo. El patrón se transfiere directamente a:

Triage de soporte al cliente (agentes analistas por tipo de ticket, debate, decisión)
Revisión de código (agentes de seguridad, rendimiento, estilo, luego un sintetizador)
Revisión de cumplimiento (analistas de datos, revisores de riesgos, comité de decisión)
Resumen de investigación (múltiples lectores especialistas, debate, síntesis)

Si está diseñando cualquier flujo de trabajo de agente de varios pasos, lea primero el código de TradingAgents. La separación de roles, la etapa de debate, las decisiones de salida estructurada y el registro persistente son patrones reutilizables. También son patrones comprobables, que es el objetivo de emparejar el framework con Apidog.

Casos de uso en el mundo real

Un estudiante de investigación cuantitativa utiliza TradingAgents para comparar DeepSeek V4 vs GPT-5.5 vs Claude 4.5 en la misma cesta de 30 tickers. Apidog captura cada solicitud y respuesta para que la comparación sea reproducible.

Un ingeniero de tecnología financiera utiliza el patrón multiagente (no el código de trading) para realizar revisiones de código en servicios internos. Los agentes especializados verifican la seguridad, el rendimiento y la nomenclatura. Un sintetizador escribe el comentario de la PR. Costo total de revisión por PR: aproximadamente $0.04.

Un desarrollador individual que ejecuta TradingAgents todas las noches en una lista de seguimiento de 10 tickers registra cada decisión en Postgres para su posterior inspección. El servidor simulado de Apidog reemplaza a los proveedores de datos de mercado en vivo durante las ejecuciones de prueba de fin de semana.

Conclusión

TradingAgents es un ejemplo funcional y bien arquitectado de cómo construir un sistema LLM multiagente que produce decisiones estructuradas en lugar de chats. La v0.2.4 lo hace apto para producción: salidas estructuradas, reanudación de puntos de control, rastro de auditoría, multiproveedor. Nada de eso importa si no se pueden probar las capas LLM y de datos de mercado subyacentes. Ahí es donde combinarlo con Apidog demuestra su valía.

Cinco conclusiones:

TradingAgents descompone el trading en agentes especializados con roles claros y una fase de debate.
La v0.2.4 añade salidas estructuradas, puntos de control de LangGraph y proveedores DeepSeek/Qwen/GLM/Azure.
Simule los proveedores de datos de mercado en Apidog para que las ejecuciones de prueba sean determinísticas.
Pruebe la paridad del proveedor LLM antes de intercambiar modelos en producción.
El patrón (especialistas, debate, decisión, registro) se transfiere a cualquier flujo de trabajo de agente no comercial que construya.

Siguiente paso: clone el repositorio, ejecute un solo ticker con su LLM preferido y redirija las llamadas ascendentes a través de un servidor simulado de Apidog. Sabrá en una hora si el framework se adapta a su flujo de trabajo.

Preguntas frecuentes

¿Es seguro usar TradingAgents con dinero real?

El repositorio es explícito en que es código de investigación y no asesoramiento financiero. Trate su producción como una hipótesis. Cualquiera que lo implemente en una correduría en vivo asume el riesgo personalmente; los mantenedores no lo respaldan.

¿Qué proveedor de LLM ofrece la mejor relación costo-calidad?

Para la mayoría de las cargas de trabajo a principios de 2026, DeepSeek V4 Flash con modo de pensamiento supera a GPT-5.5 en costo por un amplio margen y lo iguala en calidad de debate Alcista/Bajista. Consulte nuestra guía de la API de DeepSeek V4 para conocer la forma de la solicitud.

¿Puedo ejecutar TradingAgents en modelos locales?

Sí. La v0.2.0 añadió soporte multiproveedor; Ollama, vLLM y LM Studio ofrecen puntos finales compatibles con OpenAI que el framework consume. Consulte nuestra publicación sobre los mejores LLM locales de 2026 para ver las opciones de modelos.

¿Cómo simulo las API de datos de mercado?

Defina cada punto final del proveedor en Apidog, active el servidor simulado y apunte la configuración de la herramienta del framework a la URL simulada. El mismo patrón está documentado en herramientas de prueba de API para ingenieros de control de calidad.

¿Cuál es el hardware mínimo para ejecutar esto?

Si está llamando a LLM alojados (OpenAI, Anthropic, DeepSeek), cualquier computadora portátil con Python 3.10+ lo ejecuta. Si sirve modelos locales, el hardware mínimo sigue al modelo: una GPU de 24 GB ejecuta DeepSeek V4 Flash o Qwen 3.6 32B; una GPU de 8 GB ejecuta Llama 5.1 8B. La calidad disminuye con modelos más pequeños.

¿Admite simulación después del horario de mercado y fines de semana?

Los proveedores de datos de mercado devuelven datos históricos; el framework puede ejecutarse en cualquier fecha que elija. El trading en vivo es un problema diferente que el framework explícitamente no resuelve.

¿Cómo se compara con otros frameworks multiagente?

TradingAgents está diseñado específicamente para el dominio del trading. CrewAI, AutoGen y el propio LangGraph son de propósito general. Si desea aprender el patrón y aplicarlo en otro lugar, lea TradingAgents; si desea construir un sistema de agentes genérico, comience con el código subyacente de LangGraph.