TradingAgents: Framework Trading LLM Open-Source

Sebagian besar kerangka kerja LLM multi-agen menjanjikan lebih dari yang mereka berikan. TradingAgents adalah salah satu pengecualian langka: bersumber terbuka oleh Tauric Research bersama makalah arXiv, kini di versi 0.2.4, dan menghadirkan jenis dekomposisi peran yang rapi yang dijelaskan oleh kerangka kerja lain namun jarang diterapkan. Sistem ini meniru meja riset sungguhan: analis fundamental, sentimen, berita, dan teknikal yang memberi masukan pada debat riset Bull/Bear, kemudian seorang Pedagang (Trader), lalu komite Manajemen Risiko, yang diakhiri dengan keputusan terstruktur yang dicatat untuk audit.

Ulasan ini membahas apa yang sebenarnya dilakukan TradingAgents, apa yang dikirimkan dalam v0.2.4, bagaimana perbandingannya dengan LangGraph dan CrewAI, dan cara menguji lapisan LLM serta data pasar di bawahnya dengan Apidog. Jika Anda sudah mendalami lapisan kontrak agen, panduan agents.md kami untuk tim API sangat cocok dengan postingan ini.

TL;DR (Ringkasan Cepat)

TradingAgents adalah kerangka kerja perdagangan LLM multi-agen dari Tauric Research, arXiv 2412.20138, bersumber terbuka pada tahun 2025 dan kini di versi 0.2.4.
Ini membagi perdagangan menjadi agen-agen spesialis: Analis Fundamental, Analis Sentimen, Analis Berita, Analis Teknis, Peneliti Bull/Bear, Pedagang, dan komite Manajemen Risiko.
v0.2.4 menambahkan agen keluaran terstruktur, melanjutkan checkpoint LangGraph, log keputusan persisten, dan dukungan penyedia untuk DeepSeek, Qwen, GLM, dan Azure OpenAI.
Kerangka kerja ini berjalan pada endpoint LLM apa pun yang kompatibel dengan OpenAI, yang membuat model yang dihosting, lokal, dan di-hosting sendiri dapat dipertukarkan.
Gunakan Apidog untuk mem-mock API data pasar yang mendasarinya, memutar ulang lalu lintas penyedia LLM, dan membandingkan biaya mode berpikir di DeepSeek, OpenAI, dan Anthropic.
Unduh Apidog untuk mengintegrasikan semua ini ke dalam CI Anda sebelum Anda mempercayai agen dengan uang sungguhan.

Apa Sebenarnya TradingAgents

Kerangka kerja ini adalah paket Python dan CLI yang memecah alur kerja perdagangan menjadi peran-peran spesialis. Setiap peran adalah agen LLM yang diberi perintah dengan deskripsi pekerjaan, diberikan akses ke set alat yang terfokus, dan diatur oleh LangGraph. Keputusan mengalir melalui beberapa tahap: mengumpulkan data, berdebat, memutuskan, mencatat.

README menggambarkannya sebagai kode penelitian, bukan nasihat investasi. Pembingkaian ini penting. Tujuannya adalah untuk mempelajari bagaimana kolaborasi multi-agen mengubah hasil dibandingkan dengan pengaturan satu prompt, bukan untuk mengirimkan bot perdagangan produksi dari laptop Anda.

Yang menarik dari sudut pandang rekayasa adalah betapa rapi pemisahan perannya. Analis Fundamental mengevaluasi keuangan perusahaan. Analis Sentimen menilai media sosial. Analis Berita memantau indikator makroekonomi. Analis Teknis menghitung MACD dan RSI. Peneliti Bull dan Bear berdebat. Pedagang membaca laporan semua orang dan memutuskan. Manajemen Risiko memeriksa keputusan terhadap batasan. Setiap agen memiliki satu tugas dan satu set alat.

Ini adalah pola yang sama yang akan Anda rancang untuk alur kerja agen yang kompleks: peran spesialis, fase debat, fase keputusan, dan langkah verifikasi. TradingAgents adalah implementasi referensi yang berfungsi yang dapat Anda pelajari dalam satu sore.

Apa yang Dikirimkan v0.2.4

Rilis April 2026 sangat berarti bagi pengguna yang ingin tahu tentang produksi.

Agen keluaran terstruktur. Manajer Riset, Pedagang, dan Manajer Portofolio kini menghasilkan keluaran terstruktur melalui OpenAI Responses API atau saluran penggunaan alat Anthropic. Ini menggantikan parsing teks bebas lama dengan JSON yang bertipe, yang membuat otomatisasi hilir menjadi andal.

Melanjutkan checkpoint LangGraph. Eksekusi jangka panjang dapat dijeda dan dimulai ulang dari checkpoint yang disimpan. Jika API data pasar membatasi permintaan atau penyedia LLM mengembalikan 429, eksekusi tidak akan dimulai ulang dari awal.

Log keputusan persisten. Setiap keputusan yang dibuat oleh Pedagang dicatat dalam log SQLite dengan alasan, masukan, dan stempel waktu. Anda mendapatkan jejak audit yang dapat Anda tinjau atau gunakan kembali untuk evaluasi.

Dukungan multi-penyedia. v0.2.4 menambahkan DeepSeek, Qwen, GLM, dan Azure OpenAI ke matriks OpenAI, Anthropic, Gemini, dan Grok yang ada. Jika Anda menginginkan penalaran termurah per token, Anda dapat beralih ke DeepSeek V4 melalui endpoint yang kompatibel dengan OpenAI. Jika Anda membutuhkan konteks panjang atau visi, beralihlah ke Gemini.

Dukungan Docker dan perbaikan UTF-8 Windows. Membosankan tapi penting: kerangka kerja ini kini menyertakan Dockerfile, dan bug pengodean jalur Windows dari v0.2.3 telah hilang.

Arsitektur Agen secara Detail

Eksekusi TradingAgents yang lengkap terlihat seperti ini.

CLI menerima simbol ticker dan rentang tanggal.
Tim Analis menyebar: masing-masing dari empat analis secara independen mengambil data untuk ticker tersebut dan menulis laporan.
Tim Riset mengambil keempat laporan tersebut. Peneliti Bull menulis tesis panjang. Peneliti Bear menulis tesis pendek. Mereka berdebat.
Manajer Riset mensintesis debat menjadi rekomendasi.
Pedagang mengambil rekomendasi, memeriksa terhadap log keputusan persisten, dan menghasilkan rencana perdagangan.
Tim Manajemen Risiko meninjau. Tiga agen risiko (Agresif, Konservatif, Netral) menolak rencana tersebut dari sudut pandang yang berbeda.
Manajer Portofolio menyetujui atau mengirimkan kembali rencana tersebut untuk direvisi.
Keputusan akhir masuk ke log SQLite.

Sebagian besar biaya LLM ada pada langkah 3 dan 6, di mana banyak agen berdebat. Di sinilah model-model kecil juga terekspos: model 7B yang menjalankan debat Bull/Bear menghasilkan argumen yang bising dan berulang. Model penalaran (mode berpikir DeepSeek V4, GPT-5.5, Claude 4.5) menghasilkan percakapan bolak-balik terstruktur yang menyerupai rapat penelitian sungguhan.

Mengapa Menguji Lapisan LLM dengan Alat API

Ketika Anda menjalankan TradingAgents, dua permukaan gagal dalam produksi: API data pasar (Yahoo Finance, FinnHub, Polygon, OpenBB) dan API penyedia LLM.

Sisi data pasar ini rumit. Tingkat gratis memiliki batas laju yang tidak konsisten, bidang yang tidak terdokumentasi muncul dan hilang, dan batas hari perdagangan berbeda antar vendor. Eksekusi yang berfungsi pada hari Selasa diam-diam rusak pada hari Rabu karena vendor mengganti nama regularMarketTime menjadi regular_market_time.

Sisi LLM juga rumit, dengan cara yang berbeda. Mode berpikir DeepSeek V4 menggandakan biaya Anda; OpenAI Responses API memiliki keunikannya sendiri; penggunaan alat Anthropic mengembalikan blok konten yang sulit diproses oleh beberapa parser hilir.

Kedua permukaan tersebut menginginkan hal yang sama dari Anda: koleksi permintaan kanonik yang disimpan, dapat diputar ulang dengan pernyataan (assertions). Itulah tepatnya fungsi Apidog. Kami membahas pola pengujian yang sama di tingkat protokol dalam panduan pengujian server MCP.

Mem-mock API Data Pasar di Apidog

Tiga langkah untuk menghilangkan ketidakstabilan vendor dari eksekusi pengujian TradingAgents Anda.

Langkah 1: definisikan endpoint upstream. Dalam proyek Apidog, tambahkan endpoint Yahoo Finance, FinnHub, Polygon, atau OpenBB yang dipanggil TradingAgents. README untuk setiap spesifikasi alat mencantumkan URL yang tepat. Simpan setiap permintaan dengan contoh badan respons yang diambil dari respons sungguhan.

Langkah 2: nyalakan server mock. Server mock Apidog mengembalikan contoh respons pada jalur URL yang sama yang digunakan vendor asli. Arahkan konfigurasi alat TradingAgents ke URL mock. Analis Fundamental kini berjalan terhadap data deterministik; pengujian Anda tidak lagi bergantung pada batas laju Yahoo.

Langkah 3: tangkap penyimpangan vendor. Seminggu sekali, putar ulang endpoint langsung dan bandingkan bentuk respons dengan fixture yang Anda simpan. Apidog menyoroti bidang yang ditambahkan, dihapus, atau diganti namanya. Beginilah cara Anda menangkap penggantian nama regularMarketTime sebelum merusak eksekusi.

Kami menggunakan pola yang sama persis dalam pengembangan API kontrak-pertama, yang menjelaskan alur kerja yang lebih luas.

Menguji Lapisan Penyedia LLM

Lapisan penyedia memerlukan tiga hal untuk diuji sebelum Anda meningkatkan eksekusi.

Biaya per peran. Jalankan satu ticker melalui keempat analis dan debat. Tangkap jumlah token per agen di log permintaan Apidog. Debat Bull/Bear biasanya 3-5 kali lebih mahal daripada analis; jika tidak, model tersebut mengalami korsleting.

Bentuk keluaran. Agen keluaran terstruktur v0.2.4 (Manajer Riset, Pedagang, Manajer Portofolio) harus selalu mengembalikan JSON yang terstruktur dengan baik. Tambahkan pernyataan JSONPath di Apidog untuk memverifikasi. Regresi di sini bersifat diam dan merusak; Anda baru mengetahuinya ketika kode hilir mengalami crash.

Paritas penyedia. Ketika Anda beralih dari OpenAI ke DeepSeek V4 untuk menguji biaya, keputusan Pedagang harus berbeda pada eksekusi individu tetapi menyatu pada kesimpulan serupa di banyak eksekusi. Jalankan 50 ticker melalui kedua penyedia, bandingkan log keputusan persisten, dan kuantifikasi penyimpangan. Panduan API DeepSeek V4 kami mencakup bentuk permintaan; panduan API GPT-5.5 kami mencakup sisi OpenAI. Perbedaan respons Apidog membuat perbandingan menjadi visual.

Eksekusi Minimal TradingAgents

Quickstart README terlihat kira-kira seperti ini.

git clone https://github.com/TauricResearch/TradingAgents
cd TradingAgents
pip install -r requirements.txt

export OPENAI_API_KEY="sk-..."
export FINNHUB_API_KEY="..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models gpt-5.5 \
  --rounds 2

Dua putaran debat adalah eksekusi bermakna terkecil. Output akan tersimpan di tradingagents/results/ sebagai JSON ditambah ringkasan keputusan markdown.

Untuk beralih ke DeepSeek V4 Pro untuk peran yang membutuhkan penalaran tinggi, atur flag --models dan arahkan klien OpenAI ke URL dasar DeepSeek melalui konfigurasi penyedia kerangka kerja:

export DEEPSEEK_API_KEY="sk-..."

python -m tradingagents.cli \
  --ticker AAPL \
  --date 2026-04-30 \
  --models deepseek-v4-pro \
  --provider deepseek \
  --rounds 2

Pola yang sama berlaku untuk Qwen 3.6, GLM 5, atau model lokal apa pun yang disajikan oleh Ollama atau vLLM. Postingan LLM lokal terbaik kami tahun 2026 membahas sisi penyajian lokal.

Kesalahan Umum

Ini muncul di utas masalah GitHub.

Menjalankan dengan model kecil. Model lokal 7B menghasilkan debat Bull/Bear yang berulang tanpa penyelesaian. Kerangka kerja ini membutuhkan kualitas penalaran setidaknya tingkat menengah. DeepSeek V4 Flash, Qwen 3.6 32B, GPT-5.5, dan Claude 4.5 adalah batas minimal yang realistis.

Melewatkan caching data pasar. Setiap analis memanggil lapisan data secara terpisah. Tanpa caching, Anda akan menyebarkan 4-8 permintaan vendor per eksekusi dan menghabiskan anggaran batas laju dengan cepat. Kerangka kerja ini mendukung caching; nyalakanlah.

Memperlakukan sebagai bot perdagangan. Ini adalah kode penelitian. Kinerja backtest sensitif terhadap pilihan model, prompt seed, panjang debat, dan kualitas data. Perlakukan setiap angka yang dihasilkannya sebagai hipotesis, bukan strategi.

Lupa mencatat pengeluaran token. Satu eksekusi ticker dapat berbiaya $0.10 hingga $5 tergantung model dan putaran. Catat biaya per eksekusi di riwayat putar ulang Apidog; loop tak terkendali dalam fase debat dapat menghabiskan uang sungguhan dalam hitungan menit.

Mengkode keras satu penyedia. v0.2.0 menambahkan dukungan multi-penyedia justru agar Anda dapat beralih. Gunakan itu. Jalankan batch kecil melalui tiga penyedia dan bandingkan log keputusan sebelum melakukan komitmen.

Di Mana Apidog Cocok dalam Siklus Pengembangan

Tiga tempat konkret di mana Apidog sangat berguna dalam proyek TradingAgents.

Yang pertama adalah permukaan desain. Sebelum Anda menghubungkan kerangka kerja ke vendor langsung, buat sketsa setiap endpoint data pasar di Apidog sebagai permintaan dengan contoh badan (body). Tampilan skema memaksa Anda untuk jujur tentang bidang mana yang sebenarnya digunakan oleh kerangka kerja. Banyak tim menemukan bahwa mereka membayar untuk paket Polygon yang hampir tidak mereka gunakan.

Yang kedua adalah CI lokal. Server mock Apidog menggantikan setiap vendor saat pengujian unit berjalan, sehingga rangkaian pengujian tetap di bawah lima detik dan berhenti bergantung pada jam pasar akhir pekan. Kami membahas pola yang sama persis ini dalam pengujian API tanpa Postman.

Yang ketiga adalah perbandingan regresi. Setiap eksekusi mingguan, putar ulang endpoint langsung terhadap fixture yang Anda simpan. Apidog menyoroti penggantian nama bidang dan penyimpangan bentuk. Ini adalah alarm termurah yang mungkin untuk “lapisan data rusak dan agen mulai berhalusinasi angka.”

Mengapa Ini Penting di Luar Perdagangan

TradingAgents adalah contoh sumber terbuka paling jelas tentang dekomposisi agen yang kita miliki saat ini. Pola ini dapat langsung ditransfer ke:

Triage dukungan pelanggan (agen analis per jenis tiket, debat, keputusan)
Tinjauan kode (agen keamanan, kinerja, gaya, lalu synthesizer)
Tinjauan kepatuhan (analis data, peninjau risiko, komite keputusan)
Ringkasan penelitian (beberapa pembaca spesialis, debat, sintesis)

Jika Anda merancang alur kerja agen multi-langkah, bacalah kode TradingAgents terlebih dahulu. Pemisahan peran, tahap debat, keputusan keluaran terstruktur, dan log persisten adalah pola yang dapat digunakan kembali. Mereka juga merupakan pola yang dapat diuji, yang merupakan tujuan menggabungkan kerangka kerja ini dengan Apidog.

Kasus Penggunaan Dunia Nyata

Seorang mahasiswa riset kuantitatif menggunakan TradingAgents untuk membandingkan DeepSeek V4 vs GPT-5.5 vs Claude 4.5 pada keranjang 30 ticker yang sama. Apidog menangkap setiap permintaan dan respons sehingga perbandingan dapat direproduksi.
Seorang insinyur fintech menggunakan pola multi-agen (bukan kode perdagangan) untuk menjalankan tinjauan kode pada layanan internal. Agen spesialis memeriksa keamanan, kinerja, penamaan. Sebuah synthesizer menulis komentar PR. Total biaya tinjauan per PR: sekitar $0.04.
Seorang pengembang tunggal yang menjalankan TradingAgents setiap malam pada daftar pantauan 10 ticker mencatat setiap keputusan ke Postgres untuk inspeksi nanti. Server mock Apidog menggantikan vendor data pasar langsung selama eksekusi pengujian akhir pekan.

Kesimpulan

TradingAgents adalah contoh yang berfungsi dan berarsitektur baik tentang cara membangun sistem LLM multi-agen yang menghasilkan keputusan terstruktur alih-alih obrolan. v0.2.4 membuatnya menarik untuk produksi: keluaran terstruktur, melanjutkan checkpoint, jejak audit, multi-penyedia. Semua itu tidak berarti jika Anda tidak dapat menguji lapisan LLM dan data pasar di bawahnya. Di situlah menggabungkannya dengan Apidog menjadi sangat berguna.

Lima poin penting:

TradingAgents memecah perdagangan menjadi agen spesialis dengan peran yang jelas dan fase debat.
v0.2.4 menambahkan keluaran terstruktur, checkpoint LangGraph, dan penyedia DeepSeek/Qwen/GLM/Azure.
Mock vendor data pasar di Apidog agar eksekusi pengujian bersifat deterministik.
Uji paritas penyedia LLM sebelum mengganti model dalam produksi.
Pola ini (spesialis, debat, keputusan, log) dapat ditransfer ke setiap alur kerja agen non-perdagangan yang Anda bangun.

Langkah selanjutnya: klon repo, jalankan satu ticker terhadap LLM pilihan Anda, dan salurkan panggilan upstream melalui server mock Apidog. Anda akan tahu dalam satu jam apakah kerangka kerja ini cocok dengan alur kerja Anda.

FAQ (Pertanyaan yang Sering Diajukan)

Apakah TradingAgents aman digunakan dengan uang sungguhan?

Repo ini secara eksplisit menyatakan bahwa ini adalah kode penelitian dan bukan nasihat keuangan. Perlakukan keluarannya sebagai hipotesis. Siapa pun yang menggunakannya terhadap broker langsung menanggung risiko secara pribadi; para pemelihara tidak mendukung hal itu.

Penyedia LLM mana yang memberikan trade-off biaya-kualitas terbaik?

Untuk sebagian besar beban kerja di awal tahun 2026, DeepSeek V4 Flash dengan mode berpikir mengalahkan GPT-5.5 dalam biaya dengan selisih yang lebar dan menyamainya dalam kualitas debat Bull/Bear. Lihat panduan API DeepSeek V4 kami untuk bentuk permintaannya.

Bisakah saya menjalankan TradingAgents di model lokal?

Ya. v0.2.0 menambahkan dukungan multi-penyedia; Ollama, vLLM, dan LM Studio semuanya menyediakan endpoint yang kompatibel dengan OpenAI yang digunakan oleh kerangka kerja ini. Lihat postingan LLM lokal terbaik kami tahun 2026 untuk pilihan model.

Bagaimana cara mem-mock API data pasar?

Definisikan setiap endpoint vendor di Apidog, nyalakan server mock, dan arahkan konfigurasi alat kerangka kerja ke URL mock. Pola yang sama didokumentasikan dalam alat pengujian API untuk insinyur QA.

Apa persyaratan hardware minimum untuk menjalankan ini?

Jika Anda memanggil LLM yang di-hosting (OpenAI, Anthropic, DeepSeek), laptop apa pun dengan Python 3.10+ dapat menjalankannya. Jika Anda menyajikan model lokal, hardware minimum mengikuti modelnya: GPU 24 GB menjalankan DeepSeek V4 Flash atau Qwen 3.6 32B; GPU 8 GB menjalankan Llama 5.1 8B. Kualitas menurun dengan model yang lebih kecil.

Apakah ini mendukung simulasi setelah jam kerja dan akhir pekan?

Vendor data pasar mengembalikan data historis; kerangka kerja ini dapat berjalan pada tanggal apa pun yang Anda pilih. Perdagangan langsung adalah masalah berbeda yang secara eksplisit tidak diselesaikan oleh kerangka kerja ini.

Bagaimana perbandingannya dengan kerangka kerja multi-agen lainnya?

TradingAgents dirancang khusus untuk domain perdagangan. CrewAI, AutoGen, dan LangGraph sendiri bersifat umum. Jika Anda ingin mempelajari pola ini dan menerapkannya di tempat lain, bacalah TradingAgents; jika Anda ingin membangun sistem agen generik, mulailah dengan kode LangGraph yang mendasarinya.