Analisis teknis ini mengkaji kerangka kerja ZeroSearch dari Alibaba Tongyi Lab, sebuah pendekatan pembelajaran penguatan (reinforcement learning) baru yang memungkinkan model bahasa besar (LLM) untuk melakukan operasi mirip pencarian tanpa panggilan API eksternal. Dengan menggunakan metodologi pelatihan berbasis kurikulum yang canggih, ZeroSearch mengubah LLM standar menjadi sistem yang mampu mensimulasikan pengambilan dokumen sambil mempertahankan kemampuan penalaran. Makalah ini memberikan rincian teknis arsitektur ZeroSearch, metodologi pelatihan, dan karakteristik kinerja, menyoroti potensinya untuk mengganggu paradigma pencarian tradisional.
Ingin platform Terintegrasi, All-in-One untuk Tim Developer Anda agar dapat bekerja sama dengan produktivitas maksimum?
Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
Arsitektur Sistem dan Implementasi
Fondasi teknis ZeroSearch bertumpu pada arsitektur multi-komponen yang dirancang untuk melatih LLM agar menginternalisasi kemampuan pengambilan.

Tidak seperti pendekatan konvensional yang mengintegrasikan API pencarian eksternal dengan LLM, ZeroSearch mengimplementasikan kerangka kerja simulasi mandiri dengan beberapa komponen teknis utama:
Pemilihan dan Penyebaran LLM Simulasi
Kerangka kerja ini menggunakan model simulasi pra-terlatih dengan jumlah parameter bervariasi (3B, 7B, dan 14B) untuk menghasilkan hasil pencarian sintetis. Model-model ini disebarkan menggunakan sglang
, kerangka kerja penyajian khusus yang dioptimalkan untuk inferensi LLM. Konfigurasi penyebaran mencakup pengaturan paralelisme tensor dan paralelisme data untuk mengoptimalkan kinerja inferensi:
python -m sglang.launch_server --model-path SearchSimulation_14B --host 0.0.0.0 --tp 2 --dp 2 --port 6001
Pengaturan paralelisme tensor (--tp 2
) dan paralelisme data (--dp 2
) menunjukkan pendekatan komputasi terdistribusi yang membagi bobot model dan permintaan batch di beberapa GPU, meningkatkan throughput dan mengurangi latensi selama fase simulasi.
Metodologi Simulasi Mode Ganda
ZeroSearch mengimplementasikan dua metodologi simulasi yang berbeda, masing-masing dengan karakteristik teknis spesifik:
Simulasi Berbasis Prompt: Menggunakan model yang disetel instruksi seperti Qwen2.5-14B-Instruct untuk menghasilkan hasil pencarian yang disimulasikan berdasarkan teknik prompting khusus. Pendekatan ini memanfaatkan kemampuan zero-shot dari model yang disetel instruksi tanpa memerlukan fine-tuning tambahan.
Simulasi Berbasis Fine-Tuning: Menggunakan model khusus (SearchSimulation_3B/7B/14B) yang telah menjalani fine-tuning terawasi khusus untuk pembuatan hasil pencarian. Model-model ini belajar meniru distribusi output mesin pencari, termasuk pembuatan dokumen yang relevan dan noise.
Perbedaan teknis antara pendekatan ini terlihat pada parameter implementasi seperti yang terlihat dalam skrip pelatihan:
SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct
berlawanan dengan:
SEARCH_MODE simulate_sft SIMULATION_LLM SearchSimulation_14B
Loop Pelatihan Pembelajaran Penguatan
Inovasi teknis inti ZeroSearch terletak pada metodologi pelatihan pembelajaran penguatan (RL). Sistem ini mengimplementasikan algoritma Generalized Reward Policy Optimization (GRPO) dan Proximal Policy Optimization (PPO), dengan GRPO menunjukkan karakteristik stabilitas yang unggul menurut hasil empiris.
Proses pelatihan diatur oleh beberapa parameter teknis:
- Ambang Kesulitan: Pendekatan pembelajaran kurikulum menggunakan parameter
START_THRESHOLD
danEND_THRESHOLD
untuk mengontrol kompleksitas tugas pengambilan secara progresif:
START_THRESHOLD 0.25 END_THRESHOLD 0.5
Nilai-nilai ini mewakili kesulitan relatif tugas pengambilan, dengan sistem secara bertahap meningkatkan kompleksitas selama pelatihan untuk mengembangkan kemampuan pencarian yang kuat.
- Konfigurasi Langkah Pelatihan: Kerangka kerja ini menggunakan parameter jumlah langkah total untuk mengontrol sejauh mana pelatihan RL:
TOTAL_STEPS 203
Ini sesuai dengan jumlah pembaruan kebijakan yang dilakukan selama pelatihan, dengan setiap langkah melibatkan beberapa interaksi batch dengan lingkungan simulasi.
Detail Implementasi Teknis
Pipeline Rekayasa Data
Pipeline pelatihan ZeroSearch dimulai dengan akuisisi dataset dari repositori dataset Hugging Face. Struktur dataset kemungkinan berisi pasangan kueri-dokumen yang digunakan untuk pelatihan dan evaluasi simulasi. Alur kerja rekayasa data meliputi:
- Pengunduhan dan pra-pemrosesan dataset:
huggingface-cli download --repo-type dataset --resume-download sunhaonlp/ZeroSearch_dataset --local-dir ZeroSearch_dataset
- Akuisisi checkpoint model:
huggingface-cli download --resume-download sunhaonlp/SearchSimulation_14B --local-dir SearchSimulation_14B
Persyaratan Komputasi dan Optimasi
Implementasi ini memanfaatkan beberapa teknik optimasi untuk mengelola tuntutan komputasi:
Flash Attention 2: Ketergantungan pada flash-attn
menunjukkan penggunaan mekanisme perhatian yang dioptimalkan untuk mengurangi penggunaan memori dan meningkatkan throughput selama pelatihan.
Distribusi Multi-GPU: Baik fase pelatihan maupun simulasi dirancang untuk lingkungan multi-GPU, dengan strategi paralelisme spesifik untuk mengoptimalkan kinerja.
Integrasi vLLM: Penggunaan vLLM (v0.6.3) menunjukkan implementasi batching berkelanjutan dan PagedAttention untuk penyajian model simulasi yang efisien.
Analisis Komparatif: Metrik Kinerja Teknis


Kinerja teknis ZeroSearch dapat dievaluasi di beberapa dimensi:
1. Efisiensi Pengambilan Informasi
Mesin pencari tradisional seperti Google menggunakan indeks terbalik, PageRank, dan algoritma pengambilan informasi lainnya untuk mengambil dokumen yang relevan. ZeroSearch menggantikan pengambilan eksternal ini dengan simulasi internal, menghasilkan karakteristik kinerja yang fundamental berbeda:
Perbandingan Latensi: Sementara mesin pencari tradisional menghadapi latensi jaringan dan API, latensi ZeroSearch ditentukan oleh kecepatan inferensi model, yang terutama terikat pada GPU daripada terikat pada jaringan.
Tradeoff Recall-Presisi: Pengambilan simulasi ZeroSearch harus menyeimbangkan pembuatan dokumen yang relevan dengan risiko halusinasi, menyajikan serangkaian tantangan optimasi yang berbeda dibandingkan dengan pengambilan berbasis indeks.
2. Analisis Biaya Komputasi
Profil komputasi ZeroSearch berbeda secara substansial dari pendekatan berbasis API:
- Komputasi Pelatihan: Investasi awal dalam komputasi pelatihan RL yang tinggi (beberapa GPU untuk 203 langkah)
- Komputasi Inferensi: Komputasi per-kueri yang lebih tinggi selama inferensi (eksekusi model penuh) vs. panggilan API ringan
- Persyaratan Penyimpanan: Jejak penyimpanan yang berkurang tanpa memerlukan indeks dokumen yang ekstensif
3. Kinerja Arsitektur Model
Dokumentasi repositori menunjukkan variasi kinerja di seluruh arsitektur model simulasi:
- Model simulasi parameter 14B mengungguli varian yang lebih kecil
- Pelatihan GRPO menunjukkan stabilitas yang unggul dibandingkan dengan PPO
- Parameter pembelajaran kurikulum secara signifikan memengaruhi kinerja model akhir
Keterbatasan Teknis dan Tantangan Penelitian
Beberapa keterbatasan teknis menghadirkan tantangan penelitian yang berkelanjutan:
1. Kendala Batas Pengetahuan
Tidak seperti sistem pengambilan berbasis API yang mengakses data web real-time, ZeroSearch dibatasi oleh batas pengetahuan LLM dasarnya. Ini menghadirkan tantangan teknis yang signifikan untuk informasi yang berubah dengan cepat atau muncul setelah pelatihan model.
2. Mitigasi Halusinasi
Kerangka kerja ini harus mengimplementasikan teknik canggih untuk mencegah halusinasi selama pembuatan dokumen. Keseimbangan antara sintesis dokumen kreatif dan akurasi faktual merupakan tantangan teknis utama dalam arsitektur.
3. Optimasi Efisiensi Parameter
Implementasi saat ini memerlukan model yang relatif besar (parameter 3B-14B) untuk simulasi yang efektif. Penelitian tentang arsitektur yang efisien parameter dapat mengurangi persyaratan komputasi sambil mempertahankan kinerja.
Arah Teknis Masa Depan
Beberapa arah teknis yang menjanjikan muncul dari arsitektur ZeroSearch:
1. Pendekatan Hibrida Generasi yang Ditingkatkan Pengambilan
Iterasi di masa mendatang dapat mengimplementasikan pendekatan hibrida yang menggabungkan pengambilan simulasi dengan panggilan API nyata yang jarang ketika kepercayaan turun di bawah ambang batas tertentu. Ini akan menciptakan sistem adaptif yang memanfaatkan kekuatan kedua pendekatan.
2. Penyetelan Simulasi Khusus Domain
Arsitektur kerangka kerja ini mendukung fine-tuning model simulasi untuk domain spesifik, berpotensi menciptakan kemampuan pencarian khusus untuk bidang teknis, pengambilan dokumen hukum, atau akses informasi medis.
3. Kuantisasi dan Optimasi
Implementasi teknik kuantisasi seperti GPTQ atau AWQ dapat mengurangi persyaratan komputasi baik untuk model simulasi maupun target, memungkinkan penyebaran pada perangkat edge atau lingkungan dengan sumber daya terbatas.
Analisis Kode Implementasi Teknis
Implementasi skrip pelatihan mengungkapkan beberapa keputusan arsitektur utama:
bash train_grpo.sh NUM_GPUS_PER_NODE 4 MODEL_PATH Llama-3.2-3B DATA_PATH ZeroSearch_dataset TOTAL_STEPS 203 IP localhost SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct START_THRESHOLD 0.25 END_THRESHOLD 0.5
Implementasi ini menunjukkan:
- Pelatihan multi-GPU (4 GPU per node)
- Penggunaan Llama-3.2-3B sebagai model target
- Simulasi berbasis prompt menggunakan Qwen2.5-14B-Instruct
- Pembelajaran kurikulum dengan kesulitan progresif (0.25 → 0.5)
Keberadaan skrip implementasi GRPO dan PPO menunjukkan bahwa arsitektur dievaluasi di beberapa algoritma RL sebelum menentukan karakteristik stabilitas GRPO yang unggul.
Kesimpulan
ZeroSearch mewakili inovasi teknis yang signifikan dalam domain pencarian, mengimplementasikan arsitektur pembelajaran penguatan yang canggih yang memungkinkan LLM untuk mensimulasikan pengambilan dokumen tanpa panggilan API eksternal. Dengan memanfaatkan pembelajaran kurikulum, simulasi mode ganda, dan algoritma RL canggih, kerangka kerja ini mencapai kinerja yang dilaporkan melampaui model berbasis mesin pencari nyata sambil menghilangkan ketergantungan API.
Arsitektur teknis menunjukkan beberapa keunggulan, termasuk biaya API nol, kemampuan privasi yang ditingkatkan, dan opsi penyebaran yang fleksibel. Namun, tantangan tetap ada dalam mengatasi batas pengetahuan, risiko halusinasi, dan efisiensi komputasi.
Seiring berkembangnya bidang ini, pendekatan teknis ZeroSearch menawarkan wawasan berharga tentang bagaimana kemampuan pengambilan dapat diinternalisasi dalam model bahasa, berpotensi membentuk kembali pemahaman kita tentang arsitektur pencarian. Implementasi sumber terbuka menyediakan fondasi untuk penelitian dan optimasi lebih lanjut, terutama dalam domain khusus di mana mesin pencari tradisional mungkin berkinerja buruk atau menimbulkan kekhawatiran privasi.
Bagi peneliti dan praktisi yang tertarik pada sistem pengambilan informasi generasi berikutnya, ZeroSearch menawarkan cetak biru teknis yang menarik yang patut dipertimbangkan dengan cermat dan terus dikembangkan.