Phân tích kỹ thuật này xem xét framework ZeroSearch của Alibaba Tongyi Lab, một phương pháp học tăng cường mới cho phép các mô hình ngôn ngữ lớn (LLMs) thực hiện các thao tác giống như tìm kiếm mà không cần gọi API bên ngoài. Bằng cách sử dụng một phương pháp huấn luyện dựa trên chương trình học tinh vi, ZeroSearch biến các LLM tiêu chuẩn thành các hệ thống có khả năng mô phỏng việc truy xuất tài liệu trong khi vẫn duy trì khả năng suy luận. Bài viết này cung cấp phân tích kỹ thuật chi tiết về kiến trúc, phương pháp huấn luyện và đặc điểm hiệu suất của ZeroSearch, làm nổi bật tiềm năng phá vỡ các mô hình tìm kiếm truyền thống của nó.
Bạn muốn một nền tảng tích hợp, Tất cả trong Một để Đội ngũ Phát triển của bạn làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi yêu cầu của bạn và thay thế Postman với mức giá phải chăng hơn nhiều!
Kiến trúc Hệ thống và Triển khai
Nền tảng kỹ thuật của ZeroSearch dựa trên kiến trúc đa thành phần được thiết kế để huấn luyện các LLM nội hóa khả năng truy xuất.

Không giống như các phương pháp thông thường tích hợp API tìm kiếm bên ngoài với LLMs, ZeroSearch triển khai một framework mô phỏng khép kín với một số thành phần kỹ thuật chính:
Lựa chọn và Triển khai LLM Mô phỏng
Framework sử dụng các mô hình mô phỏng được huấn luyện trước với số lượng tham số khác nhau (3B, 7B và 14B) để tạo ra kết quả tìm kiếm tổng hợp. Các mô hình này được triển khai bằng sglang
, một framework phục vụ chuyên biệt được tối ưu hóa cho suy luận LLM. Cấu hình triển khai bao gồm các cài đặt song song tensor (tensor parallelism) và song song dữ liệu (data parallelism) để tối ưu hóa hiệu suất suy luận:
python -m sglang.launch_server --model-path SearchSimulation_14B --host 0.0.0.0 --tp 2 --dp 2 --port 6001
Các cài đặt song song tensor (--tp 2
) và song song dữ liệu (--dp 2
) chỉ ra một phương pháp tính toán phân tán chia trọng số mô hình và các yêu cầu theo lô (batched requests) trên nhiều GPU, tăng thông lượng và giảm độ trễ trong giai đoạn mô phỏng.
Phương pháp Mô phỏng Chế độ Kép
ZeroSearch triển khai hai phương pháp mô phỏng riêng biệt, mỗi phương pháp có đặc điểm kỹ thuật cụ thể:
Mô phỏng Dựa trên Prompt: Sử dụng các mô hình được điều chỉnh theo hướng dẫn (instruction-tuned) như Qwen2.5-14B-Instruct để tạo ra kết quả tìm kiếm mô phỏng dựa trên các kỹ thuật prompt chuyên biệt. Phương pháp này tận dụng khả năng zero-shot của các mô hình được điều chỉnh theo hướng dẫn mà không yêu cầu tinh chỉnh bổ sung.
Mô phỏng Dựa trên Tinh chỉnh: Sử dụng các mô hình chuyên biệt (SearchSimulation_3B/7B/14B) đã trải qua quá trình tinh chỉnh có giám sát (supervised fine-tuning) đặc biệt cho việc tạo kết quả tìm kiếm. Các mô hình này học cách bắt chước phân phối đầu ra của công cụ tìm kiếm, bao gồm việc tạo ra cả tài liệu liên quan và nhiễu.
Sự khác biệt kỹ thuật giữa các phương pháp này thể hiện ở các tham số triển khai như thấy trong các script huấn luyện:
SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct
so với:
SEARCH_MODE simulate_sft SIMULATION_LLM SearchSimulation_14B
Vòng lặp Huấn luyện Học tăng cường
Đổi mới kỹ thuật cốt lõi của ZeroSearch nằm ở phương pháp huấn luyện học tăng cường (RL) của nó. Hệ thống triển khai cả thuật toán Tối ưu hóa Chính sách Phần thưởng Tổng quát (GRPO) và Tối ưu hóa Chính sách Gần đúng (PPO), với GRPO thể hiện đặc tính ổn định vượt trội theo kết quả thực nghiệm.
Quá trình huấn luyện được điều chỉnh bởi một số tham số kỹ thuật:
- Ngưỡng Khó: Phương pháp học theo chương trình sử dụng các tham số
START_THRESHOLD
vàEND_THRESHOLD
để kiểm soát độ phức tạp tăng dần của các tác vụ truy xuất:
START_THRESHOLD 0.25 END_THRESHOLD 0.5
Các giá trị này đại diện cho độ khó tương đối của các tác vụ truy xuất, với hệ thống dần dần tăng độ phức tạp trong quá trình huấn luyện để phát triển khả năng tìm kiếm mạnh mẽ.
- Cấu hình Số bước Huấn luyện: Framework sử dụng tham số tổng số bước để kiểm soát phạm vi huấn luyện RL:
TOTAL_STEPS 203
Điều này tương ứng với số lần cập nhật chính sách được thực hiện trong quá trình huấn luyện, với mỗi bước bao gồm nhiều tương tác theo lô (batch interactions) với môi trường mô phỏng.
Chi tiết Triển khai Kỹ thuật
Quy trình Kỹ thuật Dữ liệu
Quy trình huấn luyện của ZeroSearch bắt đầu bằng việc thu thập tập dữ liệu từ kho tập dữ liệu của Hugging Face. Cấu trúc tập dữ liệu có khả năng chứa các cặp truy vấn-tài liệu được sử dụng cho cả huấn luyện mô phỏng và đánh giá. Quy trình kỹ thuật dữ liệu bao gồm:
- Tải xuống và tiền xử lý tập dữ liệu:
huggingface-cli download --repo-type dataset --resume-download sunhaonlp/ZeroSearch_dataset --local-dir ZeroSearch_dataset
- Thu thập checkpoint mô hình:
huggingface-cli download --resume-download sunhaonlp/SearchSimulation_14B --local-dir SearchSimulation_14B
Yêu cầu Tính toán và Tối ưu hóa
Việc triển khai tận dụng một số kỹ thuật tối ưu hóa để quản lý các yêu cầu tính toán:
Flash Attention 2: Sự phụ thuộc vào flash-attn
chỉ ra việc sử dụng các cơ chế attention được tối ưu hóa để giảm mức sử dụng bộ nhớ và tăng thông lượng trong quá trình huấn luyện.
Phân phối Đa GPU: Cả giai đoạn huấn luyện và mô phỏng đều được thiết kế cho môi trường đa GPU, với các chiến lược song song cụ thể để tối ưu hóa hiệu suất.
Tích hợp vLLM: Việc sử dụng vLLM (v0.6.3) cho thấy việc triển khai continuous batching và PagedAttention để phục vụ các mô hình mô phỏng một cách hiệu quả.
Phân tích So sánh: Các Chỉ số Hiệu suất Kỹ thuật


Hiệu suất kỹ thuật của ZeroSearch có thể được đánh giá trên một số khía cạnh:
1. Hiệu quả Truy xuất Thông tin
Các công cụ tìm kiếm truyền thống như Google sử dụng chỉ mục đảo ngược (inverted indices), PageRank và các thuật toán truy xuất thông tin khác để tìm nạp các tài liệu liên quan. ZeroSearch thay thế việc truy xuất bên ngoài này bằng một mô phỏng nội hóa, dẫn đến các đặc điểm hiệu suất khác biệt cơ bản:
So sánh Độ trễ: Trong khi các công cụ tìm kiếm truyền thống đối mặt với độ trễ mạng và API, độ trễ của ZeroSearch được xác định bởi tốc độ suy luận của mô hình, chủ yếu bị giới hạn bởi GPU chứ không phải mạng.
Sự đánh đổi giữa Recall và Precision: Việc truy xuất mô phỏng của ZeroSearch phải cân bằng giữa việc tạo ra các tài liệu liên quan và rủi ro ảo giác (hallucination), đưa ra một tập hợp các thách thức tối ưu hóa khác so với truy xuất dựa trên chỉ mục.
2. Phân tích Chi phí Tính toán
Hồ sơ tính toán của ZeroSearch khác biệt đáng kể so với các phương pháp dựa trên API:
- Tính toán Huấn luyện: Đầu tư ban đầu vào tính toán huấn luyện RL cao (nhiều GPU cho 203 bước)
- Tính toán Suy luận: Tính toán trên mỗi truy vấn cao hơn trong quá trình suy luận (thực thi mô hình đầy đủ) so với các lệnh gọi API nhẹ
- Yêu cầu Lưu trữ: Giảm dung lượng lưu trữ mà không cần các chỉ mục tài liệu mở rộng
3. Hiệu suất Kiến trúc Mô hình
Tài liệu kho lưu trữ chỉ ra sự thay đổi hiệu suất trên các kiến trúc mô hình mô phỏng:
- Các mô hình mô phỏng tham số 14B hoạt động tốt hơn các biến thể nhỏ hơn
- Huấn luyện GRPO thể hiện sự ổn định vượt trội so với PPO
- Các tham số học theo chương trình ảnh hưởng đáng kể đến hiệu suất mô hình cuối cùng
Các Hạn chế Kỹ thuật và Thách thức Nghiên cứu
Một số hạn chế kỹ thuật đặt ra những thách thức nghiên cứu liên tục:
1. Hạn chế về Giới hạn Kiến thức
Không giống như các hệ thống truy xuất dựa trên API truy cập dữ liệu web thời gian thực, ZeroSearch bị hạn chế bởi giới hạn kiến thức (knowledge cutoff) của các LLM cơ bản của nó. Điều này đặt ra những thách thức kỹ thuật đáng kể đối với thông tin thay đổi nhanh chóng hoặc xuất hiện sau khi huấn luyện mô hình.
2. Giảm thiểu Ảo giác (Hallucination)
Framework phải triển khai các kỹ thuật tinh vi để ngăn chặn ảo giác trong quá trình tạo tài liệu. Sự cân bằng giữa tổng hợp tài liệu sáng tạo và độ chính xác thực tế đại diện cho một thách thức kỹ thuật chính trong kiến trúc.
3. Tối ưu hóa Hiệu quả Tham số
Việc triển khai hiện tại yêu cầu các mô hình tương đối lớn (tham số 3B-14B) để mô phỏng hiệu quả. Nghiên cứu về các kiến trúc hiệu quả tham số có thể giảm yêu cầu tính toán trong khi vẫn duy trì hiệu suất.
Các Hướng Kỹ thuật Tương lai
Một số hướng kỹ thuật đầy hứa hẹn xuất hiện từ kiến trúc ZeroSearch:
1. Các Phương pháp Lai Tăng cường Truy xuất-Tạo (Retrieval-Augmented Generation Hybrid Approaches)
Các phiên bản tương lai có thể triển khai các phương pháp lai kết hợp truy xuất mô phỏng với các lệnh gọi API thực tế thưa thớt khi độ tin cậy giảm xuống dưới các ngưỡng nhất định. Điều này sẽ tạo ra một hệ thống thích ứng tận dụng thế mạnh của cả hai phương pháp.
2. Tinh chỉnh Mô phỏng Chuyên biệt theo Lĩnh vực
Kiến trúc của framework hỗ trợ tinh chỉnh các mô hình mô phỏng cho các lĩnh vực cụ thể, có khả năng tạo ra các khả năng tìm kiếm chuyên biệt cho các lĩnh vực kỹ thuật, truy xuất tài liệu pháp lý hoặc truy cập thông tin y tế.
3. Lượng tử hóa và Tối ưu hóa
Việc triển khai các kỹ thuật lượng tử hóa như GPTQ hoặc AWQ có thể giảm yêu cầu tính toán của cả mô hình mô phỏng và mô hình mục tiêu, cho phép triển khai trên các thiết bị biên hoặc môi trường hạn chế tài nguyên.
Phân tích Mã Triển khai Kỹ thuật
Việc triển khai script huấn luyện cho thấy một số quyết định kiến trúc chính:
bash train_grpo.sh NUM_GPUS_PER_NODE 4 MODEL_PATH Llama-3.2-3B DATA_PATH ZeroSearch_dataset TOTAL_STEPS 203 IP localhost SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct START_THRESHOLD 0.25 END_THRESHOLD 0.5
Việc triển khai này thể hiện:
- Huấn luyện đa GPU (4 GPU trên mỗi node)
- Sử dụng Llama-3.2-3B làm mô hình mục tiêu
- Mô phỏng dựa trên prompt sử dụng Qwen2.5-14B-Instruct
- Học theo chương trình với độ khó tăng dần (0.25 → 0.5)
Sự hiện diện của cả script triển khai GRPO và PPO cho thấy kiến trúc đã được đánh giá trên nhiều thuật toán RL trước khi xác định đặc tính ổn định vượt trội của GRPO.
Kết luận
ZeroSearch đại diện cho một đổi mới kỹ thuật đáng kể trong lĩnh vực tìm kiếm, triển khai một kiến trúc học tăng cường tinh vi cho phép các LLM mô phỏng việc truy xuất tài liệu mà không cần gọi API bên ngoài. Bằng cách tận dụng học theo chương trình, mô phỏng chế độ kép và các thuật thuật toán RL tiên tiến, framework đạt được hiệu suất được báo cáo là vượt trội so với các mô hình dựa trên công cụ tìm kiếm thực tế trong khi loại bỏ sự phụ thuộc vào API.
Kiến trúc kỹ thuật thể hiện một số ưu điểm, bao gồm chi phí API bằng không, khả năng bảo mật nâng cao và các tùy chọn triển khai linh hoạt. Tuy nhiên, vẫn còn những thách thức trong việc giải quyết giới hạn kiến thức, rủi ro ảo giác và hiệu quả tính toán.
Khi lĩnh vực này phát triển, phương pháp kỹ thuật của ZeroSearch mang lại những hiểu biết có giá trị về cách các khả năng truy xuất có thể được nội hóa trong các mô hình ngôn ngữ, có khả năng định hình lại sự hiểu biết của chúng ta về kiến trúc tìm kiếm. Việc triển khai mã nguồn mở cung cấp nền tảng cho nghiên cứu và tối ưu hóa sâu hơn, đặc biệt trong các lĩnh vực chuyên biệt nơi các công cụ tìm kiếm truyền thống có thể hoạt động kém hiệu quả hoặc gây lo ngại về quyền riêng tư.
Đối với các nhà nghiên cứu và chuyên gia quan tâm đến các hệ thống truy xuất thông tin thế hệ tiếp theo, ZeroSearch cung cấp một bản thiết kế kỹ thuật hấp dẫn đáng được xem xét kỹ lưỡng và tiếp tục phát triển.