이 기술 분석은 알리바바 통이 연구소(Alibaba Tongyi Lab)의 ZeroSearch 프레임워크를 살펴봅니다. 이는 대규모 언어 모델(LLM)이 외부 API 호출 없이 검색과 유사한 작업을 수행할 수 있게 하는 새로운 강화 학습 접근 방식입니다. ZeroSearch는 정교한 커리큘럼 기반 훈련 방법론을 사용하여 표준 LLM을 추론 능력을 유지하면서 문서 검색을 시뮬레이션할 수 있는 시스템으로 변환합니다. 본 문서는 ZeroSearch의 아키텍처, 훈련 방법론 및 성능 특성에 대한 기술적 분석을 제공하며, 전통적인 검색 패러다임을 뒤흔들 잠재력을 강조합니다.
최대한의 생산성으로 개발팀이 함께 작업할 수 있는 통합 올인원 플랫폼을 원하십니까?
Apidog는 모든 요구 사항을 충족하며 Postman을 훨씬 저렴한 가격으로 대체합니다!
시스템 아키텍처 및 구현
ZeroSearch의 기술적 기반은 LLM이 검색 기능을 내재화하도록 훈련하기 위해 설계된 다중 구성 요소 아키텍처에 있습니다.

외부 검색 API를 LLM과 통합하는 기존 접근 방식과 달리, ZeroSearch는 여러 주요 기술 구성 요소가 포함된 자체 포함 시뮬레이션 프레임워크를 구현합니다.
시뮬레이션 LLM 선택 및 배포
이 프레임워크는 다양한 매개변수 개수(3B, 7B, 14B)의 사전 훈련된 시뮬레이션 모델을 사용하여 합성 검색 결과를 생성합니다. 이러한 모델은 LLM 추론에 최적화된 특수 서빙 프레임워크인 sglang
을 사용하여 배포됩니다. 배포 구성에는 추론 성능을 최적화하기 위한 텐서 병렬 처리 및 데이터 병렬 처리 설정이 포함됩니다.
python -m sglang.launch_server --model-path SearchSimulation_14B --host 0.0.0.0 --tp 2 --dp 2 --port 6001
텐서 병렬 처리(--tp 2
) 및 데이터 병렬 처리(--dp 2
) 설정은 시뮬레이션 단계에서 처리량을 향상시키고 지연 시간을 줄이기 위해 여러 GPU에 모델 가중치와 배치된 요청을 분할하는 분산 컴퓨팅 접근 방식을 나타냅니다.
듀얼 모드 시뮬레이션 방법론
ZeroSearch는 각각 특정 기술적 특성을 가진 두 가지 고유한 시뮬레이션 방법론을 구현합니다.
프롬프트 기반 시뮬레이션: Qwen2.5-14B-Instruct와 같은 명령어 튜닝 모델을 사용하여 특수 프롬프트 기법을 기반으로 시뮬레이션된 검색 결과를 생성합니다. 이 접근 방식은 추가적인 미세 조정 없이 명령어 튜닝 모델의 제로샷 기능을 활용합니다.
미세 조정 기반 시뮬레이션: 검색 결과 생성을 위해 특별히 지도 미세 조정을 거친 특수 모델(SearchSimulation_3B/7B/14B)을 사용합니다. 이 모델들은 관련 문서와 노이즈 생성을 포함하여 검색 엔진 출력의 분포를 모방하도록 학습합니다.
이러한 접근 방식 간의 기술적 차이는 훈련 스크립트에서 볼 수 있는 구현 매개변수에 나타납니다.
SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct
대비:
SEARCH_MODE simulate_sft SIMULATION_LLM SearchSimulation_14B
강화 학습 훈련 루프
ZeroSearch의 핵심 기술 혁신은 강화 학습(RL) 훈련 방법론에 있습니다. 이 시스템은 GRPO(Generalized Reward Policy Optimization) 및 PPO(Proximal Policy Optimization) 알고리즘을 모두 구현하며, 경험적 결과에 따르면 GRPO가 우수한 안정성 특성을 보입니다.
훈련 프로세스는 여러 기술적 매개변수에 의해 제어됩니다.
- 난이도 임계값: 커리큘럼 학습 접근 방식은 검색 작업의 점진적인 복잡성을 제어하기 위해
START_THRESHOLD
및END_THRESHOLD
매개변수를 사용합니다.
START_THRESHOLD 0.25 END_THRESHOLD 0.5
이 값들은 검색 작업의 상대적 난이도를 나타내며, 시스템은 강력한 검색 기능을 개발하기 위해 훈련 중 복잡성을 점진적으로 증가시킵니다.
- 훈련 단계 구성: 프레임워크는 RL 훈련 범위를 제어하기 위해 총 단계 수 매개변수를 사용합니다.
TOTAL_STEPS 203
이는 훈련 중에 수행되는 정책 업데이트 횟수에 해당하며, 각 단계는 시뮬레이션 환경과의 여러 배치 상호 작용을 포함합니다.
기술 구현 세부 정보
데이터 엔지니어링 파이프라인
ZeroSearch의 훈련 파이프라인은 Hugging Face의 데이터셋 저장소에서 데이터셋을 확보하는 것으로 시작됩니다. 데이터셋 구조는 시뮬레이션 훈련 및 평가에 사용되는 쿼리-문서 쌍을 포함할 가능성이 높습니다. 데이터 엔지니어링 워크플로우에는 다음이 포함됩니다.
- 데이터셋 다운로드 및 전처리:
huggingface-cli download --repo-type dataset --resume-download sunhaonlp/ZeroSearch_dataset --local-dir ZeroSearch_dataset
- 모델 체크포인트 확보:
huggingface-cli download --resume-download sunhaonlp/SearchSimulation_14B --local-dir SearchSimulation_14B
컴퓨팅 요구 사항 및 최적화
구현은 컴퓨팅 요구 사항을 관리하기 위해 여러 최적화 기술을 활용합니다.
Flash Attention 2: flash-attn
에 대한 의존성은 훈련 중 메모리 사용량을 줄이고 처리량을 늘리기 위해 최적화된 어텐션 메커니즘을 사용함을 나타냅니다.
다중 GPU 분산: 훈련 및 시뮬레이션 단계는 모두 다중 GPU 환경을 위해 설계되었으며, 성능을 최적화하기 위한 특정 병렬 처리 전략이 포함됩니다.
vLLM 통합: vLLM(v0.6.3) 사용은 시뮬레이션 모델의 효율적인 서빙을 위한 연속 배치 및 PagedAttention 구현을 시사합니다.
비교 분석: 기술 성능 지표


ZeroSearch의 기술 성능은 여러 차원에서 평가될 수 있습니다.
1. 정보 검색 효율성
Google과 같은 전통적인 검색 엔진은 역색인, PageRank 및 기타 정보 검색 알고리즘을 사용하여 관련 문서를 가져옵니다. ZeroSearch는 이 외부 검색을 내재화된 시뮬레이션으로 대체하여 근본적으로 다른 성능 특성을 갖습니다.
지연 시간 비교: 전통적인 검색 엔진은 네트워크 및 API 지연 시간에 직면하는 반면, ZeroSearch의 지연 시간은 주로 네트워크가 아닌 GPU에 의해 제한되는 모델 추론 속도에 의해 결정됩니다.
재현율-정밀도 균형: ZeroSearch의 시뮬레이션된 검색은 관련 문서 생성과 환각 위험의 균형을 맞춰야 하므로, 색인 기반 검색과 비교하여 다른 종류의 최적화 문제를 제시합니다.
2. 컴퓨팅 비용 분석
ZeroSearch의 컴퓨팅 프로필은 API 기반 접근 방식과 상당히 다릅니다.
- 훈련 컴퓨팅: 높은 RL 훈련 컴퓨팅에 대한 초기 투자 (203단계 동안 다중 GPU)
- 추론 컴퓨팅: 경량 API 호출 대비 추론 중 쿼리당 더 높은 컴퓨팅 (전체 모델 실행)
- 스토리지 요구 사항: 광범위한 문서 색인 없이도 스토리지 공간 감소
3. 모델 아키텍처 성능
저장소 문서는 시뮬레이션 모델 아키텍처 전반에 걸쳐 성능 변화를 나타냅니다.
- 14B 매개변수 시뮬레이션 모델은 더 작은 변형보다 우수합니다.
- GRPO 훈련은 PPO에 비해 우수한 안정성을 보여줍니다.
- 커리큘럼 학습 매개변수는 최종 모델 성능에 크게 영향을 미칩니다.
기술적 한계 및 연구 과제
몇 가지 기술적 한계는 지속적인 연구 과제를 제시합니다.
1. 지식 차단(Knowledge Cutoff) 제약
실시간 웹 데이터에 접근하는 API 기반 검색 시스템과 달리, ZeroSearch는 기본 LLM의 지식 차단에 의해 제한됩니다. 이는 빠르게 변화하거나 모델 훈련 후에 나타나는 정보에 대해 상당한 기술적 문제를 야기합니다.
2. 환각 완화
프레임워크는 문서 생성 중 환각을 방지하기 위한 정교한 기술을 구현해야 합니다. 창의적인 문서 합성 및 사실 정확성 간의 균형은 아키텍처에서 핵심 기술 과제를 나타냅니다.
3. 매개변수 효율성 최적화
현재 구현은 효과적인 시뮬레이션을 위해 상대적으로 큰 모델(3B-14B 매개변수)을 요구합니다. 매개변수 효율적인 아키텍처에 대한 연구는 성능을 유지하면서 컴퓨팅 요구 사항을 줄일 수 있습니다.
향후 기술 방향
ZeroSearch 아키텍처에서 몇 가지 유망한 기술 방향이 나타납니다.
1. 검색 증강 생성(Retrieval-Augmented Generation) 하이브리드 접근 방식
향후 반복에서는 특정 임계값 미만으로 신뢰도가 떨어질 때 시뮬레이션된 검색과 희소한 실제 API 호출을 결합하는 하이브리드 접근 방식을 구현할 수 있습니다. 이는 두 접근 방식의 강점을 활용하는 적응형 시스템을 만들 것입니다.
2. 도메인별 시뮬레이션 튜닝
프레임워크의 아키텍처는 특정 도메인에 대한 시뮬레이션 모델 미세 조정을 지원하여 기술 분야, 법률 문서 검색 또는 의료 정보 접근을 위한 특수 검색 기능을 잠재적으로 생성할 수 있습니다.
3. 양자화 및 최적화
GPTQ 또는 AWQ와 같은 양자화 기술 구현은 시뮬레이션 및 대상 모델 모두의 컴퓨팅 요구 사항을 줄여 엣지 장치 또는 리소스가 제한된 환경에 배포할 수 있도록 합니다.
기술 구현 코드 분석
훈련 스크립트 구현은 몇 가지 주요 아키텍처 결정을 보여줍니다.
bash train_grpo.sh NUM_GPUS_PER_NODE 4 MODEL_PATH Llama-3.2-3B DATA_PATH ZeroSearch_dataset TOTAL_STEPS 203 IP localhost SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct START_THRESHOLD 0.25 END_THRESHOLD 0.5
이 구현은 다음을 보여줍니다.
- 다중 GPU 훈련 (노드당 4개 GPU)
- 대상 모델로 Llama-3.2-3B 사용
- Qwen2.5-14B-Instruct를 사용한 프롬프트 기반 시뮬레이션
- 점진적 난이도(0.25 → 0.5)를 사용한 커리큘럼 학습
GRPO 및 PPO 구현 스크립트가 모두 존재한다는 것은 GRPO의 우수한 안정성 특성을 결정하기 전에 여러 RL 알고리즘에 걸쳐 아키텍처가 평가되었음을 시사합니다.
결론
ZeroSearch는 검색 도메인에서 중요한 기술 혁신을 나타내며, LLM이 외부 API 호출 없이 문서 검색을 시뮬레이션할 수 있도록 하는 정교한 강화 학습 아키텍처를 구현합니다. 커리큘럼 학습, 듀얼 모드 시뮬레이션 및 고급 RL 알고리즘을 활용하여, 이 프레임워크는 API 종속성을 제거하면서 실제 검색 엔진 기반 모델을 능가하는 성능을 보고합니다.
기술 아키텍처는 API 비용 제로, 향상된 개인 정보 보호 기능 및 유연한 배포 옵션을 포함한 여러 장점을 보여줍니다. 그러나 지식 차단, 환각 위험 및 컴퓨팅 효율성을 해결하는 데는 여전히 과제가 남아 있습니다.
분야가 발전함에 따라 ZeroSearch의 기술적 접근 방식은 언어 모델 내에서 검색 기능이 어떻게 내재화될 수 있는지에 대한 귀중한 통찰력을 제공하며, 잠재적으로 검색 아키텍처에 대한 우리의 이해를 재구성할 수 있습니다. 오픈 소스 구현은 추가 연구 및 최적화를 위한 기반을 제공하며, 특히 전통적인 검색 엔진이 성능이 떨어지거나 개인 정보 보호 문제를 야기할 수 있는 특정 도메인에서 유용합니다.
차세대 정보 검색 시스템에 관심이 있는 연구원 및 실무자에게 ZeroSearch는 신중한 고려와 지속적인 개발이 필요한 매력적인 기술 청사진을 제공합니다.