Ollama와 함께 Qwen 3.5 사용하는 방법

Ashley Innocent

Ashley Innocent

3 March 2026

Ollama와 함께 Qwen 3.5 사용하는 방법

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

요약

Ollama는 Mac, Linux 또는 Windows 머신에서 Qwen 3.5 소형 모델(0.8B, 2B, 4B, 9B)을 로컬에서 실행하는 가장 쉬운 방법을 제공합니다. 간단한 ollama run 명령으로 클라우드 API 비용 없이 강력한 AI 기능을 이용할 수 있습니다. Ollama를 다운로드하고 모델을 가져온 다음 5분 이내에 채팅을 시작하세요.

소개

대규모 언어 모델을 로컬에서 실행하는 것이 매우 인기를 얻고 있으며, Ollama는 이를 간단하게 만듭니다. 클라우드에 데이터를 보내거나 토큰당 요금을 지불하지 않고 Alibaba의 Qwen 3.5 모델을 사용하고 싶다면 Ollama가 정답입니다.

💡
Ollama의 API를 통해 Qwen 3.5와 같은 로컬 LLM을 호출하는 애플리케이션을 구축할 때, 응답을 테스트하고 검증할 신뢰할 수 있는 방법이 필요합니다. Apidog의 API 테스트 도구를 사용하면 Ollama API 엔드포인트에 대한 자동화된 테스트를 설정하여 응답이 올바르고 기대에 부합하는지 확인할 수 있습니다. 응답 시간, 콘텐츠 구조, 오류 처리에 대한 테스트 단언을 생성하세요. 설정을 테스트하는 방법을 알아보려면 Ollama API 섹션으로 이동하세요.
button

이 가이드는 Ollama를 사용하여 Qwen 3.5 소형 모델을 실행하는 데 필요한 모든 것을 안내합니다. 빠른 작업을 위한 소형 0.8B 모델이든 복잡한 추론을 위한 대형 9B 모델이든, 설치, 사용법 및 통합에 대해 다룰 것입니다.

Qwen 3.5에 Ollama를 사용해야 하는 이유

Ollama는 로컬 LLM 배포를 위한 최고의 솔루션이 되었습니다:

간편한 설정
복잡한 Docker 또는 Python 설정이 필요 없습니다. 앱 하나만 다운로드하면 바로 시작할 수 있습니다.

개인 정보 보호 우선
데이터는 사용자 머신에 그대로 유지됩니다. 이는 비즈니스 데이터나 민감한 정보에 중요합니다.

API 비용 없음
모델을 다운로드한 후에는 무료로 실행할 수 있습니다. 토큰당 요금이나 구독료가 없습니다.

오프라인 기능
인터넷 없이도 어디서든 AI를 사용할 수 있습니다.

하드웨어 가속
Ollama는 사용 가능한 경우 자동으로 GPU 가속을 사용하여 로컬 추론을 빠르게 만듭니다.

Ollama 설치

Mac 설치

Mac 사용자는 몇 초 만에 설치할 수 있습니다:

# Download from ollama.com or use Homebrew
brew install ollama

이것이 전부입니다. Ollama는 Apple Silicon(M1/M2/M3)을 자동으로 감지하고 Metal을 사용하여 GPU 가속을 지원합니다.

Linux 설치

Linux 서버 또는 WSL의 경우:

# Quick install
curl -fsSL https://ollama.com/install.sh | sh

Windows 설치

Windows 사용자는 설치 프로그램을 다운로드할 수 있습니다. Windows 버전은 DirectML을 통해 GPU 가속을 지원합니다.

확인

설치 후 모든 것이 제대로 작동하는지 확인합니다:

ollama --version

버전 번호가 표시될 것입니다. 이제 Qwen 모델을 가져와 봅시다.

Qwen 3.5 모델 실행

첫 번째 모델 가져오기

Ollama는 모델 다운로드를 간단하게 만듭니다:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

각 모델 다운로드는 인터넷 속도에 따라 몇 분 정도 소요됩니다. 2B 모델은 약 1.5GB이고, 9B 모델은 약 5GB입니다.

채팅 세션 시작

가져온 후 즉시 채팅을 시작합니다:

ollama run qwen3.5:9b

직접 입력할 수 있는 프롬프트가 표시됩니다:

>>> What is quantum computing in simple terms?
Quantum computing is a type of computation where...

질문을 입력하고 Enter를 누르세요. Ctrl+D를 눌러 종료합니다.

사용 가능한 모델 목록 보기

설치된 항목을 확인합니다:

ollama list

출력은 각 모델, 크기 및 마지막 사용 시간을 보여줍니다.

모델 제거

필요 없는 모델을 제거하여 디스크 공간을 확보하세요:

ollama remove qwen3.5:9b

모델 비교 및 선택

올바른 모델을 선택하는 것은 하드웨어와 사용 사례에 따라 다릅니다:

모델 매개변수 대략적인 모델 크기 (BF16, 전체 정밀도) 필요한 RAM (BF16, Unsloth 가이드) 최적 용도
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB 초경량 엣지 및 모바일: 빠른 자동 완성, 간단한 챗봇, 소형 도구, 매우 저사양 장치에서의 기본 비전/OCR.
Qwen3.5-2B 2B ~4 GB ~9 GB 경량 비서, 소형 에이전트, 기본적인 코딩 지원, 적당한 RAM을 가진 노트북에서 괜찮은 멀티모달.
Qwen3.5-4B 4B ~8 GB ~14 GB “스마트 자동 완성” 개발 도우미, 경량 에이전트, 2B보다 더 나은 추론 및 멀티모달 기능과 함께 여전히 로컬에서 쉽게 실행 가능.
Qwen3.5-9B 9B ~18 GB ~19 GB 강력한 일반 비서, 우수한 다국어 + 비전, 16–24 GB RAM/VRAM 머신에서 주요 로컬 AI로 사용 가능.

대부분의 사용자에게 권장: qwen2.5:2b로 시작하세요. 기능과 속도 면에서 최고의 균형을 제공합니다. 더 많은 추론 능력이 필요한 경우에만 4B 또는 9B로 업그레이드하세요.

개발자를 위한 Ollama API

Ollama는 애플리케이션이 호출할 수 있는 로컬 API 서버를 실행합니다. 이는 Qwen 3.5를 프로젝트에 통합하는 데 완벽합니다.

API 서버 시작

Ollama는 기본적으로 백그라운드 서비스로 실행됩니다. API는 다음에서 사용할 수 있습니다:

http://localhost:11434

기본 채팅 완성

채팅 엔드포인트로 요청을 보냅니다:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "What is Python?"}
    ],
    "stream": false
  }'

응답:

스트리밍 응답

실시간 출력을 위해 스트리밍을 활성화하세요:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Count to 5"}],
    "stream": true
  }'

이는 토큰이 생성되는 즉시 스트리밍합니다.

생성 엔드포인트

채팅이 아닌 프롬프트의 경우:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Write a haiku about coding",
    "stream": false
  }'

애플리케이션 통합

Python 통합

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explain recursion"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

JavaScript/Node.js 통합

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'What is an API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Apidog으로 통합 테스트

Ollama를 호출하는 애플리케이션을 구축할 때, API 테스트 도구를 사용하여 응답을 검증하세요. 다음은 Apidog으로 Ollama API를 테스트하는 방법입니다:

  1. http://localhost:11434/api/chat로 새 POST 요청을 생성합니다.
  2. Content-Type을 application/json으로 설정합니다.
  3. 요청 본문을 추가합니다:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Hello"}],
  "stream": false
}

Apidog을 사용하면 응답 품질을 검증하고, 다양한 프롬프트를 테스트하며, 로컬 LLM 엔드포인트를 모니터링하는 자동화된 테스트 케이스를 생성할 수 있습니다. 이를 통해 프로덕션 환경에서 통합이 안정적으로 작동하도록 보장합니다.

성능 및 하드웨어 요구사항

GPU 가속

Ollama는 사용 가능한 경우 자동으로 GPU를 사용합니다:

예상 성능

모델 GPU 초당 토큰 수 (대략)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

CPU 전용 추론은 훨씬 더 느릴 것입니다 (5-10배).

메모리 요구사항

모델별 최소 RAM:

최소 RAM보다 많은 RAM을 확보하면 응답성에 도움이 됩니다.

일반적인 문제 해결

"Ollama를 찾을 수 없습니다"

Ollama가 PATH에 있는지 확인하세요. Mac/Linux에서는 설치 후 터미널을 다시 시작하세요.

느린 성능

  1. GPU가 사용 중인지 확인: ollama list는 모델 정보를 보여줍니다.
  2. CPU 전용의 경우: 속도가 느려질 수 있습니다.
  3. 다른 GPU 애플리케이션을 닫으세요.

모델 다운로드 실패

더 빠른 인터넷으로 다시 시도하세요. VPN을 사용하는 경우 VPN 없이 시도해 보세요.

API 연결 거부됨

Ollama가 실행 중인지 확인하세요: ollama serve (일반적으로 자동으로 실행됩니다).

메모리 부족

더 작은 모델을 사용하세요. 9B 모델은 상당한 RAM이 필요합니다. 다른 애플리케이션을 닫으세요.

결론

Ollama는 Qwen 3.5 모델을 로컬에서 간단하게 실행할 수 있게 해줍니다. AI 애플리케이션을 구축하는 개발자이든, 단순히 로컬 LLM을 실험하고 싶은 사용자이든, 이 과정은 몇 시간이 아닌 몇 분이면 충분합니다.

Qwen 3.5의 강력한 다국어 기능과 Ollama의 간단한 인터페이스가 결합되어, 로컬 AI를 시작하는 가장 쉬운 방법 중 하나가 됩니다.

다음 단계: Ollama API를 설정한 후 Apidog을 사용하여 응답 품질을 검증하고, 다양한 프롬프트를 테스트하며, 로컬 LLM 엔드포인트를 모니터링하는 자동화된 테스트 케이스를 생성하세요. Apidog을 무료로 시작하세요.

button

FAQ

Ollama와 다른 배포 방법의 차이점은 무엇인가요?

Ollama는 단순함을 위해 설계되었습니다. Docker나 수동 모델 배포와 달리, 모델 다운로드, GPU 가속, API 서비스 등 모든 것을 간단한 명령으로 처리합니다.

다른 Qwen 모델과 Ollama를 함께 사용할 수 있나요?

네, Ollama는 다양한 모델을 지원합니다. 전체 목록은 ollama.com/library에서 확인하세요.

Ollama에서 Qwen 모델을 어떻게 업데이트하나요?

최신 버전을 가져오세요: ollama pull qwen2.5:2b. 이는 사용 가능한 경우 업데이트를 다운로드합니다.

여러 모델을 동시에 실행할 수 있나요?

네, 하지만 각 모델은 메모리를 사용합니다. 대부분의 시스템은 1-2개의 모델을 동시에 실행할 수 있습니다.

Ollama를 사용하면 데이터가 안전한가요?

네. 모든 것이 로컬에서 실행됩니다. 외부 서버로 데이터가 전송되지 않습니다.

Ollama를 사용하여 Qwen 모델을 미세 조정할 수 있나요?

Ollama는 추론 전용입니다. 미세 조정을 위해서는 LoRA 어댑터와 같은 다른 도구가 필요합니다.

Ollama가 사용하는 포트를 어떻게 변경하나요?

실행하기 전에 OLLAMA_HOST 환경 변수를 설정하세요: export OLLAMA_HOST=0.0.0.0:8080

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요