AI 모델 로컬 실행 vs. API 사용: 무엇을 선택해야 할까요?

요약

로컬 AI는 사용자의 하드웨어에서 실행되며, 요청당 비용이 들지 않고 데이터를 비공개로 유지합니다. API 기반 AI는 시작이 빠르고, 더 강력하며, 인프라 없이도 확장됩니다. 대부분의 팀은 이 둘 모두가 필요합니다. 이 가이드는 각 접근 방식이 언제 유리한지 구체적인 수치와 함께 설명합니다.

서론

아이폰에서 기본으로 실행되는 Gemma 4. API 키 없이 전체 언어 모델을 내장한 브라우저 확장 프로그램. 이런 것들은 18개월 전에는 불가능했습니다. 오늘날에는 HackerNews에 소개되고 있습니다.

과거에는 결정이 간단했습니다: 최첨단 모델은 API로만 제공되며, 다른 모든 것은 너무 약해서 중요하지 않았습니다. 하지만 이제는 바뀌었습니다. Qwen2.5-72B, Gemma 4, DeepSeek-V3와 같은 로컬 모델들은 이제 실제 벤치마크에서 경쟁하고 있습니다. 이전에는 OpenAI API를 기본으로 사용했던 개발자들이 특히 개인 정보 보호에 민감한 애플리케이션이나 토큰당 비용이 빠르게 증가하는 대용량 작업의 경우 재고하고 있습니다.

이 글은 마케팅을 넘어섭니다. 비용, 지연 시간, 기능에 대한 구체적인 수치를 제공하여 사용 사례에 맞는 올바른 결정을 내릴 수 있도록 돕습니다.

💡

모델이 로컬이든 클라우드든 상관없이 AI API 통합을 테스트하는 경우, Apidog의 테스트 시나리오(Test Scenarios)는 둘 다 작동합니다. 로컬 llama-server 엔드포인트나 OpenAI의 /v1/chat/completions를 가리켜 동일한 어설션을 실행할 수 있습니다. 자세한 내용은 나중에 다루겠습니다. 기본 테스트 접근 방식에 대해서는 [internal: api-testing-tutorial]을 참조하세요.

버튼

"로컬에서 AI 실행"의 실제 의미

로컬 AI는 한 가지가 아닙니다. 세 가지 distinct한 설정이 있습니다:

온디바이스 추론 (On-device inference): 모델이 서버 없이 장치에서 완전히 실행됩니다. 브라우저 탭의 Gemma Gem, 아이폰의 뉴럴 엔진(Neural Engine)에서 실행되는 Gemma 4, 또는 MacBook의 Ollama 모델이 이에 해당합니다. 다운로드 후에는 인터넷이 필요 없습니다.

자체 호스팅 서버 (Self-hosted server): 사용자 자신의 하드웨어(워크스테이션, 제어하는 클라우드 VM 또는 온프레미스 서버)에서 모델을 실행하고 API를 노출합니다. 모델은 최종 사용자의 장치에서 실행되지 않지만 OpenAI에 있는 것도 아닙니다. llama-server, Ollama, vLLM과 같은 도구들이 이를 처리합니다.

프라이빗 클라우드 (Private cloud): 사용자 자신의 클라우드 인프라(AWS Bedrock 사용자 정의 모델, Azure 프라이빗 엔드포인트, GCP Vertex AI 사용자 정의 모델)에 모델을 배포합니다. 공용 API보다 더 많은 제어가 가능하며, 완전한 자체 호스팅보다 번거로움이 적습니다.

이 글의 비교는 대부분의 개발자가 직면하는 결정이므로 자체 호스팅 대 공용 API에 초점을 맞춥니다.

비용 비교

이 부분은 대용량 워크로드에서 로컬 AI가 확실히 유리합니다.

공용 API 가격 (2026년 4월):

모델	입력 (1백만 토큰당)	출력 (1백만 토큰당)
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00
Gemini 1.5 Pro	$1.25	$5.00
GPT-4o mini	$0.15	$0.60
Claude 3 Haiku	$0.25	$1.25

자체 호스팅 비용 추정 (단일 A100 80GB에서 Qwen2.5-72B 실행 시):

Lambda Labs의 A100 80GB는 온디맨드(on-demand)로 시간당 약 $1.99입니다. INT4 양자화된 Qwen2.5-72B는 하나의 A100에 적합하며 초당 약 200토큰을 처리합니다.

100% 활용률로 초당 200토큰을 처리하면 시간당 72만 토큰이 되며, 이는 총 1천 토큰(입력 + 출력)당 약 $0.0028입니다. 참고로 GPT-4o는 출력 1천 토큰당 $0.01을 청구합니다.

손익분기점 (Break-even point): 하루에 일관되게 약 7만 개 이상의 출력 토큰을 처리하는 경우, 자체 호스팅이 비용 면에서 GPT-4o보다 유리합니다. 그 이하라면 유휴 GPU 시간에 대한 비용을 지불하지 않으므로 API가 더 유리합니다.

경량 모델의 경우: 4비트 양자화된 Gemma 4 (12B)는 단일 RTX 4090(중고 $600-800)에서 실행됩니다. 동등한 클라우드 GPU 시간으로 시간당 $0.40를 기준으로 할 때, 자체 호스팅은 GPT-4o mini와 비교하여 하루 약 1만 5천 개의 출력 토큰에서 손익분기점에 도달합니다.

지연 시간 비교

이 부분은 더 미묘합니다.

첫 토큰 응답 시간 (TTFT): 전용 A100에서 72B 모델을 사용하는 1K 토큰 프롬프트의 TTFT는 대략 800ms-1.5초입니다. OpenAI의 API는 일반적으로 정상적인 부하에서 유사한 입력에 대해 300-800ms 내에 첫 토큰을 반환합니다.

온디바이스 추론(아이폰 뉴럴 엔진, Apple Silicon)의 경우, Gemma 4의 TTFT는 네트워크 오버헤드가 없으므로 200-400ms입니다. 이 부분에서 온디바이스가 확실히 우세합니다.

처리량 (Throughput): INT4에서 72B 모델을 실행하는 단일 A100은 한 사용자에게는 잘 작동하지만, 배치 처리가 없으면 동시 로드에서 성능이 저하됩니다. 공용 API는 동시성을 투명하게 처리합니다.

스트리밍 (Streaming): 두 접근 방식 모두 스트리밍을 지원합니다. 온디바이스 모델의 경우 전체 생성이 로컬에서 발생하므로 네트워크 지터가 없습니다. API 모델의 경우 네트워크 상태에 따라 달라집니다.

요약: 가장 낮은 지연 시간(네트워크 없음)에서는 온디바이스가 우세합니다. 대규모 처리량(vLLM을 통한 적절한 배치 처리 포함)에서는 자체 호스팅이 우세합니다. 버스트 용량 및 단순성에서는 공용 API가 우세합니다.

기능 비교

이 부분은 대부분의 까다로운 작업에서 공용 API가 여전히 우위를 차지합니다.

추론 및 복잡한 작업: GPT-4o와 Claude 3.5 Sonnet은 MMLU, HumanEval, 복잡한 다단계 추론에서 여전히 오픈웨이트(open-weight) 모델보다 앞서 있습니다. Qwen2.5-72B 및 DeepSeek-V3로 격차가 상당히 좁혀졌지만, 여전히 실제적인 차이가 존재합니다.

코드 생성: 근접합니다. DeepSeek-Coder-V2와 Qwen2.5-Coder-32B는 많은 코드 벤치마크에서 GPT-4o와 필적합니다. 자체 호스팅 설정에서 코드 관련 작업을 위해서는 범용 모델보다 특화된 코드 모델을 사용할 수 있습니다.

컨텍스트 길이: 최첨단 API 모델은 128K-1M 토큰 컨텍스트를 지원합니다. 대부분의 자체 호스팅 모델은 실제로 32K-128K에서 정점에 달합니다 (더 긴 컨텍스트는 비례적으로 더 많은 메모리를 요구합니다).

멀티모달: GPT-4o와 Gemini 1.5 Pro는 이미지, 오디오, 비디오 입력을 처리합니다. 오픈웨이트 멀티모달 모델(LLaVA, Qwen-VL)도 존재하지만, 뒤처져 있습니다.

함수 호출 / 도구 사용: OpenAI와 Anthropic이 가장 신뢰할 수 있는 도구 사용 지원을 제공합니다. 도구 사용 기능을 갖춘 오픈웨이트 모델도 작동하지만, 복잡한 도구 체인에서는 일관성이 떨어집니다. 이것이 에이전트 아키텍처에 어떻게 영향을 미치는지는 [internal: how-ai-agent-memory-works]를 참조하세요.

개인 정보 보호 및 데이터 제어

이 부분은 로컬이 논쟁의 여지 없이 승리합니다.

공용 API 사용 시: - 사용자의 프롬프트는 네트워크를 벗어납니다. - 공급자의 데이터 보존 정책이 적용됩니다 (OpenAI는 API를 통해 옵트아웃하지 않는 한 기본적으로 30일 동안 입력을 보존합니다). - 민감한 콘텐츠에 대한 공급자의 서비스 약관을 준수해야 합니다. - 규제 산업(의료, 금융, 법률)에서는 규정 준수 장애물이 될 수 있습니다.

자체 호스팅 모델 사용 시: - 프롬프트는 사용자의 인프라 내에 유지됩니다. - 제3자 데이터 보존이 없습니다. - 모델이 처리할 수 있는 것과 없는 것에 대한 완전한 제어가 가능합니다. - GDPR/HIPAA 규정 준수 유지가 더 쉽습니다.

개인 건강 데이터, 법률 문서 또는 독점 코드를 처리하는 애플리케이션의 경우, 자체 호스팅은 종종 선택 사항이 아닌 필수 사항입니다.

모델 실행 위치에 관계없이 AI 통합 테스트 방법

https://api.openai.com/v1/chat/completions를 사용하든 http://localhost:11434/api/chat (Ollama)를 사용하든 또는 http://localhost:8080/v1/chat/completions (llama-server)를 사용하든, API 인터페이스는 OpenAI와 호환됩니다. 이는 Apidog 테스트 시나리오가 모든 HTTP 엔드포인트에서 작동한다는 점에서 중요합니다.

단일 테스트 시나리오로 다음 두 가지 모두에 대해 실행할 수 있습니다:

{
  "scenario": "Chat completion smoke test",
  "environments": {
    "local": {"base_url": "http://localhost:11434"},
    "production": {"base_url": "https://api.openai.com"}
  },
  "steps": [
    {
      "name": "Basic completion",
      "method": "POST",
      "url": "{{base_url}}/v1/chat/completions",
      "body": {
        "model": "{{model_name}}",
        "messages": [{"role": "user", "content": "Say 'test passed' and nothing else"}],
        "max_tokens": 20
      },
      "assertions": [
        {"field": "status", "operator": "equals", "value": 200},
        {"field": "response.choices[0].message.content", "operator": "contains", "value": "test passed"},
        {"field": "response.usage.total_tokens", "operator": "less_than", "value": 50}
      ]
    }
  ]
}

개발 중에는 이 시나리오를 로컬 Ollama 인스턴스에 대해 실행하고, CI에서는 OpenAI API에 대해 실행하십시오. 코드가 로컬 모델에서 작동한다면 API에서도 작동해야 합니다. 작동하지 않는다면, 일반적으로 다음에서 차이가 발생합니다: - 모델 이름 형식 (Ollama는 qwen2.5:72b를 사용하고, OpenAI는 gpt-4o를 사용합니다) - 함수 호출 응답 구조 (공급자마다 미묘한 차이) - 스트리밍 이벤트 형식 (data 대 delta 대 전체 응답 객체)

Apidog의 스마트 목업(Smart Mock)은 GPU가 온라인 상태가 아니더라도 CI에서 로컬 모델 동작을 시뮬레이션하는 데 유용합니다. 유효한 OpenAI 호환 응답을 반환하도록 목업을 구성하고 해당 목업에 대해 테스트 시나리오를 실행하십시오. 모델 수준에서 응답 구조가 다른 이유에 대한 배경 지식은 [internal: how-to-build-tiny-llm-from-scratch]를 참조하세요.

10분 안에 로컬 모델 서버 설정하기

자체 호스팅을 시도하기 전에 Ollama를 사용해 보는 것이 가장 빠른 방법입니다:

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull a model (Gemma 4 12B, fits in 10GB VRAM)
ollama pull gemma4:12b

# Start the server (OpenAI-compatible API on port 11434)
ollama serve

# Test it
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

다중 사용자 동시성을 지원하는 프로덕션 자체 호스팅을 위해서는 vLLM이 더 나은 선택입니다:

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-72B-Instruct-AWQ \
  --quantization awq \
  --max-model-len 32768

이렇게 하면 8000번 포트에 OpenAI 호환 API가 노출됩니다. Apidog를 http://your-server:8000으로 지정하고 테스트 시나리오를 직접 실행하세요.

각 접근 방식을 선택해야 할 때

시나리오	로컬	API
대용량 배치 처리 (일일 10만 토큰 이상)	더 저렴	비쌈
개인 정보 보호에 민감한 데이터 (건강, 법률, 금융)	필수	위험
온디바이스 최저 지연 시간	최고	불가능
최첨단 모델 기능 필요	부족	필수
가변 트래픽을 가진 버스트 워크로드	확장 복잡	자동 처리
GPU 사용 불가	어려움	쉬움
개발/테스트 환경	훌륭함 (Ollama)	비용 발생
멀티모달 작업	제한적	완전 지원
규제 산업 규정 준수	더 쉬움	DPA 필요

대부분의 팀을 위한 솔직한 답변: 프로덕션에는 공용 API를 사용하고(고품질 작업에는 Claude 또는 GPT-4o, 대용량 저렴한 작업에는 Haiku 또는 4o-mini), 개발 및 테스트에는 로컬에서 Ollama를 사용하십시오. 이렇게 하면 프로덕션에서는 최첨단 품질, 개발에서는 비용 제로, 그리고 전반적으로 일관된 OpenAI 호환 API 인터페이스라는 두 가지 이점을 모두 얻을 수 있습니다.

오픈 소스 코딩 어시스턴트가 로컬 AI 그림에 어떻게 들어맞는지는 [internal: open-source-coding-assistants-2026]을 참조하세요.

결론

로컬 AI와 API AI의 결정은 이진법적이지 않습니다. 올바른 답변은 볼륨, 개인 정보 보호 요구 사항, 지연 시간 필요성 및 필요한 기능 수준에 따라 달라집니다.

AI 기반 애플리케이션을 구축하는 대부분의 개발자에게: 공용 API로 시작하고, 월별 요금이 $200-300를 초과하면 자체 호스팅으로 전환하며, 첫날부터 로컬 환경에서 Ollama를 사용하십시오. 모든 곳에서 OpenAI 호환 API 인터페이스를 사용하여 코드를 공급자에게 독립적으로 유지하십시오.

로컬 모델과 클라우드 모델 간의 미묘한 차이가 프로덕션 버그가 되기 전에 Apidog로 두 환경을 일관되게 테스트하십시오.

버튼

자주 묻는 질문

유용한 로컬 모델을 실행하기 위한 최소 GPU는 무엇인가요?RTX 3060 (12GB VRAM)은 Qwen2.5-7B 또는 Gemma 4 4B를 최고 품질로 실행합니다. RTX 4090 (24GB VRAM)은 INT4 양자화된 대부분의 14B-20B 모델과 INT2 양자화된 34B 모델을 처리합니다. 72B 모델의 경우 2x 24GB GPU 또는 단일 A100/H100이 필요합니다.

Apple Silicon에서 로컬 AI를 실행할 수 있나요?네, 가능합니다. Ollama는 네이티브 Apple Silicon을 지원하며 뉴럴 엔진(Neural Engine)을 사용하여 가속합니다. M3 Pro (18GB 통합 메모리)는 Qwen2.5-14B를 편안하게 실행합니다. M4 Max (128GB)는 70B 모델을 처리합니다.

로컬 모델의 출력 품질이 프로덕션에 충분히 좋나요?작업에 따라 다릅니다. 코드 생성, 요약, 구조화된 데이터 추출의 경우: 32B+ 모델로 충분합니다. 복잡한 추론, 미묘한 글쓰기 또는 깊은 세계 지식이 필요한 작업의 경우: 최첨단 API 모델이 여전히 확실한 우위를 가집니다.

로컬 모델도 함수 호출을 지원하나요?네, 하지만 일관성이 떨어집니다. Llama 3.1, Qwen2.5, Mistral 모두 도구 사용을 지원합니다. 복잡한 도구 체인에서는 GPT-4o 또는 Claude 3.5 Sonnet보다 신뢰성이 낮습니다. 프로덕션에서 로컬 모델의 도구 사용에 의존하기 전에 Apidog 테스트 시나리오로 철저히 테스트하십시오. 최첨단 모델이 코딩 컨텍스트에서 도구 사용을 처리하는 방법은 [internal: claude-code]를 참조하세요.

AWS에서 70B 모델을 자체 호스팅하는 데 비용이 얼마나 드나요?p4d.24xlarge (8x A100 40GB)는 온디맨드(on-demand)로 시간당 $32.77입니다. 높은 처리량으로 70B INT8 모델을 실행합니다. g5.2xlarge (1x A10G 24GB)는 시간당 $1.21이며, 경량 워크로드를 위한 14B INT4 모델을 실행합니다. 예약 인스턴스(Reserved instances)는 이 비용을 30-40% 절감합니다.

Ollama와 llama.cpp의 차이점은 무엇인가요?llama.cpp는 기본 추론 엔진입니다. Ollama는 llama.cpp를 REST API, 모델 관리(풀, 목록, 삭제) 및 간단한 CLI로 래핑합니다. 개발에는 Ollama를 사용하십시오. 양자화 형식이나 하드웨어 구성에 대한 더 많은 제어가 필요한 경우 llama.cpp를 직접(llama-server를 통해) 사용하십시오.

코드를 변경하지 않고 로컬 모델과 API 모델 간에 전환할 수 있나요?네, OpenAI 호환 클라이언트를 사용하는 경우 가능합니다. Python에서: openai.OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')는 Ollama에 연결합니다. base_url을 https://api.openai.com/v1로 변경하고 api_key를 업데이트하여 클라우드로 전환할 수 있습니다. 이를 환경 변수로 설정하면 코드를 전혀 변경할 필요가 없습니다.