2026년 Gemma 4 12B 무료 사용법: 6가지 유용한 방법

2026년에 Gemma 4 12B를 무료로 사용하세요: Hugging Face 데모, Ollama, LM Studio, llama.cpp, Transformers, 그리고 Google AI Edge. 작동 명령어 및 로컬 API 테스트 방법.

Ashley Innocent

Ashley Innocent

4 June 2026

2026년 Gemma 4 12B 무료 사용법: 6가지 유용한 방법

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

Gemma 4 12B는 오픈 웨이트(open-weights)이며 Apache 2.0 라이선스가 적용되어 있으므로, 여기서 "무료(free)"는 실제로 무료를 의미합니다. API 사용료나 구독료가 없습니다. 모델을 다운로드하여 자신의 컴퓨터에서 실행하거나 브라우저 탭에서 사용해 볼 수 있습니다. 유일한 비용은 이미 소유하고 있는 하드웨어입니다.

미리 알아두어야 할 점은 12B 모델은 로컬 및 온디바이스 사용을 위해 만들어졌다는 것입니다. 더 큰 모델인 31B와 26B는 Google AI Studio에서 무료 채팅을 위해 호스팅하는 모델입니다. 12B의 핵심은 16GB 노트북에서 실행될 수 있다는 것이므로, 아래의 무료 방법들은 모델을 하드웨어에 빠르게 설치하는 방법에 대한 것입니다. 이 모델이 처음이신가요? 사양에 대해서는 Gemma 4 12B란 무엇인가요를 참고하십시오.

다음은 60초 브라우저 데모부터 구축 가능한 완전한 로컬 API까지 여섯 가지 작동 방식입니다.

빠른 요약

방법 얻을 수 있는 것 가장 적합한 용도
Hugging Face Space 브라우저 채팅, 설치 불필요 1분 안에 사용해보기
Ollama 로컬 모델 + OpenAI 호환 API 개발자, 한 번의 명령
LM Studio GUI가 있는 로컬 데스크톱 앱 터미널 불필요
llama.cpp 경량 로컬 API 서버 고급 및 저비용 설정
HF Transformers Python, 전체 제어, 무료 Colab GPU 노트북 및 미세 조정
Google AI Edge 온디바이스, 모바일 휴대폰 및 엣지 하드웨어

방법 1: 브라우저에서 사용해 보기 (설치 불필요)

Gemma 4 12B를 가장 빠르게 볼 수 있는 방법은 Hugging Face의 공식 데모 Space입니다. 다운로드, 계정, GPU가 필요 없습니다.

  1. Gemma 4 12B 데모 Space를 엽니다.
  2. 프롬프트를 입력하거나 이미지 또는 오디오 클립을 업로드합니다.
  3. 응답을 읽습니다.

이것은 빠른 직관적 확인을 위한 올바른 방법입니다. Space가 이미지 및 오디오 입력을 허용하므로 다중 모드 측면도 테스트할 수 있습니다. 실제 무언가를 구축할 준비가 되었다면 아래의 로컬 방법 중 하나로 이동하십시오.

방법 2: Ollama (개발자 기본값)

Ollama는 Gemma 4 12B를 로컬에서 실행하고 작동하는 API를 얻는 가장 간단한 방법입니다. 한 번 설치, 한 번 풀(pull)이면 끝납니다.

Ollama 설치

macOS 또는 Linux에서:

curl -fsSL https://ollama.com/install.sh | sh

Windows에서는 ollama.com에서 설치 프로그램을 다운로드하여 실행합니다.

모델 풀(Pull) 및 실행

ollama pull gemma4:12b
ollama run gemma4:12b

첫 번째 명령은 모델을 다운로드합니다 (기본적으로 4비트 Q4_K_M 빌드이며 약 8GB). 두 번째 명령은 대화형 채팅으로 연결됩니다. 종료하려면 /bye를 입력하십시오.

로컬 API 사용

이 부분이 개발자들이 중요하게 생각하는 부분입니다. Ollama는 http://localhost:11434에서 OpenAI 호환 REST API를 제공합니다. 키, 클라우드, 속도 제한이 없습니다.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explain how transformers work in two sentences."}
    ]
  }'

엔드포인트가 OpenAI 형식과 일치하므로, OpenAI를 지원하는 모든 SDK 또는 도구는 기본 URL을 localhost:11434/v1로 지정하여 작동합니다. 여기에는 에디터, 에이전트 프레임워크 및 API 클라이언트가 포함됩니다. IDE 설정 패턴의 경우, 이 접근 방식은 Cursor에서 DeepSeek V4 사용법 안내와 유사합니다. 모델 문자열을 gemma4:12b로 바꾸면 됩니다.

유용한 명령:

방법 3: LM Studio (터미널 불필요)

명령줄을 사용하고 싶지 않다면, LM Studio는 Windows, macOS, Linux용 데스크톱 앱입니다.

  1. LM Studio를 다운로드하고 설치합니다.
  2. 모델 카탈로그에서 Gemma 4 12B를 검색합니다.
  3. RAM에 맞는 양자화를 선택하고 다운로드합니다.
  4. 채팅 탭을 열고 프롬프트를 시작합니다.

LM Studio는 또한 일반적으로 1234 포트에서 OpenAI 호환 엔드포인트를 가진 로컬 서버를 실행하므로, 코드를 작성하지 않고도 API를 얻을 수 있습니다. 이는 디자이너, 작가, 그리고 구성 파일보다 채팅 창을 선호하는 모든 사람에게 가장 친숙한 방법입니다.

방법 4: llama.cpp (경량 및 고속)

llama.cpp는 오버헤드가 적은 GGUF 모델을 실행하며 자체 OpenAI 호환 서버를 제공합니다.

설치:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

그런 다음 공식 GGUF 빌드를 가리키는 서버를 시작합니다. 정확한 12B 리포지토리 이름을 찾으려면 Hugging Face에서 ggml-org/gemma-4 컬렉션을 찾아본 다음 llama-server에 전달하십시오.

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

이는 http://localhost:8080/v1에서 OpenAI 호환 API를 노출합니다. 이 방법은 최소한의 종속성을 원하거나 사양이 낮은 하드웨어에서 실행할 때 가장 좋습니다. 또한 여러 다른 도구의 기반 엔진이므로, 이를 익히면 유용합니다.

방법 5: Hugging Face Transformers (완전 제어)

노트북, 스크립트 또는 미세 조정을 위해 Python의 Transformers로 모델을 실행하십시오. 로컬 GPU가 없다면 무료 Google Colab 노트북을 사용할 수 있습니다.

라이브러리 설치:

pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa

그런 다음 지시사항에 따라 튜닝된 모델을 로드하고 생성합니다:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

enable_thinking=True로 설정하여 단계별 추론 모드를 웁니다. 이미지 또는 오디오 파일을 입력하려면 텍스트 앞에 {"type": "image", ...}와 텍스트 뒤에 {"type": "audio", ...}를 포함한 콘텐츠 목록을 추가하십시오. Kaggle에서도 가중치를 사용할 수 있습니다 (해당 소스를 선호하는 경우). 전체 코드 패턴은 개발자 가이드에 있습니다.

방법 6: Google AI Edge (온디바이스 및 모바일)

휴대폰 또는 엣지 디바이스에서 Gemma 4 12B를 실행하려면 Google은 AI Edge 스택을 제공합니다. Google AI Edge Gallery 앱과 LiteRT-LM CLI는 모두 12B를 온디바이스에서 실행합니다.

LiteRT-LM을 사용한 로컬 서버의 경우:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

이는 데이터가 장치를 벗어나지 않는 오프라인 모바일 어시스턴트 및 임베디드 앱에 적합한 방법입니다.

Apidog로 로컬 Gemma 4 12B API 테스트하기

Ollama 또는 llama.cpp를 통해 Gemma 4 12B가 실행되면, 사용자 기기에는 실제 HTTP API가 있습니다. 이를 앱에 연결하기 전에 적절한 API 클라이언트에서 테스트하여 정확한 요청 및 응답 형태를 아는 것이 도움이 됩니다. Apidog는 이를 위해 만들어졌습니다.

깔끔한 설정 방법:

  1. Apidog를 다운로드하고 새 HTTP 프로젝트를 생성합니다.
  2. http://localhost:11434/v1/chat/completionsPOST 요청을 추가합니다.
  3. 본문을 JSON으로 설정하고 샘플 페이로드를 붙여넣습니다:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Return a JSON object with two fields: city and country."}
  ],
  "stream": false
}
  1. 기본 URL을 환경 변수로 저장하여 한 번의 클릭으로 Ollama (:11434)와 llama.cpp (:8080) 간에 전환할 수 있습니다.
  2. 모델이 content 필드에 유효한 JSON을 반환하는지 확인하는 응답 어설션을 추가합니다.
  3. "stream": true로 전환하고 Apidog가 스트리밍된 토큰을 렌더링하는 것을 확인합니다. 이는 UI를 구축하기 전에 스트리밍이 작동하는지 확인하는 방법입니다.

그 결과: 애플리케이션 코드 깊숙한 곳이 아닌 Apidog에서 잘못된 프롬프트나 잘못된 필드 이름을 잡아낼 수 있습니다. 클라이언트를 비교하고 있다면 무료 온라인 API 테스트 도구최고의 Postman 대안에 대한 우리의 요약을 참조하십시오. 동일한 테스트 흐름은 모든 OpenAI 호환 엔드포인트에서 작동하므로, 이러한 습관은 Postman으로 API 테스트하는 방법과 같은 워크플로로 곧바로 이어집니다.

어떤 양자화를 선택해야 할까요?

Gemma 4 12B는 압축 강도에 따라 다양한 기기에 적합합니다.

빌드 필요한 메모리 장단점
풀 정밀도 ~16GB 최고 품질
8비트 ~14GB 거의 풀 품질
4비트 (Q4_K_M) ~8GB 약간의 품질 저하, 광범위하게 실행 가능

Ollama는 기본적으로 4비트 빌드를 사용하며, 이것이 8GB GPU 또는 16GB MacBook에서 실행되는 이유입니다. 여유 공간이 있다면 8비트 빌드는 몇 기가바이트를 더 사용하여 품질을 향상시킬 수 있습니다.

어떤 무료 방법을 선택해야 할까요?

빠른 의사 결정 트리:

대부분의 개발자는 일상적인 사용을 위해 Ollama를 선택하고, 더 복잡한 작업을 위해 Transformers를 사용합니다.

무료 로컬 Gemma를 최대한 활용하는 팁

자주 묻는 질문 (FAQ)

Gemma 4 12B는 정말 무료인가요? 네. Apache 2.0 오픈 웨이트(open-weights)이며, 상업적 용도를 포함하여 무료로 다운로드하고 실행할 수 있습니다. 모델을 실행하는 하드웨어 또는 클라우드에 대한 비용만 지불하면 됩니다.

GPU가 필요한가요? 아니요, 하지만 있으면 좋습니다. 4비트 빌드는 8GB GPU 또는 16GB 통합 메모리 Mac에서 실행됩니다. CPU만으로는 작동하지만 느리게 실행됩니다.

Google AI Studio에서 Gemma 4 12B를 사용할 수 있나요? 현재는 사용할 수 없습니다. AI Studio는 31B 및 26B 모델을 무료 브라우저 채팅용으로 호스팅합니다. 12B는 로컬 및 온디바이스 사용을 위해 만들어졌으므로, 위에서 설명한 방법으로 직접 실행해야 합니다.

로컬 API에 API 키가 필요한가요? 아니요. Ollama와 llama.cpp는 localhost에서 모델을 키 없이 제공합니다. 도구에 키 필드가 필요한 경우, 아무 플레이스홀더 문자열을 입력하십시오. 로컬 서버는 이를 무시합니다.

기존 OpenAI 코드에서 호출할 수 있나요? 네. Ollama와 llama.cpp는 모두 OpenAI 호환 엔드포인트를 노출합니다. 기본 URL을 http://localhost:11434/v1 (Ollama) 또는 http://localhost:8080/v1 (llama.cpp)로 지정하고 코드를 그대로 유지하십시오.

이미지 및 오디오 기능을 어떻게 실행하나요? 다중 모드 입력을 지원하는 Transformers, LM Studio 또는 AI Edge 앱을 사용하십시오. 텍스트 프롬프트 앞에 이미지 콘텐츠를, 텍스트 프롬프트 뒤에 오디오 콘텐츠를 추가하십시오.

Ollama와 llama.cpp 중 어떤 것이 더 빠른가요? 둘 다 동일한 기본 엔진을 사용합니다. llama.cpp는 오버헤드가 적고 튜닝 플래그가 더 많습니다. Ollama는 설정하기 더 쉽습니다. 대부분의 사람들에게 그 차이는 미미합니다.

button

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요