구글은 2026년 6월 3일 Gemma 4 12B를 출시했습니다. 이 모델은 119억 5천만 개의 매개변수를 가진 오픈 웨이트 모델로, 텍스트, 이미지, 오디오, 비디오를 읽을 수 있으며 16GB 메모리 노트북에 적합합니다. 주요 특징은 다음과 같습니다: 이 모델은 네이티브 오디오 입력을 지원하는 최초의 중형 모델이며, 별도의 비전 또는 오디오 인코더 없이 이를 수행합니다.
마지막 부분이 이 모델을 특별하게 만듭니다. 대부분의 멀티모달 모델은 언어 모델에 비전 인코더와 오디오 인코더를 부착합니다. Gemma 4 12B는 이 둘을 모두 제거하고 원시 이미지 패치와 오디오 파형을 모델에 직접 공급합니다. 네 가지 입력 유형을 처리하고 오프라인에서 실행되며 상업적으로 사용할 수 있는 Apache 2.0 라이선스하에 제공되는 단일 12B 파일을 얻을 수 있습니다.
이 모델이 무엇인지, Gemma 4 제품군에서 어떤 위치에 있는지, 그리고 이 모델로 무엇을 만들 수 있는지 알아보세요. 지금 바로 실행하고 싶다면, Gemma 4 12B를 무료로 사용하는 방법에 대한 동반 가이드로 이동하세요.
Gemma 4 12B 한눈에 보기
| 사양 | 값 |
|---|---|
| 출시일 | 2026년 6월 3일 |
| 매개변수 | 11.95B (조밀) |
| 입력 | 텍스트, 이미지, 오디오, 비디오 |
| 출력 | 텍스트 |
| 컨텍스트 창 | 256K 토큰 |
| 아키텍처 | 인코더 없는 통합 멀티모달 |
| 라이선스 | Apache 2.0 |
| 실행 환경 | 16GB VRAM 또는 통합 메모리 (4비트에서 약 8GB) |
| 변형 모델 | google/gemma-4-12B (기본), google/gemma-4-12B-it (지시 튜닝) |
간단히 요약하자면
Gemma 4 12B는 Google DeepMind의 조밀한 120억 매개변수 오픈 모델로, 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트를 반환합니다. 256K 토큰 컨텍스트 창, 네이티브 도구 호출, 선택적 단계별 추론 모드를 갖추고 소비자 하드웨어에서 로컬로 실행되도록 튜닝되었습니다.

이 모델은 Gemma 4 제품군 중 중간에 위치합니다. 구글은 이 모델을 에지 친화적인 E4B 모델과 더 큰 26B MoE(Mixture-of-Experts) 모델 사이의 가교 역할을 한다고 설명하며, 26B 모델의 절반 미만의 메모리 사용량으로도 여러 벤치마크에서 26B에 필적하는 품질을 제공한다고 말합니다.
Gemma 4 제품군에서 12B의 위치
Gemma 4는 한 번에 모두 출시되지 않았습니다. E2B, E4B, 26B, 31B 모델은 2026년 3월 31일에 출시되었습니다. 12B는 6월 3일에 추가된 최신 멤버입니다. 전체 라인업은 다음과 같습니다:
| 모델 | 크기 | 컨텍스트 | 참고 |
|---|---|---|---|
| Gemma 4 E2B | 2.3B 유효 (5.1B 원시) | 128K | 온디바이스, 오디오 입력 |
| Gemma 4 E4B | 4.5B 유효 (8B 원시) | 128K | 소형, 오디오 입력 |
| Gemma 4 12B | 11.95B 조밀 | 256K | 인코더 없는, 오디오 입력 |
| Gemma 4 26B A4B | 4B 활성 / 26B 총계 (MoE) | 256K | Mixture-of-experts |
| Gemma 4 31B | 31B 조밀 | 256K | 최첨단 성능 |
12B는 인코더 없는 설계로 구축된 유일한 모델입니다. 다른 모델들은 전통적인 비전 인코더(그리고 더 작은 두 모델에는 컨포머 오디오 인코더)를 유지합니다. 이는 구글이 온디바이스 멀티모달 AI를 어디로 이끌고 있는지를 가장 명확하게 보여줍니다.
이 모델들이 다른 오픈 모델들과 어떻게 비교되는지 알아보려면, MiniMax M3, DeepSeek V4, Qwen 3.7 비교 및 광범위한 오픈 웨이트 가격 전쟁을 참조하십시오.
“인코더 없는”이란 실제로 무엇을 의미할까
표준 멀티모달 모델은 두 단계로 작동합니다. 비전 인코더는 이미지를 임베딩으로, 오디오 인코더는 소리를 임베딩으로 변환한 다음, 프로젝터가 이들을 언어 모델의 공간으로 매핑합니다. 이는 로드, 튜닝, 메모리 유지에 세 가지 구성 요소가 필요하다는 것을 의미합니다.
Gemma 4 12B는 인코더를 제거했습니다. 구글의 설명에 따르면 다음과 같습니다:
- 비전: 경량 임베딩 모듈(단일 행렬 곱셈과 위치 임베딩 및 정규화)이 원시 이미지 패치를 모델의 임베딩 공간으로 직접 투영합니다.
- 오디오: 오디오 인코더가 없습니다. 원시 오디오는 텍스트 토큰과 동일한 차원 공간으로 투영되어, 소리와 단어가 하나의 경로를 공유합니다.
비전 및 오디오 입력은 언어 모델의 핵심 부분으로 직접 흘러 들어갑니다. 하나의 모델, 하나의 가중치 세트, 모든 모달리티는 토큰으로 처리됩니다.
두 가지 추가적인 아키텍처 선택으로 소형 하드웨어에서 효율성을 유지합니다:
- 레이어별 임베딩 (PLE): 각 디코더 레이어는 토큰 식별 조회와 컨텍스트 인식 투영을 혼합하는 작은 전용 임베딩을 얻습니다. 이는 레이어가 전문화되도록 하면서 매개변수 비용을 절감합니다.
- 공유 KV 캐시: 마지막 몇 개의 레이어는 자체적으로 키-값 텐서를 계산하는 대신 이전 레이어의 키-값 텐서를 재사용합니다. 이는 긴 컨텍스트 및 온디바이스 실행 시 메모리를 절약하면서도 품질 손실이 거의 없습니다.
구글은 또한 추측 디코딩을 위한 Multi-Token Prediction (MTP) 드래프터를 제공하며, 이는 출력 품질 변경 없이 엔드투엔드 추론 속도를 약 3배까지 높일 수 있습니다.
네이티브 오디오 및 완전한 멀티모달리티
많은 오픈 모델이 이미지를 읽습니다. Gemma 4 12B는 텍스트와 비전을 처리하는 동일한 모델에서 오디오를 네이티브로 처리하는 최초의 중형 모델입니다. 이는 다음과 같은 새로운 종류의 작업을 가능하게 합니다:
- 자동 음성 인식 및 전사
- 화자 분리 (누가 언제 말했는지)
- 비음성 소리에 대한 오디오 질의응답
- 오디오를 포함한 비디오 이해, 프레임뿐만 아니라
- 이미지 작업: 캡셔닝, 객체 및 UI 감지, 시각적 추론
모달리티를 혼합할 때 입력 순서가 중요합니다. 채팅 템플릿은 텍스트 프롬프트 앞에 이미지 콘텐츠를, 그 뒤에 오디오를 예상합니다. 모델은 모든 경우에 텍스트를 반환합니다.
Gemma 4 12B의 성능
다음은 Hugging Face 모델 카드에서 발췌한, 지시 튜닝된 gemma-4-12B-it의 공개 점수입니다:
| 벤치마크 | Gemma 4 12B-it |
|---|---|
| MMLU Pro (추론) | 77.2% |
| AIME 2026 (수학, 도구 없음) | 77.5% |
| GPQA Diamond (과학) | 78.8% |
| LiveCodeBench v6 (코딩) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (비전) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle (긴 컨텍스트) | 43.4% |
제품군 컨텍스트에서 보면, 몇 가지 주요 테스트에서 12B가 인접 모델들 사이에서 어떻게 위치하는지 다음과 같습니다:
| 벤치마크 | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
패턴은 명확합니다. 12B는 4B급 E4B보다 훨씬 뛰어나며, 26B MoE에 근접한 성능을 보입니다. 이는 구글이 내세우는 장점인데, 더 큰 모델의 대부분의 품질을 이미 소유하고 있는 기기에서 경험할 수 있다는 것입니다.
Gemma 3와 비교하여 새로운 점은 무엇인가
Gemma 3를 사용해 보셨다면, 네 가지 주요 차이점이 있습니다:
- 네이티브 오디오. Gemma 3는 텍스트와 비전만 지원했습니다. 12B는 기본 모델에 사운드와 오디오가 포함된 비디오를 추가했습니다.
- 인코더 없는 설계. 별도의 비전 또는 오디오 인코더를 로드할 필요가 없습니다.
- 256K 컨텍스트. 긴 문서, 스크립트 및 다중 파일 코드에 대해 4배 더 많은 여유 공간을 제공합니다.
- Apache 2.0. 이전 Gemma 릴리스는 사용 제한이 있는 커스텀 Gemma 라이선스를 사용했습니다. Gemma 4는 상업적 및 재배포 사용에 더 간단한 표준 Apache 2.0으로 전환되었습니다.
이 모델로 무엇을 만들 수 있나
12B는 클라우드가 아닌 기기에서 실행되는 작업을 목표로 합니다:
- 데이터를 외부로 보내지 않고 화면을 보고 마이크 소리를 듣는 오프라인 비서
- 로컬에서 회의를 기록하고, 화자를 분리하며, 요약하는 회의 및 통화 도구
- PDF, 스크린샷, 오디오를 하나의 프롬프트로 혼합하는 문서 및 미디어 파이프라인
- 에이전트 워크플로: 함수 호출 및 도구 사용을 지원하여 계획하고 행동할 수 있습니다.
- 72.0% LiveCodeBench 수준의 코딩 지원, 로컬 자동 완성 및 리팩토링에 활용 가능
Ollama 및 llama.cpp와 같은 러너를 통해 표준 채팅 인터페이스를 노출하므로 기존 도구를 사용할 수 있습니다. 로컬 모델을 앱에 연결할 때 여전히 요청 및 응답 형태를 확인해야 합니다. Apidog와 같은 도구를 사용하면 로컬 엔드포인트를 저장하고, 샘플 프롬프트를 보내고, 그 위에 구축하기 전에 JSON을 확인할 수 있습니다. Apidog를 무료로 다운로드하여 1분 안에 로컬 서버에 연결할 수 있습니다. 자세한 내용은 무료 사용 가이드에서 확인할 수 있습니다.
라이선스 및 Apache 2.0이 제공하는 이점
Gemma 4 12B는 Apache 2.0 라이선스 하에 출시되었습니다. 간단히 말해:
- 상업적으로 사용할 수 있습니다.
- 수정, 미세 조정 및 재배포할 수 있습니다.
- 클로즈드 소스 제품에서 실행할 수 있습니다.
- 생성된 출력물은 사용자에게 귀속됩니다.
이는 구글 자체 사용 정책 약관이 적용되었던 이전 Gemma 라이선스와는 확연히 달라진 점입니다. Apache 2.0은 수많은 오픈 인프라 뒤에 있는 것과 동일한 허용적 라이선스이므로 법률 검토가 빠르게 진행되는 경향이 있습니다.
필요한 하드웨어
구글의 목표는 16GB 기기, 즉 VRAM 또는 Apple 스타일의 통합 메모리입니다. 양자화를 통해 이를 줄일 수 있습니다:
- 최고 품질: 약 16GB
- 8비트: 약 14GB
- 4비트 (Q4_K_M): 약 8GB, Ollama의 기본값
이는 12B가 주류 게이밍 GPU, 16GB MacBook 또는 중급 워크스테이션에서 실행될 수 있음을 의미합니다. 하드웨어 사양이 부족하다면 더 작은 E2B 및 E4B 모델이 더 적합합니다.
알아두어야 할 제한 사항
구글은 모델 카드에서 트레이드오프에 대해 직접적으로 언급합니다:
- 정확하지 않거나 오래된 사실을 생성할 수 있습니다. 중요한 내용은 모두 확인하십시오.
- 훈련 데이터의 편향을 반영할 수 있습니다.
- 비꼬는 말, 뉘앙스, 비유적 언어를 불균일하게 처리합니다.
- 이 크기의 다른 모델과 마찬가지로 상식적인 추론에는 한계가 있습니다.
- 출력 품질은 프롬프트의 명확성과 제공하는 컨텍스트에 따라 달라집니다.
이는 12B 오픈 모델에 대한 일반적인 주의사항입니다. 가장 어려운 추론 작업에서 최첨단 클라우드 모델을 대체하지는 않겠지만, 그것이 핵심은 아닙니다. 핵심은 데이터가 이미 있는 곳에서 실행되는 강력한 멀티모달 AI입니다.
FAQ
Gemma 4 12B는 무료인가요? 네. 가중치는 Apache 2.0 라이선스하에 공개되어 있으며 Hugging Face와 Kaggle에서 무료로 다운로드할 수 있습니다. 모델을 실행하는 하드웨어 또는 클라우드 비용만 지불하면 됩니다. Gemma 4 12B를 무료로 사용하는 방법을 참조하세요.
Gemma 4 12B가 실제로 오디오를 이해할 수 있나요? 네. 원시 오디오를 입력으로 받아 음성을 전사하고, 화자를 식별하며, 소리에 대한 질문에 답할 수 있습니다. 별도의 음성 모델을 통하지 않고 네이티브로 이 기능을 수행하는 최초의 중형 모델입니다.
gemma-4-12B와 gemma-4-12B-it의 차이점은 무엇인가요? 기본 모델은 사전 훈련만 되어 있습니다. -it 버전은 채팅, 도구 사용 및 지시 따르기에 맞춰 지시 튜닝되었습니다. 대부분의 사람들은 -it 버전을 원할 것입니다.
12B는 26B 및 31B와 어떻게 다른가요? 12B는 조밀하고 인코더가 없으며, 16GB 기기에 최적화되어 있습니다. 26B는 Mixture-of-Experts 모델(4B 활성, 총 26B)이며, 31B는 최첨단 품질을 위한 더 큰 조밀 모델입니다. 두 더 큰 모델 모두 벤치마크에서 더 높은 점수를 얻지만 더 많은 메모리가 필요합니다.
Gemma 4 12B는 도구 호출을 지원하나요? 네. 텍스트 및 멀티모달 함수 호출을 지원하며, 단계별 추론을 위한 선택적 사고 모드도 지원하여 에이전트 워크플로에 활용할 수 있습니다.
Gemini 3.5와 어떻게 비교되나요? 역할이 다릅니다. Gemini 3.5는 구글의 호스팅되는 최첨단 모델입니다. Gemini 3.5란 무엇인가를 참조하세요. Gemma 4 12B는 사용자가 직접 실행하는 오픈 모델입니다. 최고 품질의 일부를 개인 정보 보호, 오프라인 사용 및 토큰당 비용 없음과 교환하는 것입니다.
