젬마 4 12B란 무엇인가요?

Gemma 4 12B 설명: 구글의 2026년 6월 공개 모델, 네이티브 오디오 지원, 인코더 없는 멀티모달 아키텍처, 256K 컨텍스트, 아파치 2.0, 16GB 노트북에서 실행 가능

Ashley Innocent

Ashley Innocent

4 June 2026

젬마 4 12B란 무엇인가요?

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

구글은 2026년 6월 3일 Gemma 4 12B를 출시했습니다. 이 모델은 119억 5천만 개의 매개변수를 가진 오픈 웨이트 모델로, 텍스트, 이미지, 오디오, 비디오를 읽을 수 있으며 16GB 메모리 노트북에 적합합니다. 주요 특징은 다음과 같습니다: 이 모델은 네이티브 오디오 입력을 지원하는 최초의 중형 모델이며, 별도의 비전 또는 오디오 인코더 없이 이를 수행합니다.

마지막 부분이 이 모델을 특별하게 만듭니다. 대부분의 멀티모달 모델은 언어 모델에 비전 인코더와 오디오 인코더를 부착합니다. Gemma 4 12B는 이 둘을 모두 제거하고 원시 이미지 패치와 오디오 파형을 모델에 직접 공급합니다. 네 가지 입력 유형을 처리하고 오프라인에서 실행되며 상업적으로 사용할 수 있는 Apache 2.0 라이선스하에 제공되는 단일 12B 파일을 얻을 수 있습니다.

버튼

이 모델이 무엇인지, Gemma 4 제품군에서 어떤 위치에 있는지, 그리고 이 모델로 무엇을 만들 수 있는지 알아보세요. 지금 바로 실행하고 싶다면, Gemma 4 12B를 무료로 사용하는 방법에 대한 동반 가이드로 이동하세요.

Gemma 4 12B 한눈에 보기

사양
출시일 2026년 6월 3일
매개변수 11.95B (조밀)
입력 텍스트, 이미지, 오디오, 비디오
출력 텍스트
컨텍스트 창 256K 토큰
아키텍처 인코더 없는 통합 멀티모달
라이선스 Apache 2.0
실행 환경 16GB VRAM 또는 통합 메모리 (4비트에서 약 8GB)
변형 모델 google/gemma-4-12B (기본), google/gemma-4-12B-it (지시 튜닝)

간단히 요약하자면

Gemma 4 12B는 Google DeepMind의 조밀한 120억 매개변수 오픈 모델로, 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 텍스트를 반환합니다. 256K 토큰 컨텍스트 창, 네이티브 도구 호출, 선택적 단계별 추론 모드를 갖추고 소비자 하드웨어에서 로컬로 실행되도록 튜닝되었습니다.

이 모델은 Gemma 4 제품군 중 중간에 위치합니다. 구글은 이 모델을 에지 친화적인 E4B 모델과 더 큰 26B MoE(Mixture-of-Experts) 모델 사이의 가교 역할을 한다고 설명하며, 26B 모델의 절반 미만의 메모리 사용량으로도 여러 벤치마크에서 26B에 필적하는 품질을 제공한다고 말합니다.

Gemma 4 제품군에서 12B의 위치

Gemma 4는 한 번에 모두 출시되지 않았습니다. E2B, E4B, 26B, 31B 모델은 2026년 3월 31일에 출시되었습니다. 12B는 6월 3일에 추가된 최신 멤버입니다. 전체 라인업은 다음과 같습니다:

모델 크기 컨텍스트 참고
Gemma 4 E2B 2.3B 유효 (5.1B 원시) 128K 온디바이스, 오디오 입력
Gemma 4 E4B 4.5B 유효 (8B 원시) 128K 소형, 오디오 입력
Gemma 4 12B 11.95B 조밀 256K 인코더 없는, 오디오 입력
Gemma 4 26B A4B 4B 활성 / 26B 총계 (MoE) 256K Mixture-of-experts
Gemma 4 31B 31B 조밀 256K 최첨단 성능

12B는 인코더 없는 설계로 구축된 유일한 모델입니다. 다른 모델들은 전통적인 비전 인코더(그리고 더 작은 두 모델에는 컨포머 오디오 인코더)를 유지합니다. 이는 구글이 온디바이스 멀티모달 AI를 어디로 이끌고 있는지를 가장 명확하게 보여줍니다.

이 모델들이 다른 오픈 모델들과 어떻게 비교되는지 알아보려면, MiniMax M3, DeepSeek V4, Qwen 3.7 비교 및 광범위한 오픈 웨이트 가격 전쟁을 참조하십시오.

“인코더 없는”이란 실제로 무엇을 의미할까

표준 멀티모달 모델은 두 단계로 작동합니다. 비전 인코더는 이미지를 임베딩으로, 오디오 인코더는 소리를 임베딩으로 변환한 다음, 프로젝터가 이들을 언어 모델의 공간으로 매핑합니다. 이는 로드, 튜닝, 메모리 유지에 세 가지 구성 요소가 필요하다는 것을 의미합니다.

Gemma 4 12B는 인코더를 제거했습니다. 구글의 설명에 따르면 다음과 같습니다:

비전 및 오디오 입력은 언어 모델의 핵심 부분으로 직접 흘러 들어갑니다. 하나의 모델, 하나의 가중치 세트, 모든 모달리티는 토큰으로 처리됩니다.

두 가지 추가적인 아키텍처 선택으로 소형 하드웨어에서 효율성을 유지합니다:

구글은 또한 추측 디코딩을 위한 Multi-Token Prediction (MTP) 드래프터를 제공하며, 이는 출력 품질 변경 없이 엔드투엔드 추론 속도를 약 3배까지 높일 수 있습니다.

네이티브 오디오 및 완전한 멀티모달리티

많은 오픈 모델이 이미지를 읽습니다. Gemma 4 12B는 텍스트와 비전을 처리하는 동일한 모델에서 오디오를 네이티브로 처리하는 최초의 중형 모델입니다. 이는 다음과 같은 새로운 종류의 작업을 가능하게 합니다:

모달리티를 혼합할 때 입력 순서가 중요합니다. 채팅 템플릿은 텍스트 프롬프트 앞에 이미지 콘텐츠를, 그 뒤에 오디오를 예상합니다. 모델은 모든 경우에 텍스트를 반환합니다.

Gemma 4 12B의 성능

다음은 Hugging Face 모델 카드에서 발췌한, 지시 튜닝된 gemma-4-12B-it의 공개 점수입니다:

벤치마크 Gemma 4 12B-it
MMLU Pro (추론) 77.2%
AIME 2026 (수학, 도구 없음) 77.5%
GPQA Diamond (과학) 78.8%
LiveCodeBench v6 (코딩) 72.0%
Codeforces (ELO) 1659
MMMU Pro (비전) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-needle (긴 컨텍스트) 43.4%

제품군 컨텍스트에서 보면, 몇 가지 주요 테스트에서 12B가 인접 모델들 사이에서 어떻게 위치하는지 다음과 같습니다:

벤치마크 E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

패턴은 명확합니다. 12B는 4B급 E4B보다 훨씬 뛰어나며, 26B MoE에 근접한 성능을 보입니다. 이는 구글이 내세우는 장점인데, 더 큰 모델의 대부분의 품질을 이미 소유하고 있는 기기에서 경험할 수 있다는 것입니다.

Gemma 3와 비교하여 새로운 점은 무엇인가

Gemma 3를 사용해 보셨다면, 네 가지 주요 차이점이 있습니다:

  1. 네이티브 오디오. Gemma 3는 텍스트와 비전만 지원했습니다. 12B는 기본 모델에 사운드와 오디오가 포함된 비디오를 추가했습니다.
  2. 인코더 없는 설계. 별도의 비전 또는 오디오 인코더를 로드할 필요가 없습니다.
  3. 256K 컨텍스트. 긴 문서, 스크립트 및 다중 파일 코드에 대해 4배 더 많은 여유 공간을 제공합니다.
  4. Apache 2.0. 이전 Gemma 릴리스는 사용 제한이 있는 커스텀 Gemma 라이선스를 사용했습니다. Gemma 4는 상업적 및 재배포 사용에 더 간단한 표준 Apache 2.0으로 전환되었습니다.

이 모델로 무엇을 만들 수 있나

12B는 클라우드가 아닌 기기에서 실행되는 작업을 목표로 합니다:

Ollama 및 llama.cpp와 같은 러너를 통해 표준 채팅 인터페이스를 노출하므로 기존 도구를 사용할 수 있습니다. 로컬 모델을 앱에 연결할 때 여전히 요청 및 응답 형태를 확인해야 합니다. Apidog와 같은 도구를 사용하면 로컬 엔드포인트를 저장하고, 샘플 프롬프트를 보내고, 그 위에 구축하기 전에 JSON을 확인할 수 있습니다. Apidog를 무료로 다운로드하여 1분 안에 로컬 서버에 연결할 수 있습니다. 자세한 내용은 무료 사용 가이드에서 확인할 수 있습니다.

라이선스 및 Apache 2.0이 제공하는 이점

Gemma 4 12B는 Apache 2.0 라이선스 하에 출시되었습니다. 간단히 말해:

이는 구글 자체 사용 정책 약관이 적용되었던 이전 Gemma 라이선스와는 확연히 달라진 점입니다. Apache 2.0은 수많은 오픈 인프라 뒤에 있는 것과 동일한 허용적 라이선스이므로 법률 검토가 빠르게 진행되는 경향이 있습니다.

필요한 하드웨어

구글의 목표는 16GB 기기, 즉 VRAM 또는 Apple 스타일의 통합 메모리입니다. 양자화를 통해 이를 줄일 수 있습니다:

이는 12B가 주류 게이밍 GPU, 16GB MacBook 또는 중급 워크스테이션에서 실행될 수 있음을 의미합니다. 하드웨어 사양이 부족하다면 더 작은 E2B 및 E4B 모델이 더 적합합니다.

알아두어야 할 제한 사항

구글은 모델 카드에서 트레이드오프에 대해 직접적으로 언급합니다:

이는 12B 오픈 모델에 대한 일반적인 주의사항입니다. 가장 어려운 추론 작업에서 최첨단 클라우드 모델을 대체하지는 않겠지만, 그것이 핵심은 아닙니다. 핵심은 데이터가 이미 있는 곳에서 실행되는 강력한 멀티모달 AI입니다.

FAQ

Gemma 4 12B는 무료인가요? 네. 가중치는 Apache 2.0 라이선스하에 공개되어 있으며 Hugging Face와 Kaggle에서 무료로 다운로드할 수 있습니다. 모델을 실행하는 하드웨어 또는 클라우드 비용만 지불하면 됩니다. Gemma 4 12B를 무료로 사용하는 방법을 참조하세요.

Gemma 4 12B가 실제로 오디오를 이해할 수 있나요? 네. 원시 오디오를 입력으로 받아 음성을 전사하고, 화자를 식별하며, 소리에 대한 질문에 답할 수 있습니다. 별도의 음성 모델을 통하지 않고 네이티브로 이 기능을 수행하는 최초의 중형 모델입니다.

gemma-4-12Bgemma-4-12B-it의 차이점은 무엇인가요? 기본 모델은 사전 훈련만 되어 있습니다. -it 버전은 채팅, 도구 사용 및 지시 따르기에 맞춰 지시 튜닝되었습니다. 대부분의 사람들은 -it 버전을 원할 것입니다.

12B는 26B 및 31B와 어떻게 다른가요? 12B는 조밀하고 인코더가 없으며, 16GB 기기에 최적화되어 있습니다. 26B는 Mixture-of-Experts 모델(4B 활성, 총 26B)이며, 31B는 최첨단 품질을 위한 더 큰 조밀 모델입니다. 두 더 큰 모델 모두 벤치마크에서 더 높은 점수를 얻지만 더 많은 메모리가 필요합니다.

Gemma 4 12B는 도구 호출을 지원하나요? 네. 텍스트 및 멀티모달 함수 호출을 지원하며, 단계별 추론을 위한 선택적 사고 모드도 지원하여 에이전트 워크플로에 활용할 수 있습니다.

Gemini 3.5와 어떻게 비교되나요? 역할이 다릅니다. Gemini 3.5는 구글의 호스팅되는 최첨단 모델입니다. Gemini 3.5란 무엇인가를 참조하세요. Gemma 4 12B는 사용자가 직접 실행하는 오픈 모델입니다. 최고 품질의 일부를 개인 정보 보호, 오프라인 사용 및 토큰당 비용 없음과 교환하는 것입니다.

버튼

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요

젬마 4 12B란 무엇인가요?