개요
2026년 4월 2일 Apache 2.0 라이선스로 출시된 Gemma 4는 4가지 아키텍처에서 최첨단 수준의 멀티모달 인텔리전스를 제공합니다. 초경량 2B 엣지 모델부터 플래그십 31B 밀집 모델까지, 모든 크기에서 텍스트, 가변 해상도 이미지, 비디오, 오디오를 네이티브로 처리합니다.
엣지 모델
2.3B 및 4.5B 유효 파라미터를 가진 초소형 모델. Pixel, Chrome, 브라우저 배포를 위해 설계되었으며 네이티브 오디오 지원과 128K 컨텍스트를 제공합니다.
E2B와 E4B 변형은 Per-Layer Embeddings(PLE)를 사용하여 파라미터 효율성을 극대화합니다. 텍스트, 이미지, 비디오, 오디오 입력을 네이티브로 지원하여 프라이버시 중심의 온디바이스 애플리케이션에 이상적입니다.
서버 모델
31B 밀집 모델은 Arena AI 리더보드에서 3위를 차지하며 AIME 2026에서 89.2%를 달성했습니다. 26B MoE는 토큰당 4B 파라미터만 활성화하면서 유사한 품질을 유지합니다.
두 모델 모두 256K 컨텍스트 윈도우, 네이티브 함수 호출, 구성 가능한 사고 모드를 갖추고 있습니다. 31B는 MMLU Pro에서 85.2%, LiveCodeBench v6에서 80%를 달성하여 수배 큰 모델과 경쟁합니다.
기능
모든 모델이 텍스트, 가변 종횡비 이미지, 비디오, 오디오를 네이티브로 처리합니다. E2B와 E4B에는 음성 이해를 위한 오디오 인코더가 포함되어 있습니다.
비전 인코더는 학습된 2D 위치와 다차원 RoPE를 사용하여 원본 종횡비를 보존합니다. 이미지는 최적의 속도-품질 트레이드오프를 위해 다양한 토큰 예산(70, 140, 280, 560, 1120)으로 인코딩될 수 있습니다.
아키텍처
소형 모델은 128K 컨텍스트를 제공하고, 중형 모델은 256K를 지원합니다. 듀얼 RoPE 구성으로 더 긴 컨텍스트 처리가 가능합니다.
로컬 슬라이딩 윈도우(512-1024 토큰)와 글로벌 전체 컨텍스트 어텐션 레이어를 교대로 배치하여 메모리 사용을 최적화합니다. 공유 KV 캐시는 긴 컨텍스트 생성 시 연산과 메모리를 줄입니다.
기능
모든 모델이 고급 추론 작업을 위한 구성 가능한 사고 모드를 지원하며, 구조화된 대화를 위한 네이티브 시스템 프롬프트 지원을 제공합니다.
31B 모델은 AIME 2026 수학 추론에서 89.2%, GPQA Diamond에서 84.3%를 달성합니다. 내장된 함수 호출로 파인튜닝 없이 자율 에이전트를 구현할 수 있습니다.
성능
31B 모델은 LiveCodeBench v6에서 80%, Codeforces ELO에서 2150을 달성합니다. 26B MoE는 4B 활성 파라미터만으로 77.1%를 달성합니다.
코딩 벤치마크의 눈에 띄는 개선과 내장된 함수 호출 지원으로 고도로 유능한 자율 에이전트가 가능합니다. HLE 벤치마크에서 도구 없이 19.5%, 검색 포함 시 26.5%를 보여줍니다.
멀티모달
31B 모델은 MMMU Pro에서 76.9%, MATH-Vision에서 85.6%를 달성합니다. OmniDocBench 편집 거리 0.131은 강력한 OCR 기능을 보여줍니다.
가변 종횡비 지원과 구성 가능한 이미지 토큰 예산으로 문서, 다이어그램, 스크린샷을 효율적으로 처리할 수 있습니다. E4B 모델은 컴팩트한 크기에도 불구하고 MMMU Pro에서 52.6%에 도달합니다.
통합
transformers, llama.cpp, MLX, WebGPU, Mistral.rs 등을 첫날부터 지원합니다. ONNX 체크포인트로 엣지 디바이스 배포가 가능합니다.
Apache 2.0 라이선스로 책임 있는 상업적 사용이 가능합니다. Kaggle, Hugging Face, Google AI Studio에서 이용 가능합니다. Ollama와 같은 로컬 도구와 호환되어 프라이빗하고 오프라인 상호작용이 가능합니다.
소개
Google DeepMind가 소개하는 4가지 모델 아키텍처, 네이티브 멀티모달 기능, 배포 옵션에 대해 알아보세요.
성능
Gemma 4 모델은 파레토 프론티어를 형성하여 크기 대비 탁월한 성능을 제공합니다. 31B 밀집 모델은 Arena AI 리더보드에서 전체 오픈 모델 중 3위를 차지했습니다.
공식 벤치마크는 수배 더 큰 모델과의 경쟁력 있는 성능을 보여줍니다. 31B 모델은 AIME 2026 수학 추론에서 89.2%를 달성했으며, 26B MoE는 4B 활성 파라미터만으로 유사한 품질에 도달합니다.


31B 모델은 AIME 2026에서 89.2%, MMLU Pro에서 85.2%를 달성하여 100B 파라미터 이상의 모델과 경쟁합니다.
코딩 성능은 LiveCodeBench v6에서 80%, Codeforces ELO에서 2150에 도달하여 많은 대형 모델을 앞섭니다.
비전 기능에는 MMMU Pro에서 76.9%, MATH-Vision에서 85.6%가 포함되며, 강력한 OCR 및 문서 이해 능력을 갖추고 있습니다.
공식 벤치마크
추론, 코딩, 비전, 오디오, 긴 컨텍스트 작업 전반에 걸친 포괄적인 평가로 최첨단 수준의 기능을 보여줍니다.
| Benchmark | Gemma 4 31B 밀집 플래그십 31B | Gemma 4 26B A4B MoE (4B 활성) 26B | Gemma 4 E4B 엣지 모델 E4B | Gemma 4 E2B 초소형 E2B |
|---|---|---|---|---|
MMLU Pro 지식 & 추론 | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 (도구 없음) 수학 추론 | 89.2% | 88.3% | 42.5% | 37.5% |
GPQA Diamond 대학원 수준 과학 | 84.3% | 82.3% | 58.6% | 43.4% |
LiveCodeBench v6 코딩 성능 | 80.0% | 77.1% | 52.0% | 44.0% |
Codeforces ELO 경쟁 프로그래밍 | 2150 | 1718 | 940 | 633 |
MMMU Pro 멀티모달 이해 | 76.9% | 73.8% | 52.6% | 44.2% |
MATH-Vision 시각적 수학 추론 | 85.6% | 82.4% | 59.5% | 52.4% |
OmniDocBench 1.5 문서 OCR (편집 거리) | 0.131 | 0.149 | 0.181 | 0.290 |
컨텍스트 윈도우 최대 토큰 수 | 256K | 256K | 128K | 128K |
오디오 지원 네이티브 오디오 입력 | 없음 | 없음 | 있음 | 있음 |
모든 수치는 공식 Gemma 4 모델 카드와 Hugging Face 블로그에서 가져왔습니다. E2B와 E4B 벤치마크는 파라미터 수 대비 탁월한 효율성을 보여줍니다.
서버 모델
31B 밀집 모델은 Arena AI 리더보드에서 3위를 차지하며 AIME 2026에서 89.2%를 달성했습니다. 26B MoE는 토큰당 4B 파라미터만 활성화하면서 유사한 품질을 유지하여 높은 처리량 시나리오에 이상적입니다.
엣지 모델
2.3B 및 4.5B 유효 파라미터를 가진 초소형 모델로, Pixel, Chrome, 브라우저 배포를 위해 설계되었습니다. 네이티브 오디오 인코더로 온디바이스에서 실시간 음성 이해가 가능합니다.
아키텍처
Gemma 4는 효율성을 극대화하는 아키텍처 혁신을 도입합니다. PLE는 각 디코더 레이어에 고유한 조건화 경로를 제공하고, 공유 KV 캐시는 긴 컨텍스트 생성 중 메모리 사용량을 줄입니다.

멀티모달
모든 모델이 텍스트와 가변 종횡비 이미지를 네이티브로 처리합니다. 비전 인코더는 학습된 2D 위치를 사용하며, 속도-품질 트레이드오프를 위해 이미지를 다양한 토큰 예산(70-1120)으로 인코딩할 수 있습니다.

배포
transformers, llama.cpp, MLX, WebGPU, Mistral.rs 등을 첫날부터 지원합니다. E2B와 E4B는 transformers.js로 브라우저에서 실행되며, 31B와 26B는 서버 하드웨어에서 뛰어난 성능을 발휘합니다.

FAQ
Per-Layer Embeddings부터 멀티모달 처리까지, Gemma 4의 기술 혁신을 이해합니다.
Gemma 4는 네이티브 멀티모달 지원(텍스트, 이미지, 비디오, 오디오), 확장된 컨텍스트 윈도우(128K-256K), 구성 가능한 사고 모드, 내장 함수 호출을 도입합니다. 아키텍처는 효율성을 위해 Per-Layer Embeddings(PLE)를 사용하고, 긴 컨텍스트 생성 중 메모리 사용량을 줄이기 위해 공유 KV 캐시를 사용합니다.
E2B(2.3B 유효)와 E4B(4.5B 유효)는 네이티브 오디오 지원을 갖춘 엣지 디바이스, 브라우저, 모바일용으로 설계되었습니다. 26B A4B는 토큰당 4B 파라미터만 활성화하는 Mixture-of-Experts 모델로, 높은 처리량 시나리오에 이상적입니다. 31B 밀집 모델은 추론, 코딩, 비전 작업에서 최대 성능을 발휘하는 플래그십입니다.
모든 모델이 텍스트와 가변 종횡비 이미지를 네이티브로 처리합니다. 비전 인코더는 학습된 2D 위치를 사용하며, 속도-품질 트레이드오프를 위해 이미지를 다양한 토큰 예산(70-1120 토큰)으로 인코딩할 수 있습니다. E2B와 E4B에는 음성 이해를 위한 USM 스타일 컨포머 오디오 인코더가 포함되어 있습니다. 비디오는 프레임과 오디오 트랙을 처리하여 전체 패밀리에서 지원됩니다.
PLE는 각 디코더 레이어에 모든 토큰에 대한 고유한 작은 임베딩을 제공하여, 메인 잔차 스트림과 병렬로 조건화 경로를 생성합니다. 이를 통해 각 레이어는 관련이 있을 때만 토큰별 정보를 받을 수 있으며, 모든 것을 단일 사전 임베딩에 패킹할 필요가 없습니다. 적은 파라미터 비용으로 의미 있는 레이어별 특수화를 추가하여 소형 모델을 더 효율적으로 만듭니다.
FAQ
클라우드부터 엣지 디바이스까지 다양한 플랫폼에서 Gemma 4를 시작하세요.
Gemma 4 모델은 Apache 2.0 라이선스 하에 Kaggle과 Hugging Face에서 이용 가능합니다. Google AI Studio를 통해 사용하거나, Vertex AI에 배포하거나, Ollama, llama.cpp, MLX(Apple Silicon용), transformers, Mistral.rs와 같은 도구로 로컬에서 실행할 수 있습니다. ONNX 체크포인트로 브라우저 및 엣지 디바이스 배포가 가능합니다.
E2B는 약 9.6GB(BF16)에서 3.2GB(4비트) VRAM이 필요합니다. E4B는 약 15GB(BF16)에서 5GB(4비트)가 필요합니다. 31B 모델은 약 58GB(BF16)에서 17GB(4비트)가 필요합니다. 26B MoE는 약 48GB(BF16)에서 16GB(4비트)가 필요합니다. 이는 기본 가중치만 해당하며, 사용 사례에 따라 컨텍스트 윈도우(KV 캐시)를 위한 메모리를 추가해야 합니다.
네. E2B와 E4B 모델은 브라우저 및 모바일 배포를 위해 특별히 설계되었습니다. transformers.js를 사용하면 WebGPU 지원이 있는 브라우저에서 Gemma 4를 직접 실행할 수 있습니다. ONNX 체크포인트는 다양한 엣지 하드웨어 백엔드에서 작동합니다. 모델은 Pixel 디바이스와 Chrome 브라우저 환경에 최적화되어 있습니다.
Gemma 4는 파인튜닝이 필요 없는 내장 함수 호출 지원을 제공합니다. 모델은 도구 정의를 파싱하고, 구조화된 JSON 호출을 생성하며, 멀티모달 함수 호출(예: 이미지를 분석하고 날씨 API 호출)을 처리할 수 있습니다. 이를 통해 코드 실행, 웹 브라우징, 데이터 검색과 같은 작업을 위한 자율 에이전트가 가능합니다.
FAQ
Gemma 4가 다른 모델과 어떻게 비교되며 다양한 사용 사례에서 경쟁력이 있는 이유.
31B 모델은 Arena AI 리더보드에서 오픈 모델 중 3위를 차지하며, 크기가 절반 이하임에도 불구하고 Llama 3.3 70B를 앞섭니다. AIME 2026 수학 추론에서 89.2%, MMLU Pro에서 85.2%, LiveCodeBench v6에서 80%를 달성합니다. 효율성은 교대 어텐션 패턴 및 공유 KV 캐시와 같은 아키텍처 혁신에서 비롯됩니다.
26B A4B 모델은 총 260억 개의 파라미터를 가지고 있지만 생성 중에는 토큰당 40억 개만 활성화합니다. 빠른 라우팅을 위해 모든 26B 파라미터를 메모리에 로드해야 하지만, 추론 비용은 4B 모델에 가깝습니다. 이를 통해 AIME 2026에서 88.3%, MMLU Pro에서 82.6%를 달성하며, 밀집 31B 모델보다 토큰당 연산량이 훨씬 적습니다.
네. 소형 모델은 128K 컨텍스트 윈도우를 지원하고, 중형 모델은 256K 토큰을 처리합니다. 아키텍처는 더 긴 컨텍스트를 가능하게 하기 위해 듀얼 RoPE 구성(슬라이딩 레이어용 표준, 글로벌 레이어용 프루닝)을 사용합니다. 공유 KV 캐시는 긴 컨텍스트 생성 중 메모리 소비를 줄여 전체 코드베이스와 연구 논문 처리를 실용적으로 만듭니다.
Gemma 4는 TRL(Transformer Reinforcement Learning)에서 완전히 지원되며, 멀티모달 도구 응답 및 환경 상호작용 예제가 있습니다. Hugging Face는 SFT를 사용한 Vertex AI용 파인튜닝 가이드를 제공합니다. Unsloth Studio는 UI 기반 파인튜닝 경험을 제공합니다. 모델은 파라미터 효율적인 학습을 위한 LoRA와 같은 PEFT 방법을 지원합니다.