전체 모델
용도에 맞는 Gemma 4를 선택하세요
패밀리의 각 모델은 서로 다른 배포 시나리오에 최적화되어 있습니다. 엣지 모델은 오디오를 지원하고, 서버 모델은 256K 컨텍스트와 프론티어급 추론을 제공합니다.
엣지 모델
E2B & E4B: 오디오 지원 온디바이스 AI
유효 파라미터 2.3B 및 4.5B의 초소형 모델. 네이티브 오디오 인코더, 128K 컨텍스트를 탑재하며 스마트폰, 브라우저, IoT 디바이스에서 실행됩니다.
최소 용량이 필요하면 E2B(4-bit 3.2GB). 더 높은 품질이 필요하면 E4B(4-bit 5.5GB). 둘 다 텍스트, 이미지, 비디오, 오디오 입력을 지원합니다.
엣지 - 초소형
Gemma 4 E2B
유효 파라미터 2.3B. 풀 멀티모달 + 오디오를 지원하는 가장 작은 Gemma 4.
35개 레이어, PLE 아키텍처, 비전 약 150M + 오디오 인코더 약 300M. 4-bit VRAM 3.2GB.
엣지 - 추천
Gemma 4 E4B
유효 파라미터 4.5B. 뛰어난 추론력과 오디오를 지원하는 최고의 엣지 모델.
42개 레이어, PLE 아키텍처, 비전 약 150M + 오디오 인코더 약 300M. 4-bit VRAM 5.5GB.
서버 - 고효율
Gemma 4 26B A4B
총 25.2B, 토큰당 3.8B 활성화. 훨씬 적은 연산으로 31B에 근접한 품질.
128개 전문가 MoE(8개 활성화 + 1개 공유). 256K 컨텍스트. 4-bit VRAM 16GB.
공통 기능
모든 Gemma 4 모델이 할 수 있는 것
4개 모델 모두 Gemma 4 패밀리를 독보적으로 다재다능하게 만드는 공통 기능 세트를 갖추고 있습니다.
네이티브 멀티모달
모든 모델이 텍스트와 이미지를 네이티브로 처리합니다. 엣지 모델은 오디오와 비디오도 지원합니다. 별도의 인코더나 파이프라인이 필요 없습니다.
구성 가능한 사고 기능
모든 모델이 단계별 추론을 위한 사고 모드를 지원합니다. 작업 복잡도에 따라 추론 깊이를 조절할 수 있습니다.
Function Calling
패밀리 전체에 내장된 Function Calling으로 에이전트 워크플로를 구현합니다. 도구 사용에 파인튜닝이 필요 없습니다.
확장 컨텍스트
엣지 모델 128K 토큰, 서버 모델 256K 토큰. 하이브리드 어텐션으로 메모리 사용량을 실용적으로 유지합니다.
140개 이상 언어
모든 모델 크기에서 문화적 맥락을 이해하는 다국어 지원을 제공합니다.
Apache 2.0 라이선스
완전한 상업적 자유. MAU 제한 없음, 사용 제한 없음. 어디서든 배포하고 자유롭게 수정할 수 있습니다.
빠른 선택 가이드
어떤 모델을 선택해야 할까요?
배포 환경의 제약과 품질 요구사항에 맞는 Gemma 4 변형을 찾아보세요.
하드웨어별
- 스마트폰 / IoT / 4GB RAM: Gemma 4 E2B
- 노트북 / 8-16GB RAM: Gemma 4 E4B
- 단일 GPU / 16-24GB VRAM: Gemma 4 26B A4B
- 멀티 GPU / 24GB+ VRAM: Gemma 4 31B
용도별
- 음성 어시스턴트 / 오디오: E2B 또는 E4B (오디오 지원)
- 브라우저 기반 AI: E2B 또는 E4B (WebGPU)
- 고처리량 API: 26B A4B (MoE 효율성)
- 최고 품질: 31B Dense (프론티어 성능)
성능
전체 4개 모델의 완전한 벤치마크 비교
Gemma 4의 각 모델은 파레토 프론티어를 형성하며, 파라미터 수 대비 탁월한 성능을 제공합니다.
31B Dense: Arena AI 3위 (ELO 1452), AIME 2026 89.2%, LiveCodeBench v6 80%
26B MoE: 토큰당 4B 활성화 파라미터로 31B에 근접한 품질 (ELO 1441)
E4B: MMLU Pro 69.4%, LiveCodeBench 52% - 오디오 지원의 뛰어난 엣지 성능
E2B: MMLU Pro 60%, LiveCodeBench 44% - VRAM 3.2GB로 실용적인 AI 구현
패밀리 전체 비교
Gemma 4 전 모델 나란히 비교
추론, 코딩, 멀티모달, 배포 지표에 걸친 완전한 벤치마크 결과.
| Benchmark | 31B Dense 플래그십 31B | 26B A4B MoE 26B | E4B 엣지 E4B | E2B 컴팩트 E2B |
|---|---|---|---|---|
Arena AI ELO 종합 랭킹 | 1452 | 1441 | - | - |
MMLU Pro 지식 및 추론 | 85.2% | 82.6% | 69.4% | 60.0% |
AIME 2026 수학 | 89.2% | 88.3% | 42.5% | 37.5% |
LiveCodeBench v6 코딩 | 80.0% | 77.1% | 52.0% | 44.0% |
GPQA Diamond 과학 | 84.3% | 82.3% | 58.6% | 43.4% |
MMMU Pro 멀티모달 | 76.9% | 73.8% | 52.6% | 44.2% |
Context Window 최대 토큰 수 | 256K | 256K | 128K | 128K |
Audio Support 네이티브 오디오 | No | No | Yes | Yes |
VRAM (4-bit) 최소 메모리 | ~17 GB | ~16 GB | ~5.5 GB | ~3.2 GB |
모든 수치는 Gemma 4 공식 모델 카드 기준. Arena AI 점수는 2026년 4월 2일 기준.
엣지 계층
E2B & E4B: 디바이스에서 실행되는 AI
엣지 모델은 스마트폰, 브라우저, IoT 디바이스에 풀 멀티모달 AI를 제공합니다. 둘 다 네이티브 오디오 인코더를 탑재하고 있으며, 이는 대형 모델에는 없는 기능입니다. 최소 용량이 필요하면 E2B, 더 높은 품질이 필요하면 E4B를 선택하세요.
- E2B: 유효 파라미터 2.3B, 4-bit 3.2GB, 일반 하드웨어에서 95 tok/s
- E4B: 유효 파라미터 4.5B, 4-bit 5.5GB, 뛰어난 추론 및 코딩 성능
- 공통: 네이티브 오디오, 128K 컨텍스트, WebGPU 브라우저 지원
서버 계층
26B MoE & 31B Dense: 프론티어 성능
서버 모델은 프론티어급 추론, 코딩, 멀티모달 이해를 제공합니다. 26B MoE는 훨씬 적은 연산으로 31B에 근접한 품질을 제공합니다. 31B Dense는 최고 성능의 플래그십입니다.
- 26B MoE: 토큰당 3.8B 활성화, ELO 1441, AIME 2026 88.3%
- 31B Dense: 전체 30.7B 활성화, ELO 1452, AIME 2026 89.2%
- 공통: 256K 컨텍스트, 네이티브 Function Calling, 140개 이상 언어
지금 체험
Gemma 4 모든 모델과 채팅하기
채팅 인터페이스로 모든 모델을 즉시 체험하거나, 로컬 배포용으로 다운로드하세요.
다운로드
모델 가중치 받기
Gemma 4 전체 변형의 공식 가중치를 다운로드하세요.
배포
프로덕션 배포
클라우드, 로컬 또는 엣지 플랫폼에 배포하세요.
Gemma 4 패밀리
각 모델을 자세히 살펴보기
아키텍처, 벤치마크, 배포 가이드를 다루는 전용 페이지에서 각 Gemma 4 변형을 깊이 있게 알아보세요.

