모델 변형
엣지 배포를 위한 인스트럭션 튜닝
Gemma 4 E4B는 Per-Layer Embeddings (PLE)를 활용하여 파라미터 효율을 극대화하고, 컴팩트한 아키텍처에서 뛰어난 성능을 제공합니다.
인스트럭션 튜닝
E4B Instruct
대화형 AI, 오디오 이해, 온디바이스 작업 처리에 최적화
오디오 입력을 포함한 네이티브 멀티모달 지원으로 지시 수행에 파인튜닝 완료
사전 학습
E4B Base
엣지 및 모바일 애플리케이션 파인튜닝을 위한 기반 모델
최대한의 유연성을 위해 오디오를 포함한 다양한 멀티모달 데이터로 사전 학습 완료
기능
엣지 하드웨어에서 데스크톱급 지능을
Gemma 4 E4B는 멀티모달 이해, 코딩 지원, 추론 능력을 손안에 들어오는 디바이스에서 제공합니다.
네이티브 오디오 입력
USM 스타일 conformer 오디오 인코더가 최대 30초의 음성 및 오디오 클립을 직접 처리합니다. 별도의 음성 인식 파이프라인이 필요 없습니다.
강력한 추론
설정 가능한 사고 모드로 AIME 2026 수학에서 42.5%, GPQA Diamond 대학원 수준 과학에서 58.6%를 달성했습니다.
뛰어난 코딩
LiveCodeBench v6에서 52%, Codeforces ELO 940을 달성했습니다. 네이티브 함수 호출로 온디바이스 에이전트 워크플로우를 지원합니다.
128K 컨텍스트 윈도우
긴 문서, 전체 코드베이스, 확장된 대화를 하이브리드 로컬/글로벌 어텐션으로 온디바이스에서 처리합니다.
비전 이해
MMMU Pro에서 52.6%, MATH-Vision에서 59.5%를 달성했습니다. 가변 종횡비 지원과 설정 가능한 이미지 토큰 예산을 제공합니다.
어디서나 실행
WebGPU를 통해 브라우저에서, ONNX를 통해 스마트폰에서, Ollama를 통해 노트북에서 실행됩니다. 4비트 양자화 시 최소 5.5GB VRAM만 필요합니다.
주요 하이라이트
엣지 성능 지표
Gemma 4 E4B는 일반 소비자 하드웨어에서 실행되면서도 다양한 벤치마크에서 뛰어난 결과를 달성합니다.
주요 성과
- MMLU Pro 지식 및 추론에서 69.4%
- LiveCodeBench v6 코딩에서 52%
- GPQA Diamond 과학 지식에서 58.6%
- MMMU Pro 멀티모달 추론에서 52.6%
- 128K 토큰 컨텍스트 윈도우
기술 사양
- 4.5B 유효 파라미터 (임베딩 포함 8B)
- Per-Layer Embeddings 적용 42개 디코더 레이어
- 약 150M 비전 인코더 + 약 300M 오디오 인코더
- 네이티브 텍스트, 이미지, 비디오, 오디오 입력
- 4비트 양자화 시 5.5-6GB VRAM
성능
체급을 뛰어넘는 성능
Gemma 4 E4B는 4.5B 유효 파라미터만으로 MMLU Pro 69.4%, LiveCodeBench v6 52%를 달성하며, 두 배 크기의 모델들을 능가합니다.
MMLU Pro 69.4% - 엣지 모델로서 뛰어난 지식 및 추론 능력
LiveCodeBench v6 52% - 온디바이스 실용적 코딩 지원
GPQA Diamond 58.6% - 대학원 수준 과학 이해
MMMU Pro 52.6% - 이미지 기반 멀티모달 추론
Codeforces ELO 940 - 경쟁 프로그래밍 역량
벤치마크 비교
E4B vs Gemma 4 패밀리 및 Gemma 3
Gemma 4 E4B는 뛰어난 엣지 성능을 제공하며, 더 큰 모델들은 더 무거운 작업을 처리합니다.
| Benchmark | Gemma 4 E4B IT Thinking 주목 | Gemma 4 E2B IT Thinking | Gemma 4 31B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|
MMLU Pro 지식 및 추론 | 69.4% | 60.0% | 85.2% | 67.6% |
AIME 2026 수학 도구 미사용 | 42.5% | 37.5% | 89.2% | 20.8% |
GPQA Diamond 과학 지식 | 58.6% | 43.4% | 84.3% | 42.4% |
LiveCodeBench v6 경쟁 코딩 | 52.0% | 44.0% | 80.0% | 29.1% |
Codeforces ELO 경쟁 프로그래밍 | 940 | 633 | 2150 | - |
MMMU Pro 멀티모달 추론 | 52.6% | 44.2% | 76.9% | 49.7% |
MATH-Vision 시각 수학 추론 | 59.5% | 52.4% | 85.6% | - |
Audio Support 네이티브 오디오 입력 | Yes | Yes | No | No |
Context Window 최대 토큰 수 | 128K | 128K | 256K | 128K |
벤치마크 결과는 Gemma 4 공식 모델 카드 기준입니다. E4B 벤치마크는 파라미터 수 대비 탁월한 효율성을 보여줍니다.
네이티브 오디오
음성 인식 파이프라인 없이 음성을 이해
Gemma 4 E4B에는 음성과 오디오를 직접 처리하는 USM 스타일 conformer 오디오 인코더가 내장되어 있습니다. 별도의 ASR 모델 없이 오디오를 입력하면 지능적인 응답을 받을 수 있습니다.
- 약 300M 파라미터 conformer 오디오 인코더 내장
- 최대 30초 오디오 클립 직접 처리
- 음성 비서, 오디오 분석, 접근성 도구에 이상적
엣지 배포
브라우저에서 스마트폰, Raspberry Pi까지
Gemma 4 E4B는 어디서든 배포할 수 있도록 설계되었습니다. transformers.js를 통해 Chrome에서 WebGPU로, ONNX를 통해 스마트폰에서, Ollama를 통해 노트북에서 실행하세요. 4비트 양자화 시 최소 5.5GB VRAM만 필요합니다.
- 브라우저: Chrome에서 WebGPU 가속을 지원하는 transformers.js
- 모바일: iOS 및 Android 배포를 위한 ONNX 체크포인트
- 로컬: 프라이빗 온디바이스 추론을 위한 Ollama, llama.cpp, MLX
비전 및 문서
온디바이스 이미지 이해 및 문서 파싱
약 150M 비전 인코더는 가변 종횡비와 설정 가능한 토큰 예산으로 이미지를 처리합니다. 뛰어난 OCR 및 문서 이해 능력으로 온디바이스 문서 분석에 실용적입니다.
- MMMU Pro 멀티모달 추론에서 52.6%
- 가변 이미지 해상도: 이미지당 70~1120 토큰
- 온디바이스 문서 파싱, OCR, 차트 이해
시작하기
Gemma 4 E4B를 지금 바로 체험하세요
바로 채팅을 시작하거나, 온디바이스 배포를 위해 다운로드하세요.
가중치 다운로드
온디바이스 배포
엣지 및 로컬 배포를 위한 공식 모델 가중치를 다운로드하세요.
엣지 플랫폼
브라우저 및 모바일 배포
엣지 디바이스, 브라우저, 모바일 플랫폼에 배포하세요.
Gemma 4의 일원
최첨단 패밀리의 엣지 모델
Gemma 4 E4B는 Gemma 4 패밀리에서 권장하는 엣지 모델입니다. 더 강력한 성능이 필요하면 26B MoE 또는 31B Dense로, 더 작은 크기가 필요하면 E2B로 전환하세요.

