Gemma 4 E2B

가장 작은 Gemma 4 - 23억 파라미터로 완전한 멀티모달 지능

Gemma 4 E2B는 단 23억 유효 파라미터에 텍스트, 이미지, 오디오 이해 능력을 담았습니다. 128K 컨텍스트와 최소 4GB RAM으로 스마트폰, IoT 기기, 가장 제한된 하드웨어 환경에서도 진정한 AI 기능을 제공합니다.

모델 변형

초소형 인스트럭션 튜닝 모델

Gemma 4 E2B는 Per-Layer Embeddings(PLE)를 활용하여 최소한의 파라미터에서 최대 성능을 이끌어냅니다.

Per-Layer Embeddings 아키텍처

유효 파라미터 23억, Embeddings 포함 총 51억

Gemma 4 E2B는 PLE를 사용하여 35개 디코더 레이어 각각에 고유한 컨디셔닝 경로를 부여합니다. 약 1.5억 파라미터의 비전 인코더와 약 3억 파라미터의 오디오 인코더로 최소한의 연산 비용으로 텍스트, 이미지, 오디오를 네이티브로 처리합니다.

Gemma 4에 가장 쉽게 진입할 수 있는 모델입니다. 스마트폰, IoT, Raspberry Pi 등 메모리가 가장 큰 제약인 환경에 이상적입니다.

인스트럭션 튜닝

E2B Instruct

오디오 이해를 갖춘 온디바이스 대화형 AI에 최적화

네이티브 멀티모달 지원으로 지시를 따르도록 파인튜닝

지금 이용 가능

사전 학습

E2B Base

초소형 엣지 애플리케이션 파인튜닝을 위한 기반 모델

다양한 멀티모달 데이터로 사전 학습하여 최소 크기에서 최대 유연성 제공

지금 이용 가능

기능

가장 작은 규모에서 실현하는 진짜 AI 기능

Gemma 4 E2B는 실용적인 AI에 대규모 하드웨어가 필요하지 않음을 증명합니다. 스마트폰에 들어가는 모델로 오디오, 비전, 추론, 코딩을 지원합니다.

네이티브 오디오 입력

USM 스타일 Conformer 오디오 인코더가 최대 30초의 음성 및 오디오 클립을 처리합니다. 가장 작은 기기에서도 음성 어시스턴트와 오디오 분석이 가능합니다.

실용적 추론

MMLU Pro 60%, AIME 2026 수학 37.5% 달성. 설정 가능한 사고 모드로 디바이스에서 단계별 문제 해결을 지원합니다.

코딩 지원

LiveCodeBench v6 44%, Codeforces ELO 633 달성. 제한된 하드웨어에서도 실용적인 코드 생성과 디버깅이 가능합니다.

128K 컨텍스트 윈도우

디바이스에서 긴 문서 처리와 장시간 대화를 지원합니다. 하이브리드 어텐션으로 메모리 사용량을 실용적 수준으로 유지합니다.

비전 이해

MMMU Pro 44.2% 달성. 가변 종횡비를 지원하여 디바이스에서 문서 파싱, OCR, 이미지 분석이 가능합니다.

최소 풋프린트

4비트 양자화 시 최소 3.2GB VRAM. 스마트폰, Raspberry Pi, 보급형 노트북에서 실행됩니다.

주요 하이라이트

초소형 모델 성능 지표

Gemma 4 E2B는 가장 제한된 하드웨어에 맞으면서도 다양한 작업에서 의미 있는 결과를 제공합니다.

주요 성과

  • MMLU Pro 지식 및 추론 60%
  • LiveCodeBench v6 코딩 44%
  • GPQA Diamond 과학 지식 43.4%
  • MMMU Pro 멀티모달 추론 44.2%
  • 128K 토큰 컨텍스트 윈도우

기술 사양

  • 유효 파라미터 23억 (Embeddings 포함 51억)
  • Per-Layer Embeddings 탑재 35개 디코더 레이어
  • 약 1.5억 비전 인코더 + 약 3억 오디오 인코더
  • 텍스트, 이미지, 동영상, 오디오 네이티브 입력
  • 4비트 양자화 시 3.2~4GB VRAM

성능

가장 작은 규모에서 실현하는 실용 AI

Gemma 4 E2B는 단 23억 유효 파라미터로 MMLU Pro 60%, LiveCodeBench v6 44%를 달성하며, 실용적인 AI가 주머니에 들어갈 수 있음을 증명합니다.

Gemma 4 E2B는 패밀리에서 가장 작은 모델도 추론, 코딩, 멀티모달 작업에서 실질적인 가치를 제공할 수 있음을 보여줍니다.

Gemma 4 E2B 성능 비교 차트

MMLU Pro 60% - 초소형 모델로서 탄탄한 지식과 추론력

LiveCodeBench v6 44% - 최소 하드웨어에서 실용적 코딩 지원

GPQA Diamond 43.4% - 23억 파라미터로 과학적 이해력

MMMU Pro 44.2% - 디바이스에서의 멀티모달 추론

소비자 하드웨어에서 초당 95토큰 - 초고속 추론

벤치마크 비교

E2B vs E4B 및 Gemma 4 패밀리

Gemma 4 E2B는 패밀리에서 가장 작은 모델입니다. 더 높은 품질은 E4B, 프론티어 성능은 26B/31B를 선택하세요.

Benchmark
Gemma 4 E2B IT
Thinking
주목
Gemma 4 E4B IT
Thinking
Gemma 4 26B A4B IT
Thinking
Gemma 4 31B IT
Thinking
MMLU Pro
지식 및 추론
60.0%69.4%82.6%85.2%
AIME 2026
수학
도구 없음
37.5%42.5%88.3%89.2%
GPQA Diamond
과학 지식
43.4%58.6%82.3%84.3%
LiveCodeBench v6
경쟁 코딩
44.0%52.0%77.1%80.0%
Codeforces ELO
경쟁 프로그래밍
63394017182150
MMMU Pro
멀티모달 추론
44.2%52.6%73.8%76.9%
VRAM (4-bit)
최소 메모리
~3.2 GB~5.5 GB~16 GB~17 GB
Audio Support
네이티브 오디오 입력
지원지원미지원미지원

Gemma 4 공식 모델 카드의 벤치마크 결과. E2B 벤치마크는 최소 파라미터 수에서의 실용적 능력을 보여줍니다.

초소형

가장 작은 Gemma 4 패키지에 담긴 풀 멀티모달 AI

Gemma 4 E2B는 기능을 줄인 모델이 아닙니다. 상위 모델과 동일한 멀티모달 아키텍처(텍스트, 이미지, 동영상, 오디오 입력)를 23억 유효 파라미터에 담았습니다.

  • E4B와 동일한 모달리티: 텍스트, 이미지, 동영상, 오디오 입력
  • 상위 엣지 모델과 동일한 128K 컨텍스트 윈도우
  • 4비트에서 3.2GB VRAM - 스마트폰과 보급형 하드웨어에 적합
가장 작은 Gemma 4 패키지에 담긴 풀 멀티모달 AI

초고속

소비자 하드웨어에서 초당 95토큰

패밀리에서 가장 작은 모델이 가장 빠르기도 합니다. Gemma 4 E2B는 소비자 하드웨어에서 거의 즉각적인 응답을 제공하여 실시간 애플리케이션과 인터랙티브 경험에 이상적입니다.

  • 소비자 GPU에서 초당 약 95토큰
  • 대부분의 하드웨어에서 1초 미만의 첫 토큰 지연 시간
  • 실시간 채팅, 음성 어시스턴트, 인터랙티브 도구에 이상적
소비자 하드웨어에서 초당 95토큰

IoT & Edge

손안에 들어오는 기기를 위한 AI

Gemma 4 E2B는 엣지를 위해 설계되었습니다. Pixel 스마트폰, Raspberry Pi, Chrome 브라우저 등 벤치마크 점수보다 프라이버시와 지연 시간이 중요한 모든 기기에서 실행됩니다.

  • 크로스 플랫폼 엣지 배포를 위한 ONNX 체크포인트
  • 브라우저 내 추론을 위한 WebGPU 지원
  • Pixel, Chrome, IoT 환경에 맞게 설계
손안에 들어오는 기기를 위한 AI

가중치 다운로드

초소형 배포

가장 작은 배포를 위한 공식 모델 가중치를 다운로드하세요.

Gemma 4 패밀리

프론티어 패밀리의 가장 작은 모델

Gemma 4 E2B는 Gemma 4 패밀리의 진입점입니다. 더 높은 품질은 E4B, 프론티어 성능은 26B/31B를 선택하세요.

Gemma 4 E4B

45억 유효 파라미터의 더 강력한 엣지 모델

비교하기

Gemma 4 26B

4B 추론 비용으로 31B에 근접한 품질의 MoE 모델

자세히 보기

Gemma 4 31B

최고 성능의 플래그십 Dense 모델

자세히 보기

문서

통합 및 배포를 위한 완전한 가이드

문서 읽기

커뮤니티

Gemma로 개발하는 개발자들과 함께하세요

탐색하기

모델 카드

기술 사양 및 평가 결과

상세 보기

시작하기

가장 작은 기기에서 AI를 실행할 준비가 되셨나요?

무료로 채팅을 시작하거나, Gemma 4 E2B를 다운로드하여 초소형, 프라이빗, 온디바이스 배포를 시작하세요.