Gemma 4: 어디서나 실행 가능한 최첨단 멀티모달 인텔리전스

개요

4개의 모델, 하나의 패밀리: 엣지부터 서버급 성능까지

2026년 4월 2일 Apache 2.0 라이선스로 출시된 Gemma 4는 4가지 아키텍처에서 최첨단 수준의 멀티모달 인텔리전스를 제공합니다. 초경량 2B 엣지 모델부터 플래그십 31B 밀집 모델까지, 모든 크기에서 텍스트, 가변 해상도 이미지, 비디오, 오디오를 네이티브로 처리합니다.

엣지 모델

Gemma 4 E2B & E4B: 온디바이스 인텔리전스

2.3B 및 4.5B 유효 파라미터를 가진 초소형 모델. Pixel, Chrome, 브라우저 배포를 위해 설계되었으며 네이티브 오디오 지원과 128K 컨텍스트를 제공합니다.

E2B와 E4B 변형은 Per-Layer Embeddings(PLE)를 사용하여 파라미터 효율성을 극대화합니다. 텍스트, 이미지, 비디오, 오디오 입력을 네이티브로 지원하여 프라이버시 중심의 온디바이스 애플리케이션에 이상적입니다.

E4B 무료 체험 자세히 알아보기

서버 모델

Gemma 4 31B Dense & 26B MoE: 최첨단 성능

31B 밀집 모델은 Arena AI 리더보드에서 3위를 차지하며 AIME 2026에서 89.2%를 달성했습니다. 26B MoE는 토큰당 4B 파라미터만 활성화하면서 유사한 품질을 유지합니다.

두 모델 모두 256K 컨텍스트 윈도우, 네이티브 함수 호출, 구성 가능한 사고 모드를 갖추고 있습니다. 31B는 MMLU Pro에서 85.2%, LiveCodeBench v6에서 80%를 달성하여 수배 큰 모델과 경쟁합니다.

벤치마크 보기 Hugging Face에서 보기

기능

네이티브 멀티모달

모든 모델이 텍스트, 가변 종횡비 이미지, 비디오, 오디오를 네이티브로 처리합니다. E2B와 E4B에는 음성 이해를 위한 오디오 인코더가 포함되어 있습니다.

비전 인코더는 학습된 2D 위치와 다차원 RoPE를 사용하여 원본 종횡비를 보존합니다. 이미지는 최적의 속도-품질 트레이드오프를 위해 다양한 토큰 예산(70, 140, 280, 560, 1120)으로 인코딩될 수 있습니다.

전체 모델

예제 보기

아키텍처

확장된 컨텍스트 윈도우

소형 모델은 128K 컨텍스트를 제공하고, 중형 모델은 256K를 지원합니다. 듀얼 RoPE 구성으로 더 긴 컨텍스트 처리가 가능합니다.

로컬 슬라이딩 윈도우(512-1024 토큰)와 글로벌 전체 컨텍스트 어텐션 레이어를 교대로 배치하여 메모리 사용을 최적화합니다. 공유 KV 캐시는 긴 컨텍스트 생성 시 연산과 메모리를 줄입니다.

128K-256K

기능

구성 가능한 사고

모든 모델이 고급 추론 작업을 위한 구성 가능한 사고 모드를 지원하며, 구조화된 대화를 위한 네이티브 시스템 프롬프트 지원을 제공합니다.

31B 모델은 AIME 2026 수학 추론에서 89.2%, GPQA Diamond에서 84.3%를 달성합니다. 내장된 함수 호출로 파인튜닝 없이 자율 에이전트를 구현할 수 있습니다.

전체 모델

성능

코딩 & 에이전트 능력

31B 모델은 LiveCodeBench v6에서 80%, Codeforces ELO에서 2150을 달성합니다. 26B MoE는 4B 활성 파라미터만으로 77.1%를 달성합니다.

코딩 벤치마크의 눈에 띄는 개선과 내장된 함수 호출 지원으로 고도로 유능한 자율 에이전트가 가능합니다. HLE 벤치마크에서 도구 없이 19.5%, 검색 포함 시 26.5%를 보여줍니다.

최적화됨

벤치마크 보기

멀티모달

비전 & 문서 분석

31B 모델은 MMMU Pro에서 76.9%, MATH-Vision에서 85.6%를 달성합니다. OmniDocBench 편집 거리 0.131은 강력한 OCR 기능을 보여줍니다.

가변 종횡비 지원과 구성 가능한 이미지 토큰 예산으로 문서, 다이어그램, 스크린샷을 효율적으로 처리할 수 있습니다. E4B 모델은 컴팩트한 크기에도 불구하고 MMMU Pro에서 52.6%에 도달합니다.

전체 모델

통합

어디서나 배포

transformers, llama.cpp, MLX, WebGPU, Mistral.rs 등을 첫날부터 지원합니다. ONNX 체크포인트로 엣지 디바이스 배포가 가능합니다.

Apache 2.0 라이선스로 책임 있는 상업적 사용이 가능합니다. Kaggle, Hugging Face, Google AI Studio에서 이용 가능합니다. Ollama와 같은 로컬 도구와 호환되어 프라이빗하고 오프라인 상호작용이 가능합니다.

오픈소스

시작하기

오늘 Gemma 4와 채팅을 시작하세요

Google DeepMind의 최첨단 멀티모달 모델을 무료로 경험하세요. 첫 대화를 시작하는 데 신용카드가 필요하지 않습니다.

무료 채팅 시작 가격 보기

소개

시청: Gemma 4 공식 소개

Google DeepMind가 소개하는 4가지 모델 아키텍처, 네이티브 멀티모달 기능, 배포 옵션에 대해 알아보세요.

성능

추론, 코딩, 비전 전반에 걸친 최첨단 성능

Gemma 4 모델은 파레토 프론티어를 형성하여 크기 대비 탁월한 성능을 제공합니다. 31B 밀집 모델은 Arena AI 리더보드에서 전체 오픈 모델 중 3위를 차지했습니다.

공식 벤치마크는 수배 더 큰 모델과의 경쟁력 있는 성능을 보여줍니다. 31B 모델은 AIME 2026 수학 추론에서 89.2%를 달성했으며, 26B MoE는 4B 활성 파라미터만으로 유사한 품질에 도달합니다.

지금 체험하기 기술 세부사항 읽기

31B 모델은 AIME 2026에서 89.2%, MMLU Pro에서 85.2%를 달성하여 100B 파라미터 이상의 모델과 경쟁합니다.

코딩 성능은 LiveCodeBench v6에서 80%, Codeforces ELO에서 2150에 도달하여 많은 대형 모델을 앞섭니다.

비전 기능에는 MMMU Pro에서 76.9%, MATH-Vision에서 85.6%가 포함되며, 강력한 OCR 및 문서 이해 능력을 갖추고 있습니다.

공식 벤치마크

주요 작업 전반의 Gemma 4 성능

추론, 코딩, 비전, 오디오, 긴 컨텍스트 작업 전반에 걸친 포괄적인 평가로 최첨단 수준의 기능을 보여줍니다.

Benchmark	Gemma 4 31B 밀집 플래그십 31B	Gemma 4 26B A4B MoE (4B 활성) 26B	Gemma 4 E4B 엣지 모델 E4B	Gemma 4 E2B 초소형 E2B
MMLU Pro 지식 & 추론	85.2%	82.6%	69.4%	60.0%
AIME 2026 (도구 없음) 수학 추론	89.2%	88.3%	42.5%	37.5%
GPQA Diamond 대학원 수준 과학	84.3%	82.3%	58.6%	43.4%
LiveCodeBench v6 코딩 성능	80.0%	77.1%	52.0%	44.0%
Codeforces ELO 경쟁 프로그래밍	2150	1718	940	633
MMMU Pro 멀티모달 이해	76.9%	73.8%	52.6%	44.2%
MATH-Vision 시각적 수학 추론	85.6%	82.4%	59.5%	52.4%
OmniDocBench 1.5 문서 OCR (편집 거리)	0.131	0.149	0.181	0.290
컨텍스트 윈도우 최대 토큰 수	256K	256K	128K	128K
오디오 지원 네이티브 오디오 입력	없음	없음	있음	있음

모든 수치는 공식 Gemma 4 모델 카드와 Hugging Face 블로그에서 가져왔습니다. E2B와 E4B 벤치마크는 파라미터 수 대비 탁월한 효율성을 보여줍니다.

서버 모델

31B Dense & 26B MoE: 프로덕션을 위한 최첨단 성능

31B 밀집 모델은 Arena AI 리더보드에서 3위를 차지하며 AIME 2026에서 89.2%를 달성했습니다. 26B MoE는 토큰당 4B 파라미터만 활성화하면서 유사한 품질을 유지하여 높은 처리량 시나리오에 이상적입니다.

31B Dense: AIME 2026 89.2%, MMLU Pro 85.2%, LiveCodeBench v6 80%, Codeforces ELO 2150
26B MoE (4B 활성): AIME 2026 88.3%, MMLU Pro 82.6%, LiveCodeBench v6 77.1%
효율적인 긴 컨텍스트 처리를 위한 듀얼 RoPE 구성을 갖춘 256K 컨텍스트 윈도우

26B 모델 체험 Hugging Face에서 보기

엣지 모델

E2B & E4B: 오디오 지원을 갖춘 온디바이스 인텔리전스

2.3B 및 4.5B 유효 파라미터를 가진 초소형 모델로, Pixel, Chrome, 브라우저 배포를 위해 설계되었습니다. 네이티브 오디오 인코더로 온디바이스에서 실시간 음성 이해가 가능합니다.

E2B (2.3B 유효, 임베딩 포함 5.1B): MMLU Pro 60%, LiveCodeBench 44%, 128K 컨텍스트
E4B (4.5B 유효, 임베딩 포함 8B): MMLU Pro 69.4%, LiveCodeBench 52%, 128K 컨텍스트
Per-Layer Embeddings(PLE)로 엣지 배포를 위한 파라미터 효율성 극대화

브라우저에서 체험 transformers.js 데모

아키텍처

Per-Layer Embeddings와 공유 KV 캐시

Gemma 4는 효율성을 극대화하는 아키텍처 혁신을 도입합니다. PLE는 각 디코더 레이어에 고유한 조건화 경로를 제공하고, 공유 KV 캐시는 긴 컨텍스트 생성 중 메모리 사용량을 줄입니다.

Per-Layer Embeddings는 적은 파라미터 비용으로 의미 있는 레이어별 특수화를 추가
공유 KV 캐시: 마지막 N개 레이어가 키-값 상태를 재사용하여 중복 프로젝션 제거
최적의 메모리 사용을 위한 로컬 슬라이딩 윈도우와 글로벌 전체 컨텍스트 어텐션 교대 배치

기술 세부사항

멀티모달

네이티브 이미지, 비디오, 오디오 이해

모든 모델이 텍스트와 가변 종횡비 이미지를 네이티브로 처리합니다. 비전 인코더는 학습된 2D 위치를 사용하며, 속도-품질 트레이드오프를 위해 이미지를 다양한 토큰 예산(70-1120)으로 인코딩할 수 있습니다.

가변 종횡비 지원으로 원본 이미지 크기 보존
구성 가능한 이미지 토큰 예산: 70, 140, 280, 560, 1120 토큰
E2B와 E4B에는 음성 처리를 위한 USM 스타일 컨포머 오디오 인코더 포함

멀티모달 채팅 체험 예제 보기

배포

어디서나 배포: 브라우저, 로컬, 또는 클라우드

transformers, llama.cpp, MLX, WebGPU, Mistral.rs 등을 첫날부터 지원합니다. E2B와 E4B는 transformers.js로 브라우저에서 실행되며, 31B와 26B는 서버 하드웨어에서 뛰어난 성능을 발휘합니다.

브라우저: transformers.js로 E2B/E4B를 WebGPU 가속과 함께 Chrome에서 실행 가능
로컬: Ollama, llama.cpp, MLX (Apple Silicon), Mistral.rs로 프라이빗 추론
클라우드: Google AI Studio, Vertex AI, 또는 vLLM과 TGI로 셀프 호스팅

무료로 시작하기 GitHub에서 보기

FAQ

모델 아키텍처 및 기능

Per-Layer Embeddings부터 멀티모달 처리까지, Gemma 4의 기술 혁신을 이해합니다.

Gemma 4는 이전 Gemma 버전과 무엇이 다른가요?

Gemma 4는 네이티브 멀티모달 지원(텍스트, 이미지, 비디오, 오디오), 확장된 컨텍스트 윈도우(128K-256K), 구성 가능한 사고 모드, 내장 함수 호출을 도입합니다. 아키텍처는 효율성을 위해 Per-Layer Embeddings(PLE)를 사용하고, 긴 컨텍스트 생성 중 메모리 사용량을 줄이기 위해 공유 KV 캐시를 사용합니다.

4가지 Gemma 4 모델 크기는 무엇이며 각각 언제 사용해야 하나요?

E2B(2.3B 유효)와 E4B(4.5B 유효)는 네이티브 오디오 지원을 갖춘 엣지 디바이스, 브라우저, 모바일용으로 설계되었습니다. 26B A4B는 토큰당 4B 파라미터만 활성화하는 Mixture-of-Experts 모델로, 높은 처리량 시나리오에 이상적입니다. 31B 밀집 모델은 추론, 코딩, 비전 작업에서 최대 성능을 발휘하는 플래그십입니다.

Gemma 4는 멀티모달 입력을 어떻게 처리하나요?

모든 모델이 텍스트와 가변 종횡비 이미지를 네이티브로 처리합니다. 비전 인코더는 학습된 2D 위치를 사용하며, 속도-품질 트레이드오프를 위해 이미지를 다양한 토큰 예산(70-1120 토큰)으로 인코딩할 수 있습니다. E2B와 E4B에는 음성 이해를 위한 USM 스타일 컨포머 오디오 인코더가 포함되어 있습니다. 비디오는 프레임과 오디오 트랙을 처리하여 전체 패밀리에서 지원됩니다.

Per-Layer Embeddings(PLE)란 무엇이며 왜 중요한가요?

PLE는 각 디코더 레이어에 모든 토큰에 대한 고유한 작은 임베딩을 제공하여, 메인 잔차 스트림과 병렬로 조건화 경로를 생성합니다. 이를 통해 각 레이어는 관련이 있을 때만 토큰별 정보를 받을 수 있으며, 모든 것을 단일 사전 임베딩에 패킹할 필요가 없습니다. 적은 파라미터 비용으로 의미 있는 레이어별 특수화를 추가하여 소형 모델을 더 효율적으로 만듭니다.

FAQ

배포 및 통합

클라우드부터 엣지 디바이스까지 다양한 플랫폼에서 Gemma 4를 시작하세요.

Gemma 4 모델을 어디서 다운로드하고 실행할 수 있나요?

Gemma 4 모델은 Apache 2.0 라이선스 하에 Kaggle과 Hugging Face에서 이용 가능합니다. Google AI Studio를 통해 사용하거나, Vertex AI에 배포하거나, Ollama, llama.cpp, MLX(Apple Silicon용), transformers, Mistral.rs와 같은 도구로 로컬에서 실행할 수 있습니다. ONNX 체크포인트로 브라우저 및 엣지 디바이스 배포가 가능합니다.

Gemma 4를 실행하기 위한 하드웨어 요구사항은 무엇인가요?

E2B는 약 9.6GB(BF16)에서 3.2GB(4비트) VRAM이 필요합니다. E4B는 약 15GB(BF16)에서 5GB(4비트)가 필요합니다. 31B 모델은 약 58GB(BF16)에서 17GB(4비트)가 필요합니다. 26B MoE는 약 48GB(BF16)에서 16GB(4비트)가 필요합니다. 이는 기본 가중치만 해당하며, 사용 사례에 따라 컨텍스트 윈도우(KV 캐시)를 위한 메모리를 추가해야 합니다.

브라우저나 모바일 디바이스에서 Gemma 4를 실행할 수 있나요?

네. E2B와 E4B 모델은 브라우저 및 모바일 배포를 위해 특별히 설계되었습니다. transformers.js를 사용하면 WebGPU 지원이 있는 브라우저에서 Gemma 4를 직접 실행할 수 있습니다. ONNX 체크포인트는 다양한 엣지 하드웨어 백엔드에서 작동합니다. 모델은 Pixel 디바이스와 Chrome 브라우저 환경에 최적화되어 있습니다.

함수 호출 및 에이전트와 함께 Gemma 4를 어떻게 사용하나요?

Gemma 4는 파인튜닝이 필요 없는 내장 함수 호출 지원을 제공합니다. 모델은 도구 정의를 파싱하고, 구조화된 JSON 호출을 생성하며, 멀티모달 함수 호출(예: 이미지를 분석하고 날씨 API 호출)을 처리할 수 있습니다. 이를 통해 코드 실행, 웹 브라우징, 데이터 검색과 같은 작업을 위한 자율 에이전트가 가능합니다.

FAQ

성능 및 비교

Gemma 4가 다른 모델과 어떻게 비교되며 다양한 사용 사례에서 경쟁력이 있는 이유.

Gemma 4 31B는 Llama 3.3 70B와 같은 대형 모델과 어떻게 비교되나요?

31B 모델은 Arena AI 리더보드에서 오픈 모델 중 3위를 차지하며, 크기가 절반 이하임에도 불구하고 Llama 3.3 70B를 앞섭니다. AIME 2026 수학 추론에서 89.2%, MMLU Pro에서 85.2%, LiveCodeBench v6에서 80%를 달성합니다. 효율성은 교대 어텐션 패턴 및 공유 KV 캐시와 같은 아키텍처 혁신에서 비롯됩니다.

26B 모델의 Mixture-of-Experts(MoE) 아키텍처란 무엇인가요?

26B A4B 모델은 총 260억 개의 파라미터를 가지고 있지만 생성 중에는 토큰당 40억 개만 활성화합니다. 빠른 라우팅을 위해 모든 26B 파라미터를 메모리에 로드해야 하지만, 추론 비용은 4B 모델에 가깝습니다. 이를 통해 AIME 2026에서 88.3%, MMLU Pro에서 82.6%를 달성하며, 밀집 31B 모델보다 토큰당 연산량이 훨씬 적습니다.

Gemma 4는 긴 문서와 확장된 컨텍스트를 처리할 수 있나요?

네. 소형 모델은 128K 컨텍스트 윈도우를 지원하고, 중형 모델은 256K 토큰을 처리합니다. 아키텍처는 더 긴 컨텍스트를 가능하게 하기 위해 듀얼 RoPE 구성(슬라이딩 레이어용 표준, 글로벌 레이어용 프루닝)을 사용합니다. 공유 KV 캐시는 긴 컨텍스트 생성 중 메모리 소비를 줄여 전체 코드베이스와 연구 논문 처리를 실용적으로 만듭니다.

파인튜닝 예제와 학습 리소스는 어디서 찾을 수 있나요?

Gemma 4는 TRL(Transformer Reinforcement Learning)에서 완전히 지원되며, 멀티모달 도구 응답 및 환경 상호작용 예제가 있습니다. Hugging Face는 SFT를 사용한 Vertex AI용 파인튜닝 가이드를 제공합니다. Unsloth Studio는 UI 기반 파인튜닝 경험을 제공합니다. 모델은 파라미터 효율적인 학습을 위한 LoRA와 같은 PEFT 방법을 지원합니다.

Gemma 4: 어디서나 실행 가능한 최첨단 멀티모달 인텔리전스

4개의 모델, 하나의 패밀리: 엣지부터 서버급 성능까지

Gemma 4 E2B & E4B: 온디바이스 인텔리전스

Gemma 4 31B Dense & 26B MoE: 최첨단 성능

네이티브 멀티모달

확장된 컨텍스트 윈도우

구성 가능한 사고

코딩 & 에이전트 능력

비전 & 문서 분석

어디서나 배포

오늘 Gemma 4와 채팅을 시작하세요

시청: Gemma 4 공식 소개

Gemma 4: 엣지에서 클라우드까지

추론, 코딩, 비전 전반에 걸친 최첨단 성능

주요 작업 전반의 Gemma 4 성능

31B Dense & 26B MoE: 프로덕션을 위한 최첨단 성능

E2B & E4B: 오디오 지원을 갖춘 온디바이스 인텔리전스

Per-Layer Embeddings와 공유 KV 캐시

네이티브 이미지, 비디오, 오디오 이해

어디서나 배포: 브라우저, 로컬, 또는 클라우드

모델 아키텍처 및 기능

배포 및 통합

성능 및 비교