Gemma 4 리뷰

Gemma 4 리뷰: 31B 모델이 600B 경쟁 모델과 어떻게 겨루는가

Google DeepMind의 Gemma 4 패밀리는 2026년 4월 2일 Apache 2.0 라이선스로 4개 모델을 출시했습니다. 31B는 Arena AI 3위, 26B MoE는 단일 RTX 4090에서 실행 가능, E2B는 스마트폰에 탑재 가능. 실제로 무엇이 작동하고 어디가 부족한지 알려드립니다.

직접 사용해 보기 벤치마크 보기

평가

각 Gemma 4 모델의 최종 평가

추론, 코딩, 멀티모달, 로컬 배포에 걸친 광범위한 테스트 후 각 변형의 평가를 전달합니다.

종합 평가

로컬에서 실행할 수 있는 가장 강력한 오픈 모델 패밀리

Gemma 4는 자체 하드웨어에서 프론티어급 AI를 원하는 사용자에게 최고의 오픈 모델 패밀리입니다. 31B는 추론과 코딩에서 20배 크기의 모델과 경쟁합니다. 26B MoE는 대부분의 프로덕션 사용에 최적입니다. 엣지 모델은 스마트폰과 브라우저에 진정한 AI를 제공합니다.

주요 약점: 순수 에이전트 코딩(SWE-Bench)에서 Gemma 4는 아직 Qwen 3.6과 GLM-5.1에 뒤처집니다. 주요 용도가 자율 코드 편집이라면 해당 대안을 고려하세요.

직접 사용해 보기 Qwen 3.6과 비교

평가: 우수

31B Dense

플래그십은 기대에 부응합니다. Arena AI 3위, 뛰어난 추론과 코딩, 강력한 멀티모달. 이 크기에서 최고의 오픈 Dense 모델.

강점: 추론, 수학, 코딩, 멀티모달. 약점: SWE-Bench에서 Qwen 3.6에 뒤처짐.

26B MoE

31B에 근접한 품질을 훨씬 적은 연산으로 달성. 프로덕션 배포에 최적. 단일 RTX 4090에 탑재 가능.

강점: 효율성, 31B에 근접한 품질, 단일 GPU 배포. 약점: 낮은 배치 크기에서 Dense보다 느림.

최고의 가성비

26B 사용해 보기 상세 정보

평가: 인상적

E4B Edge

추천 엣지 모델. 크기 대비 강력한 추론과 코딩. 네이티브 오디오는 경쟁 모델 대비 고유한 장점.

강점: 오디오 지원, 좋은 추론, 노트북에서 실행. 약점: 복잡한 작업에는 한계.

엣지 추천

E4B 사용해 보기 상세 정보

평가: 틈새지만 유용

E2B Compact

95 tok/s의 초고속. 간단한 작업과 실시간 애플리케이션에 유용. 복잡한 추론에는 부적합.

강점: 속도, 극소 풋프린트, 오디오 지원. 약점: 어려운 작업에서 품질 저하.

속도 중시

E2B 사용해 보기 상세 정보

잘하는 부분

Gemma 4가 진정으로 뛰어난 분야

수십 가지 실전 작업에서 테스트한 결과, Gemma 4가 정말 인상적인 분야를 소개합니다.

수학적 추론

AIME 2026에서 89.2%는 우연이 아닙니다. Thinking 모드는 명확한 단계별 풀이를 생성합니다. 수학 과외와 문제 해결에 실용적입니다.

코드 생성

LiveCodeBench v6에서 80%는 실용적인 코딩 지원으로 이어집니다. 함수 구현, 디버깅, 코드 리뷰 모두 강력합니다.

멀티모달 이해

이미지 분석, 문서 파싱, 차트 이해가 잘 작동합니다. 가변 해상도 지원으로 다양한 이미지 유형을 적절히 처리합니다.

로컬 배포

3.2GB에서 17GB(4비트)까지의 범위로 모든 하드웨어 등급에 맞는 모델이 있습니다. Ollama 설정은 2분 이내.

Function calling

네이티브 Function calling은 신뢰할 수 있습니다. JSON 출력은 정형화되어 있고, 도구 선택은 정확하며, 다단계 에이전트 워크플로우도 안정적으로 작동합니다.

다국어 지원

140개 이상의 언어 지원은 진짜입니다. 영어뿐만 아니라 주요 언어 전반에서 품질이 유지됩니다.

솔직한 평가

Gemma 4의 약점

완벽한 모델은 없습니다. Gemma 4에 개선의 여지가 있는 부분을 소개합니다.

약점

SWE-Bench: 52% vs Qwen 3.6의 73.4% - 자율 코딩에서 큰 격차
26B와 31B에 네이티브 오디오 없음 - 엣지 모델만 오디오 인코더 탑재
26B MoE는 낮은 배치 크기에서 예상보다 느림
E2B는 복잡한 추론 작업에서 품질이 눈에 띄게 저하
긴 컨텍스트 성능은 실제로 약 100K 토큰을 넘으면 저하

경쟁 모델

Qwen 3.6 35B A3B: 에이전트 코딩에서 우위 (SWE-Bench, Terminal-Bench)
GLM-5.1: 일부 중국어 작업에서 더 강함
Llama 4: 더 큰 컨텍스트 윈도우 옵션
DeepSeek V4: 추론 벤치마크에서 경쟁력
Mistral Small 4: 유사한 품질 등급에서 더 빠른 추론

직접 사용해 보기 Qwen 3.6과 비교

벤치마크

공식 벤치마크 vs 실전 경험

공식 수치가 실제 사용에 어떻게 반영되는가? 광범위한 테스트 후 평가를 전달합니다.

공식 벤치마크는 이야기의 일부를 말해줍니다. 실전 테스트에서 수치가 경험과 일치하는 부분과 그렇지 않은 부분이 드러납니다.

직접 사용해 보기 모델 카드 보기

수학적 추론: 벤치마크가 현실과 일치 - Thinking 모드가 정말 도움됨

코딩: 생성은 강력, 자율 편집은 약함 (SWE-Bench 격차)

멀티모달: 이미지 이해가 견고, 문서 OCR도 잘 작동

속도: E2B는 정말 빠름 (~95 tok/s), 26B는 로컬에서 예상보다 느림

성능 실태 점검

Gemma 4 vs 경쟁 모델

Gemma 4 31B가 주요 벤치마크에서 다른 선도적 오픈 모델과 어떻게 비교되는지.

Benchmark	Gemma 4 31B 주목	Gemma 4 26B	Qwen 3.6 35B	Llama 4 Scout
MMLU Pro Knowledge	85.2%	82.6%	83.1%	74.3%
AIME 2026 Math	89.2%	88.3%	81.5%	73.0%
LiveCodeBench v6 Coding	80.0%	77.1%	75.2%	53.0%
SWE-Bench Verified Agentic coding	52.0%	-	73.4%	-
MMMU Pro Multimodal	76.9%	73.8%	70.2%	57.5%
Arena AI ELO Overall	1452	1441	~1440	~1380