스마트폰에서 AI가 돌아간다 — Google Gemma 4 온디바이스 모델 총정리

// RECOMMENDED GEAR
Apple 맥북 네오 — A18 Pro칩입문 개발자를 위한 경제형 맥북. Flutter, React 개발에 충분한 성능.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
스마트폰에서 AI가 돌아간다 — Google Gemma 4 온디바이스 모델 총정리
2026년 4월 2일, Google DeepMind가 Gemma 4를 공개했다.
발표 내용을 보다가 눈이 멈춘 부분이 있었다. 1.5GB 이하 메모리로 스마트폰에서 오프라인 동작. 인터넷 없이, 서버 없이, 그냥 폰 안에서 AI가 돌아간다는 얘기다.
Gemma 4가 뭔가요?
Gemma는 Google이 만든 오픈 AI 모델 시리즈다. 이번 4버전은 총 4가지 크기로 출시됐다.
| 모델 | 활성 파라미터 | 용도 |
|---|---|---|
| E2B | 2.3B | 📱 스마트폰 온디바이스 |
| E4B | ~4B | 📱 고사양폰 / 태블릿 |
| 26B-A4B | 3.8B (MoE) | 💻 로컬 PC / 클라우드 |
| 31B | 31B | 🖥️ 서버급 고성능 |
여기서 핵심은 앞의 두 개, E2B와 E4B다.
왜 스마트폰에서 돌아가나?
비결은 MoE(Mixture of Experts) 구조다.
모델이 모든 파라미터를 항상 사용하는 게 아니라, 입력에 따라 필요한 전문가(Expert)만 골라서 사용한다. E2B의 경우 전체 파라미터는 5.1B이지만 실제 추론 시 2.3B만 활성화된다.
결과적으로:
- RAM 1.5GB 이하로 실행 가능
- 저장공간도 약 1~1.5GB 수준
- 일반 중급 스마트폰에서 구동 가능
온디바이스 AI가 왜 중요한가?
지금까지 대부분의 AI 앱은 이런 구조였다.
사용자 입력 → 서버 전송 → AI 처리 → 결과 반환
서버가 항상 필요하고, 인터넷이 없으면 안 되고, 개인 데이터가 외부로 나간다.
온디바이스는 다르다.
사용자 입력 → 폰 안에서 AI 처리 → 즉시 결과
- 🔒 프라이버시: 데이터가 기기 밖으로 나가지 않음
- ⚡ 속도: 네트워크 지연 없음
- 📵 오프라인: 인터넷 없어도 동작
- 💰 비용: 서버 API 비용 없음
개발자라면? 앱에 탑재 가능하다
Gemma 4는 Apache 2.0 라이선스로 출시됐다. Gemma 시리즈 최초다.
이게 왜 중요하냐면:
- ✅ 상업적 앱에 탑재 가능
- ✅ 유료 서비스에 사용 가능
- ✅ 소스코드 공개 의무 없음
- ✅ 로열티 없음
Google은 Android AICore라는 공식 SDK도 함께 발표했다. 개발자가 앱에서 Gemma 4를 호출할 수 있는 API로, 2026년 하반기 정식 출시 예정이다. 모델 파일을 앱에 직접 번들하지 않아도 되기 때문에 앱 용량 문제도 해결된다.
성능은?
E2B/E4B 같은 엣지 모델 기준으로도 멀티모달을 지원한다.
- 📷 이미지 입력: 문서 이해, OCR, 시각 질의
- 🎤 오디오 입력: 음성 인식 (엣지 모델만)
- 🔤 140개 언어 기본 훈련
대형 모델(31B) 기준 벤치마크:
| 항목 | 성능 |
|---|---|
| AIME 2025 (수학) | 89.2% |
| LiveCodeBench (코딩) | 80% |
| GPQA Diamond (추론) | 84% |
Gemma 3 대비 수학 성능만 20.8% → 89.2%로 뛰었다.
앞으로 어떻게 될까?
솔직히 아직 제약은 있다.
- 고사양폰 위주 (RAM 6GB+ 권장)
- Android AICore는 아직 정식 출시 전
- iOS는 별도 CoreML 변환 필요
하지만 방향은 명확하다. AI가 클라우드에서 기기로 내려오고 있다. 그것도 Apache 2.0으로, 누구나 상업적으로 쓸 수 있는 형태로.
1~2년 안에 "AI 기능이 없는 앱"이 오히려 이상하게 느껴지는 시대가 올 것 같다.
Gemma 4 공식 발표: Google DeepMind
이 글 공유하기
// SPONSORED
[>]댓글
아직 댓글이 없어요. 첫 댓글을 남겨보세요!