스마트폰에서 AI가 돌아간다 — Google Gemma 4 온디바이스 모델 총정리

2026년 4월 2일, Google DeepMind가 Gemma 4를 공개했다.

발표 내용을 보다가 눈이 멈춘 부분이 있었다. 1.5GB 이하 메모리로 스마트폰에서 오프라인 동작. 인터넷 없이, 서버 없이, 그냥 폰 안에서 AI가 돌아간다는 얘기다.

Gemma 4가 뭔가요?

Gemma는 Google이 만든 오픈 AI 모델 시리즈다. 이번 4버전은 총 4가지 크기로 출시됐다.

여기서 핵심은 앞의 두 개, E2B와 E4B다.

비결은 MoE(Mixture of Experts) 구조다.

모델이 모든 파라미터를 항상 사용하는 게 아니라, 입력에 따라 필요한 전문가(Expert)만 골라서 사용한다. E2B의 경우 전체 파라미터는 5.1B이지만 실제 추론 시 2.3B만 활성화된다.

결과적으로:

지금까지 대부분의 AI 앱은 이런 구조였다.

사용자 입력 → 서버 전송 → AI 처리 → 결과 반환

서버가 항상 필요하고, 인터넷이 없으면 안 되고, 개인 데이터가 외부로 나간다.

온디바이스는 다르다.

사용자 입력 → 폰 안에서 AI 처리 → 즉시 결과

Gemma 4는 Apache 2.0 라이선스로 출시됐다. Gemma 시리즈 최초다.

이게 왜 중요하냐면:

Google은 Android AICore라는 공식 SDK도 함께 발표했다. 개발자가 앱에서 Gemma 4를 호출할 수 있는 API로, 2026년 하반기 정식 출시 예정이다. 모델 파일을 앱에 직접 번들하지 않아도 되기 때문에 앱 용량 문제도 해결된다.

E2B/E4B 같은 엣지 모델 기준으로도 멀티모달을 지원한다.

대형 모델(31B) 기준 벤치마크:

Gemma 3 대비 수학 성능만 20.8% → 89.2%로 뛰었다.

솔직히 아직 제약은 있다.

하지만 방향은 명확하다. AI가 클라우드에서 기기로 내려오고 있다. 그것도 Apache 2.0으로, 누구나 상업적으로 쓸 수 있는 형태로.

1~2년 안에 "AI 기능이 없는 앱"이 오히려 이상하게 느껴지는 시대가 올 것 같다.

Gemma 4 공식 발표: Google DeepMind