용량 대비(Byte for byte) 가장 강력한 성능의 오픈 모델 ‘젬마 4(Gemma 4)’를 소개합니다
오늘 구글은 역대 가장 지능적인 오픈 모델인 젬마 4(Gemma 4)를 선보입니다. 고급 추론과 에이전트 기반 워크플로우(agentic workflows)를 위해 특수 설계된 젬마 4는 파라미터당 전례 없는 수준의 지능을 제공합니다. 이러한 획기적인 성과는 커뮤니티의 활발한 참여를 바탕으로 이루어졌습니다. 구글이 첫 번째 버전을 출시한 이후, 개발자들은 젬마를 4억 회 이상 다운로드했으며, 10만 개 이상의 변형 모델로 구성된 '젬마버스(Gemmaverse)' 생태계를 구축해 왔습니다. 구글은 혁신가들의 요구를 반영해 AI의 가능성을 확장할 수 있는 방향을 지속적으로 모색해 왔으며, 젬마 4는 이에 대한 구글의 해답입니다. 젬마 4는 아파치 2.0(Apache 2.0) 라이선스로 제공되어 누구나 폭넓게 활용할 수 있습니다.
4월 1일 기준 Arena.ai 챗 아레나에서 오픈 모델 성능 대비 크기 비교
제미나이 3와 동일한 세계 최고 수준의 연구 및 기술을 기반으로 개발된 젬마 4는 이용자의 하드웨어에서 실행할 수 있는 가장 강력한 성능의 모델 제품군입니다. 젬마 4는 구글의 제미나이 모델을 보완하며, 개발자에게 개방형 모델과 폐쇄형 툴을 모두 아우르는, 업계에서 가장 강력한 조합을 제공합니다.
업계 선도적인 역량 및 모바일 우선 AI
구글은 젬마 4를 다음의 네 가지 크기로 제공합니다: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) 및 31B Dense. 전체 모델 제품군은 단순한 채팅을 넘어 복잡한 논리 처리와 에이전트 기반 워크플로우까지 지원합니다. 구글의 대형 모델들은 각 크기에서 최첨단 성능을 제공하며, 31B 모델은 현재 업계 표준인 아레나 AI 텍스트 리더보드(Arena AI text leaderboard)에서 오픈 모델 기준 3위, 26B 모델은 6위를 기록하고 있습니다. 또한 젬마 4는 20배 큰 모델들도 압도하는 성능을 보입니다. 이처럼 향상된 파라미터당 성능은 개발자가 상대적으로 적은 하드웨어 자원으로도 높은 수준의 AI 기능을 달성할 수 있게 합니다.
엣지 컴퓨팅 환경에서는 E2B와 E4B 모델이 온-디바이스(on-device) 활용성을 한층 확장합니다. 이 모델들은 파라미터 수보다 멀티모달 기능, 낮은 레이턴시, 생태계와의 원활한 연동을 우선적으로 고려해 설계되었습니다.
강력하고, 접근 가능한 개방형 모델
차세대 혁신 연구 및 제품 개발을 지원하기 위해, 구글은 젬마 4 모델이 전 세계 수십억 대의 안드로이드 기기부터 노트북 GPU, 개발자 워크스테이션 및 가속기에 이르기까지 하드웨어에서 효율적으로 실행되고 미세 조정(fine-tuning)될 수 있도록 설계하였습니다.
이처럼 고도로 최적화된 해당 모델을 통해 개발자는 특정 작업에서 최첨단 성능을 달성하도록 젬마 4를 미세 조정할 수 있습니다. 구글은 이미 이러한 접근 방식으로 놀라운 성공 사례를 확인했습니다. 예를 들어, INSAIT는 불가리아어 우선 언어 모델(BgGPT)을 개발했으며, 구글은 예일 대학교와 함께 암 치료의 새로운 경로를 발견하는 Cell2Sentence-Scale 프로젝트를 함께 진행했습니다.
젬마 4가 구글의 역대 가장 유능한 오픈 모델 제품군인 이유는 다음과 같습니다:
- 고급 추론(Advanced Reasoning): 다단계 계획 수립 및 깊은 논리적 사고가 가능한 젬마 4는 수학 및 복합 지시 이행 등 고도의 지능이 요구되는 벤치마크에서 상당한 성능 향상을 입증했습니다.
- 에이전트 기반 워크플로우(Agentic Workflows): 함수 호출(Function-calling), 구조화된 JSON 출력 및 네이티브 시스템 지침(System instructions)을 기본 지원하며, 다양한 툴 및 API와 상호작용하고 워크플로우를 안정적으로 실행하는 자율형 에이전트를 구축할 수 있습니다.
- 코드 생성 역량(Code Generation): 고성능 오프라인 코드 생성을 지원하는 젬마 4는 이용자의 워크스테이션을 강력한 로컬 중심(Local-first) AI 코드 어시스턴트로 전환합니다
- 이미지 및 오디오(Vision and audio) 지원: 모든 모델은 비디오와 이미지를 기본 처리하며 가변 해상도를 지원합니다. 또한, E2B 및 E4B 모델은 음성 인식을 위한 네이티브 오디오 입력을 특징으로 합니다.
- 더 긴 컨텍스트(Longer context): 엣지 모델은 128K, 대형 모델은 최대 256K 컨텍스트 윈도우를 제공해 단일 프롬프트에 긴 문서를 전달할 수 있습니다.
- 140개 이상의 언어 지원: 140개 이상의 언어로 기본 학습된 젬마 4는 글로벌 이용자를 위한 고성능 애플리케이션 구축을 지원합니다.
다양한 하드웨어 환경에 최적화된 다재다능한 모델
구글은 특정 하드웨어 및 사용 사례에 최적화된 다양한 크기로 젬마 4 모델 가중치(weights)를 출시하며, 이용자가 필요한 곳 어디에서나 최첨단(frontier-class) 추론 성능을 경험할 수 있도록 지원합니다
26B 및 31B 모델: 개인용 컴퓨터를 위한 오프라인 기반 프런티어급 지능 구현
연구자와 개발자가 접근 가능한 하드웨어에서 최첨단 추론 성능을 제공하도록 최적화되었습니다. 비양자화(unquantized) bfloat16 가중치는 단일 80GB NVIDIA H100 GPU에서도 효율적으로 실행되며, 양자화 버전은 일반 소비자용 GPU에서도 구동되어 IDE, 코드 어시스턴트, 에이전틱 워크플로우를 지원합니다. 26B MoE 모델은 레이턴시에 초점을 맞춰 전체 파라미터 중 약 38억 개만을 활성화해 빠른 속도를 제공하며, 31B Dense 모델은 출력 품질을 중심으로 설계되어 미세 조정을 위한 기반 모델로 활용할 수 있습니다.
추가 벤치마크는 모델 카드에서 확인할 수 있습니다.
E2B 및 E4B 모델: 모바일 및 IoT 기기를 위한 새로운 차원의 지능 구현
이 모델들은 연산과 메모리 효율성을 고려해 설계되었으며, 추론 시 각각 약 20억, 40억 규모의 파라미터만을 활용해 메모리 사용량과 배터리 소모를 최소화합니다. 구글 픽셀(Google Pixel) 팀 및 퀄컴(Qualcomm), 미디어텍(MediaTek)과 같은 하드웨어 리더들과의 긴밀한 협력을 통해, 이 모델들은 스마트폰, 라즈베리 파이(Raspberry Pi), NVIDIA Jetson Nano 등 엣지 기기에서 거의 제로에 가까운 레이턴시로 오프라인에서 실행됩니다. 안드로이드 개발자는 AICore Developer Preview에서 에이전트 기반 흐름의 프로토타입을 제작해 제미나이 나노 4(Gemini Nano 4)와의 향후 호환성을 확보할 수 있습니다.
오픈 소스 라이선스
구글은 커뮤니티 피드백을 경청합니다. AI의 미래를 구축하려면 협력적인 접근 방식이 필요하며, 구글은 불필요한 제약 없이 개발자 생태계를 지원하는 것이 중요하다고 보고 있습니다. 이러한 배경에서 젬마 4는 상업적으로 활용 가능한 아파치 2.0 라이선스로 제공됩니다.
이 오픈소스 라이선스는 개발자에게 높은 수준의 유연성과 디지털 주권을 제공하며, 데이터와 모델에 대한 제어권을 부여합니다.
"아파치 2.0 라이선스로 젬마 4를 출시한 것은 거대한 이정표입니다. 구글의 젬마 4 제품군을 출시 첫날부터 지원하게 되어 매우 기쁩니다." — 클레망 들랑주(Clément Delangue), 허깅 페이스(Hugging Face) 공동 창립자 겸 CEO
신뢰와 안전의 토대 위에서 구축
이 모델들은 구글의 독점 모델들과 동일한 엄격한 인프라 보안 프로토콜을 적용받습니다. 젬마 4를 선택함으로써 기업은 보안 및 신뢰성에 대한 최고 기준을 충족하면서도 최첨단 기능을 제공하는 투명하고 신뢰할 수 있는 기반을 확보하게 됩니다.
선택할 수 있는 생태계
- 즉시 실험 시작하기: 구글 AI 스튜디오(Google AI Studio)에서 젬마 4(31B 및 26B MoE)를, 구글 AI 엣지 갤러리(Google AI Edge Gallery)에서 젬마 4(E4B 및 E2B)를 직접 탐색해 보세요. 안드로이드 개발자는 안드로이드 스튜디오(Android Studio)의 에이전트 모드와 ML Kit GenAI Prompt API를 활용해 프로덕션 환경까지 확장할 수 있습니다.
- 선호하는 툴 사용: 허깅 페이스(Hugging Face), vLLM, 올라마(Ollama), NVIDIA NIM 등 다양한 툴에 대한 출시 당일 지원을 제공합니다.
- 모델 다운로드: 허깅페이스(Hugging Face), 캐글(Kaggle) 또는 올라마(Ollama)에서 모델 가중치를 다운로드하세요.
- 이용자 니즈에 최적화된 젬마 4 맞춤설정: 구글 콜랩(Google Colab), 버텍스 AI(Vertex AI)는 물론, 개인용 게이밍 GPU 등 선호하는 플랫폼을 활용해 모델을 직접 학습시키고 최적화할 수 있습니다.
- 구글 클라우드 기반의 서비스 확장: 로컬 온디바이스 추론은 오프라인 환경에 적합하며, 구글 클라우드를 통해 확장도 가능합니다. 버텍스 AI(Vertex AI), 클라우드 런(Cloud Run), GKE, 소버린 클라우드(Sovereign Cloud), TPU 가속 서빙 등 다양한 배포 옵션을 지원하며, 규제 환경에서도 요구되는 높은 수준의 컴플라이언스를 충족할 수 있습니다. 구글 클라우드에서 시작 방법에 대한 자세한 내용은 관련 링크를 통해 확인할 수 있습니다.
- 다양한 하드웨어 플랫폼을 아우르는 AI 개발 가속: 젬마 4는 주요 하드웨어 환경에 최적화되어 제공됩니다. NVIDIA Jetson Nano부터 블랙웰(Blackwell) GPU까지 NVIDIA AI 인프라에서 높은 성능을 제공하며, 오픈소스 ROCm™ 스택을 통해 AMD GPU와도 연동됩니다. 또한 구글 클라우드 TPU를 활용해 대규모로 확장할 수 있습니다 .
- 임팩트를 위한 경쟁: 캐글(Kaggle)에서 진행되는 젬마 4 굿 챌린지(Gemma 4 Good Challenge)에 참여하여 제품을 개발해 보세요.