메인 메뉴 바로가기
구글코리아 블로그

[I/O 2024] 새로운 지평을 여는 제미나이: 더 빠른 모델, 더 긴 컨텍스트 및 AI 에이전트

제미나이 블로그 헤드 이미지

이 블로그는 구글 The Keyword 블로그(영문)에서도 확인하실 수 있습니다.

작년 12월, 구글은 울트라(Ultra), 프로(Pro), 나노(Nano) 세 가지 사이즈의 첫 번째 네이티브 멀티모달 모델 제미나이 1.0을 공개했습니다. 불과 몇 달 뒤 구글은 향상된 성능과 100만 개 토큰이라는 획기적인 긴 컨텍스트 윈도우(context window)를 갖춘 제미나이 1.5 프로를 선보였습니다.

개발자들과 기업 고객들은 제미나이 1.5 프로를 놀라운 방법으로 사용해왔으며, 긴 컨텍스트 윈도우와 멀티모달 추론 기능 및 인상적인 전체성능이 매우 유용하다는 점을 인식하고 있습니다.

구글은 이용자 피드백을 통해 일부 애플리케이션은 더욱 빠르게 응답하고 비용을 낮춰야 한다는 사실을 알게 됐습니다. 이러한 피드백은 구글이 끊임없이 혁신하도록 영감을 주었으며, 이에 오늘 제미나이 1.5 프로보다 더 가볍고 빠르며, 효율적으로 대규모 서비스를 제공할 수 있도록 설계된 제미나이 1.5 플래시(Gemini 1.5 Flash)를 소개합니다.

제미나이 1.5 프로와 1.5 플래시는 모두 구글 AI 스튜디오버텍스 AI에서 100만 토큰 컨텍스트 윈도우를 통해 공개 미리보기로 제공됩니다. 그리고 제미나이 API를 활용하는 개발자들과 구글 클라우드 고객은 대기자 명단을 통해 200만 개의 토큰 컨텍스트 윈도우를 제공하는 제미나이 1.5프로를 사용할 수 있습니다.

또한, 차세대 오픈 모델인 젬마 2(Gemma 2)를 발표하고, AI 에이전트의 발전 현황을 살펴볼 수 있는 프로젝트 아스트라(Project Astra)를 공개할 예정입니다.

제미나이 모델 제품군 업데이트

속도와 효율성에 최적화 된 새로운 제미나이 1.5 플래시

제미나이 1.5 플래시는 제미나이 모델 제품군에 추가된 최신 모델이자, API에서 제공되는 가장 빠른 제미나이 모델입니다. 대규모 및 빈도가 높은 작업에 최적화돼 있으며, 획기적으로 긴 컨텍스트 윈도우를 제공하는 동시에 비용 효율성이 더욱 높아졌습니다.

제미나이 1.5 프로보다 가벼운 모델이지만 방대한 양의 정보에 대한 멀티모달 추론 능력이 뛰어나며 크기에 비해 품질도 뛰어납니다.

제미나이 1.5 플래시

제미나이 1.5 플래시는 요약, 채팅 애플리케이션, 이미지 및 동영상 캡션, 긴 문서 및 표에서 데이터 추출 등에 탁월한 성능을 발휘합니다. 이는 더 큰 모델에서 가장 필수적인 지식과 기술을 더 작고 효율적인 모델로 옮기는 '증류(distillation)' 프로세스를 통해 1.5 프로로 학습되었기 때문입니다.

제미나이 1.5 플래시에 대한 자세한 내용과 구매정보 및 비용에 관한 내용은 제미나이 기술 소개 홈페이지를 확인해주세요. 추후 제미나이 1.5 프로의 업데이트된 기술 보고서에서도 더욱 자세한 내용을 공개할 계획입니다.

더욱 유용한 제미나이 1.5 프로

지난 몇 달간 구글은 다양한 작업에서 일반적인 성능을 발휘하는 최고의 모델 제미나이 1.5 프로를 대폭 개선해 왔습니다.

컨텍스트 윈도우를 200만 개의 토큰으로 확장한 것 외에도, 데이터 및 알고리즘 향상을 통해 코드 생성, 논리적 추론 및 계획, 멀티턴 대화(multi-turn conversation), 오디오 및 이미지 인식 기능을 개선했습니다.

제미나이 1.5 프로는 이제 역할, 형식 및 스타일과 같은 제품 수준의 동작을 지정하는 것을 포함해, 점점 더 복잡하고 미묘한 지침도 따를 수 있습니다. 채팅 상담원의 페르소나 및 응답 스타일을 만들거나 여러 기능 호출을 통해 워크플로우를 자동화하는 등, 특정 사용 사례에 대한 모델의 응답 제어 기능을 개선했습니다. 또한 이용자가 시스템 지침을 설정해 모델 동작을 조정할 수 있도록 했습니다.

제미나이 API 및 구글 AI 스튜디오에 오디오 인식 기능도 추가하여, 이제 제미나이 1.5 프로는 구글 AI 스튜디오에 업로드 된 동영상의 이미지와 오디오를 모두 추론할 수 있습니다.

제미나이 1.5 프로에 대한 자세한 내용은 제미나이 기술 관련 페이지에서 확인하실 수 있으며, 더욱 자세한 내용은 업데이트된 제미나이 1.5 기술보고서에서 확인하실 수 있습니다.

구글의 온디바이스 모델, ‘제미나이 나노’ 최신 업데이트

제미나이 나노는 이제 텍스트 뿐만 아니라 이미지 입력도 처리할 수 있습니다. 멀티모달리티 역량을 갖춘 제미나이 나노 기반의 애플리케이션은 텍스트 입력뿐만 아니라 시각적 자료, 소리 그리고 음성 언어 등을 통해 사람처럼 세상을 이해하게 될 것입니다. 이러한 제미나이 나노는 픽셀 폰에 먼저 도입됩니다.

안드로이드의 제미나이 1.0 나노에 대해 자세히 알아보세요.

차세대 오픈 모델

오늘 구글은 제미나이 모델을 제작하기 위해 활용했던 모든 연구 결과와 기술들을 동일하게 적용한 오픈 모델 제품군 ‘젬마’에 대한 업데이트 소식들도 공유합니다.

구글은 책임감 있는 AI 혁신을 위한 차세대 오픈 모델 젬마 2(Gemma 2)을 발표합니다. 젬마 2은 획기적인 성능과 효율성을 위해 설계된 새로운 아키텍처를 탑재했으며, 새로운 규모로 제공될 예정입니다.

또한 PaLI-3 기반 구글 최초의 비전 언어 모델인 팔리젬마(PaliGemma)를 포함해 젬마 제품군을 확장합니다. 또한 구글은 모델 응답의 품질을 평가할 수 있는 LLM 콤퍼레이터(LLM Comparator)가 포함된 책임감 있는 생성형 AI 툴킷을 업그레이드했습니다.

더 자세한 정보는 개발자 블로그에서 확인하실 수 있습니다.

범용 AI 에이전트 개발 진행 상황

인류를 위해 책임감 있게 AI를 개발한다는 구글 딥마인드(Google DeepMind) 사명의 일환으로 구글은 항상 일상 속에 도움을 줄 수 있는 범용 AI 에이전트를 개발하고자 했습니다. 이것이 바로 AI 비서의 미래, 프로젝트 아스트라(Project Astra)를 공개하는 이유입니다.

에이전트가 실제로 유용하게 사용되려면, 사람과 마찬가지로 복잡하고 역동적인 세상을 이해하고 이에 대응해야 하며, 보고 들은 것을 받아들이고 기억하여 상황을 이해하고 조치를 취할 수 있어야 합니다. 또한 사용자가 지연이나 지체 없이 자연스럽게 대화할 수 있도록 능동적이고 학습 가능하며 개인화되어야 합니다.

멀티모달 정보를 이해할 수 있는 AI 시스템 개발에는 놀라운 진전이 있었지만, 응답 시간을 대화 수준으로 낮추는 것은 어려운 엔지니어링 과제입니다. 지난 몇 년 동안 구글은 상호 작용의 속도와 품질을 보다 자연스럽게 느낄 수 있도록 모델의 인식, 추론, 대화 방식을 개선하기 위해 노력해 왔습니다.

범용 AI 에이전트 개발
10:25

이러한 에이전트는 제미나이 모델과 기타 작업별 특화 모델을 기반으로 구축되었으며, 비디오 프레임을 지속적으로 인코딩하고 비디오와 음성 입력을 이벤트 타임라인으로 결합한 후 이 정보를 캐싱하여 효율적으로 불러올 수 있도록 설계해 정보를 더 빠르게 처리할 수 있습니다.

구글의 선도적인 음성 모델을 활용해 에이전트에 다양한 억양을 제공함으로써 에이전트의 음성 또한 개선했습니다. 해당 에이전트는 사용되는 맥락을 좀 더 잘 이해하고, 대화 상에서 빠르게 반응합니다.

모바일이나 스마트 안경을 통해 전문적인 비서를 곁에 둘 수 있는 미래를 상상하는 것은 어렵지 않습니다. 이러한 기능들 중 일부는 연내 제미나이 앱과 같은 구글 제품에 제공될 예정입니다.

지속되는 탐구

구글은 지금까지 제미나이 모델 제품군을 통해 놀라운 발전을 이뤄왔으며, 항상 최첨단 기술을 더욱 발전시키기 위해 최선을 다하고 있습니다. 구글은 끊임없는 혁신의 생산 라인에 투자해 새로운 아이디어를 발굴하고 있으며, 새롭고 흥미로운 제미나이 사용 사례의 가능성을 열어가고 있습니다.

더 자세한 정보는 제미나이 및 기능 소개(Gemini and its capabilities) 페이지에서 알아 보세요.