구글의 차세대 모델: 제미나이 1.5
순다 피차이(Sundar Pichai), 구글 및 알파벳 CEO가 드리는 말씀
지난 주, 구글은 가장 성능이 뛰어난 모델 제미나이 1.0 울트라를 출시하며 제미나이 어드밴스드를 선보였습니다. 이는 더욱 유용한 제품을 제공하기 위한 구글의 의지를 보여주는 중요한 발걸음입니다. 이제 오늘부터 개발자 및 구글 클라우드 고객은 제미나이 AI 스튜디오 및 버텍스AI에서 제미나이 API와 함께 1.0 울트라를 활용해 개발을 시작할 수 있습니다.
구글은 안전에 중점을 두고 최신 AI 모델의 한계를 끊임없이 뛰어넘으며 빠르게 발전해 나아가고 있습니다. 차세대 모델인 제미나이 1.5는 이미 공개 준비가 완료됐으며, 다양한 부문에서 놀라운 발전을 이루었습니다. 특히 제미나이 1.5 프로는 더 적은 컴퓨팅 자원으로 제미나이 1.0 울트라에 필적하는 성능을 갖추고 있습니다.
제미나이 1.5 프로는 긴 문맥 이해 능력에 있어서도 획기적인 발전을 이뤄냈습니다. 구글은 모델이 처리할 수 있는 정보의 양을 극대화하여 최대 100만 토큰을 연속 실행을 가능케 했습니다. 이는 현존하는 대규모 파운데이션 모델 중 가장 긴 컨텍스트 윈도우(context window)를 확보한 성과입니다.
모델의 컨텍스트 윈도우 확대는 새로운 가능성의 문을 열어줍니다. 개발자들은 이 완전히 새로운 역량을 바탕으로 훨씬 더 유용한 모델과 애플리케이션을 구축할 수 있게 되었습니다. 이러한 실험적인 기능을 개발자 및 기업 고객들을 대상으로 먼저 프리뷰 버전으로 공개하게 되어 기대가 큽니다.
이어 데미스 하사비스 구글 딥마인드 CEO가 기능, 안전, 가용성 및 비용에 대해 더욱 자세히 설명해 드리겠습니다.
— 순다 피차이
제미나이 1.5를 소개합니다
데미스 하사비스(Demis Hassabis) 구글 딥마인드 CEO
인공지능(AI) 역사상 가장 흥미진진한 시대가 펼쳐지고 있습니다. AI 기술의 발전은 향후 수 년간 수십억 명의 삶에 영향을 미칠 잠재력을 지니고 있습니다. 구글은 제미나이 1.0 공개 이후 모델의 역량 강화를 위해 노력해 왔습니다.
오늘 구글은 차세대 모델 ‘제미나이 1.5(Gemini 1.5)’를 공개합니다.
제미나이 1.5는 획기적인 성능 개선을 이뤄냈습니다. 이는 파운데이션 모델 개발 및 인프라의 거의 모든 부분에 걸친 연구 및 엔지니어링 혁신을 기반으로 이뤄낸 구글의 접근 방식의 변화를 의미합니다. 이 일환으로 구글은 Mixture–of-Experts(MoE) 아키텍처를 바탕으로 제미나이 1.5를 더욱 효율적으로 훈련시키고 있습니다.
제미나이 1.5 모델 중 구글이 초기 테스트 버전으로 출시하는 첫 모델은 ‘제미나이 1.5 프로’입니다. 이 모델은 다양한 작업에 걸쳐 확장하는데 최적화되어 있으며 구글의 역대 최대 모델인 제미나이 1.0 울트라와 비슷한 수준으로 수행하는 중형 멀티모달 모델입니다. 또한 긴 문맥을 이해할 수 있는 뛰어난 실험적인 기능도 함께 제공됩니다.
제미나이 1.5 프로에는 12만 8천개의 토큰 컨텍스트 윈도우가 기본 제공됩니다. 하지만, 오늘부터 선보이는 프리뷰 버전에서는 제한된 그룹의 개발자 및 기업 고객들을 대상으로 구글 AI 스튜디오 및 버텍스AI를 통해 100만 개의 토큰 컨텍스트 윈도우가 제공됩니다.
100만 토큰 컨텍스트 윈도우는 계산 집약적이며, 시간 지연 문제를 개선하기 위해 추가 최적화가 필요합니다. 구글은 이에 따라 서비스를 확장해가며 이를 해결하기 위해 적극적으로 작업하고 있습니다. 많은 이용자들이 이 획기적인 기능을 사용해 볼 수 있기를 기대하며, 향후 이용 가능 여부와 가격에 대한 자세한 내용은 아래에서 확인할 수 있습니다.
이러한 차세대 모델의 지속적인 발전은 이용자, 개발자 및 기업이 AI를 이용해 창작하고, 새로운 것을 발견하며 만들어 낼 수 있는 새로운 가능성을 활짝 열어줄 것입니다.
효율성 높은 아키텍처
제미나이 1.5는 트랜스포머(Transformer) 및 MoE 아키텍처의 선도적인 연구를 기반으로 구축됐습니다. 기존 트랜스포머가 하나의 큰 신경망으로 작동하는 반면, MoE 모델은 더 작은 “전문” 신경망으로 나뉩니다.
주어진 입력 유형에 따라, MoE 모델은 신경망에서 가장 관련성이 높은 전문 영역 경로만을 선택적으로 활성화하는 방법을 학습합니다. 이 전문화 기술은 모델의 효율성을 크게 강화합니다. 구글은 Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 등의 연구를 통해 딥러닝을 위한 MoE 기술 개척자이자 얼리어답터로 자리매김해 왔습니다.
구글 모델 아키텍처의 최신 혁신을 통해 제미나이 1.5는 복잡한 작업을 더 빠르게 학습하고 품질을 유지하면서도 훨씬 더 효율적으로 훈련하고 활용될 수 있습니다. 이러한 효율성을 통해 구글 내 많은 부서들이 그 어느 때보다 빠르게 제미나이 어드밴스드 버전을 반복 확인하여 훈련한 뒤 선보이고 있으며 현재 추가적인 최적화를 위해 더욱 노력하고 있습니다.
더욱 향상된 컨텍스트 처리와 유용한 기능들
AI 모델의 “컨텍스트 윈도우”는 정보를 처리하는 구성 요소인 토큰으로 이뤄집니다. 토큰은 단어, 사진, 영상, 음성 및 코드의 전체 부분이거나 이들의 세부 항목이 될 수 있습니다. 모델의 컨텍스트 윈도우가 클수록 주어진 프롬프트에서 더 많은 정보를 받아들이고 처리할 수 있어, 더 일관성 있고 연관성 높은 유용한 결과를 얻을 수 있습니다.
일련의 머신러닝(ML) 혁신을 통해 기존 제미나이 1.0의 3만 2천 토큰을 넘어 제미나이 1.5 프로는 최대 100만 토큰까지 처리할 수 있게 되었습니다.
이는 제미나이 1.5 프로가 1시간 분량의 영상, 11시간 분량의 음성, 3만줄 이상의 코드 및 70만개가 넘는 단어 등을 포함해 방대한 양의 정보를 한 번에 처리할 수 있음을 의미합니다. 또한 구글 자체 연구를 통해 최대 100만 개의 토큰을 실행되는 점도 테스트 하였습니다.
주요 파운데이션 모델들의 컨텍스트 길이 비교
방대한 양의 정보에 대한 복잡한 추론 기능
제미나이 1.5 프로는 주어진 프롬프트에 답하기 위해 더욱 매끄럽게 방대한 양의 콘텐츠를 분석, 분류하여 요약해 줍니다. 예를 들어, 달탐사 미션 수행을 위해 발사됐던 우주선 아폴로 11호와 관련된 402페이지 분량의 기록이 제미나이 1.5 프로에 주어진다면, 제미나이 1.5 프로는 문서 전반에서 발견되는 모든 자세한 정보들과 대화, 사건, 이미지 등을 종합해 추론해 낼 수 있습니다. (관련 영상)
제미나이 1.5 프로는 달탐사 미션을 위해 발사된 우주선 아폴로 11호에 관한 402 페이지 분량의 기록을 이해하고, 이에 대해 추론하며 흥미로운 정보들을 파악해낼 수 있습니다.
다양한 모달에 걸쳐 더욱 향상된 이해도 및 추론 역량
제미나이 1.5 프로는 영상 등 다양한 모달리티에서도 고도로 정교화된 이해 능력과 추론 능력을 자랑합니다. 예를 들어, 44분 분량의 미국 배우 버스터 키튼(Buster Keaton)의 무성 영화가 입력되면, 해당 모델은 정확하게 주요 줄거리 포인트와 사건들을 분석 하며 자칫 놓칠 수 있는 영화 내 사소한 디테일까지도 추론해 낼 수 있습니다. (관련 영상)
제미나이 1.5 프로는 실제 대상에 대한 참조 자료로 단순한 선이 주어져도, 버스터 키튼의 44분 분량 무성영화에서 관련 장면을 찾을 수 있다.
더 긴 코드 블록에서도 연관성 높은 문제 해결
제미나이 1.5 프로는 더 긴 코드 블록에서도 연관성이 더 높은 문제 해결 작업을 수행할 수 있습니다. 일례로 10만 줄 이상의 코드가 포함된 프롬프트가 주어져도, 제미나이 1.5 프로는 예시를 통해 더 잘 추론하고 유용한 수정 사항을 제안하며, 코드의 여러 부분들이 어떻게 작동하는지에 대해 설명을 제공할 수 있습니다. (관련 영상)
제미나이 1.5 프로가 방대한 양의 코드가 주어졌을 때에도, 프롬프트에 따라 특정 코드를 찾아내고 수정사항을 제안하는 모습
더욱 향상된 성능
텍스트, 코드, 이미지, 음성 및 영상 등 종합적인 패널을 테스트 했을 때, 제미나이 1.5 프로는 구글의 대규모 언어 모델(LLM) 개발 시 사용된 벤치마크에서 기존 제미나이 1.0 프로보다 87% 더 향상된 성능을 보였습니다. 또한, 제미나이 1.0 울트라와 동일한 벤치마크 비교 시에는 전반적으로 거의 비슷한 수준의 성능을 나타냈습니다.
특정 사실이나 진술이 포함된 작은 텍스트 조각을 긴 텍스트 블록 안에 의도적으로 배치하는 NIAH(Needle In A Haystack) 평가에서 제미나이 1.5 프로는 100만 토큰 길이의 데이터 블록에서 99%의 정확도로 해당 문구가 포함된 텍스트를 찾아냈습니다.
또한, 제미나이 1.5 프로는 놀라운 “문맥 기반 학습(in-context learning)” 기능을 갖추고 있습니다. 해당 기능을 통해 제미나이 1.5 프로는 추가적인 미세 조정 작업 없이도 주어진 긴 프롬프트 내 정보에서 새로운 기술을 학습할 수 있습니다. 구글은 Machine Translation from One Book (MTOB)이라는 벤치마크를 통해 모델이 기존에 본 적이 없던 정보도 얼마나 잘 학습하는지 테스트하였습니다. 일례로, 전 세계적으로 사용하는 사람이 200명이 채 안되는 칼라망(Kalamang)어 문법 매뉴얼이 주어졌을 때도, 제미나이 1.5 프로는 동일한 내용을 사람이 학습하는 것과 비슷한 수준으로 영어를 칼라망어로 번역하는 방법을 학습하였습니다.
제미나이 1.5 프로의 긴 컨텍스트 윈도우는 대규모 모델 사이에서는 가장 선도적인 기능으로, 뛰어난 역량을 테스트 하기 위한 새로운 평가 방법과 벤치마크를 개발하고 있습니다.
더욱 자세한 내용은 제미나이 1.5 프로 기술 보고서를 통해서 확인할 수 있습니다.
더욱 포괄적인 윤리성 및 안정성 검증
구글의 AI 원칙과 엄격한 안전성 정책에 기반해, 구글은 자사 모델에 포괄적인 윤리성 및 안전성 테스트를 진행하고 있습니다. 검사 후에는 관련 연구 결과를 거버넌스 절차와 모델 개발 과정에 녹여내고 AI 시스템을 지속적으로 향상시키기 위한 평가 절차에도 반영하고 있습니다.
지난 해 12월 제미나이 1.0 울트라가 공개된 이후, 구글의 각 부서들은 해당 모델을 더욱 정교하게 다듬어 더 많은 이들이 안전하게 사용할 수 있게 했습니다. 또한, 구글은 안전성 위험에 대한 새로운 연구를 수행하고 다양한 부분에서의 잠재적 위험에 대응하기 위해 레드팀 기술도 개발하였습니다.
제미나이 1.5 프로의 발표에 앞서, 구글은 이와 같이 책임감 있게 모델을 개발하기 위한 동일한 접근 방식을 취하며 콘텐츠 안정성과 대표적인 위험성 등에 대해 광범위한 평가를 진행했으며 앞으로도 이러한 테스트를 더욱 확대해 나갈 것입니다. 또한, 제미나이 1.5 프로의 긴 맥락 이해 역량을 측정하는 새로운 테스트들도 개발하고 있습니다.
제미나이 모델을 활용해 새롭게 앱을 구축하고 실험해 보세요
구글은 전 세계 수십 억 명의 이용자, 개발자 및 기업들을 대상으로 책임감 있게 새로운 세대의 제미나이 모델을 제공하고자 노력하고 있습니다.
오늘부터 구글은 개발자 및 기업 고객들을 대상으로 구글 AI 스튜디오(Google AI Studio)와 버텍스AI(Vertex AI)를 통해 이러한 실험적인 기능의 초기 프리뷰 버전을 제공합니다.
또한, 제미나이 1.5 프로는 향후 기본 12만 8천개의 토큰 컨텍스트 윈도우와 함께 제공될 예정입니다. 곧 구글은 모델 개발 상황에 따라 기본 12만 8천개의 컨텍스트 윈도우부터 100만 토큰까지 제공하는 다양한 구매 옵션을 공개할 예정입니다.
초기 이용자들은 테스트 기간동안 별도 비용없이 100만 토큰 컨텍스트 윈도우까지 이용할 수 있습니다. 다만, 아직 실험 기능인 관계로 이에 따른 속도 지연이 발생할 수 있으며 관련 부분은 지속적으로 개선될 예정입니다.
제미나이 1.5 프로 테스트에 관심있는 개발자들이라면 구글 AI 스튜디오(Google AI Studio)에서 등록해 이용할 수 있으며 기업 고객은 구글 버텍스AI 담당자에게 문의하여 이용 가능합니다.