메인 메뉴 바로가기

구글코리아 블로그

제미나이 2.0 출시: 에이전트 시대를 위한 구글의 새로운 AI 모델

[]

제미나이 2.0 출시: 에이전트 시대를 위한 구글의 새로운 AI 모델

2024년 12월 11일

구글은 제미나이 2.0 모델 제품군의 첫 번째 모델인 제미나이 2.0 플래시(Gemini 2.0 Flash) 실험 버전을 선보입니다.

순다 피차이(Sundar Pichai)

구글 및 알파벳 CEO

데미스 하사비스(Demis Hassabis)

구글 딥마인드 공동 창업자 및 CEO

코라이 카바쿨루(Koray Kavukcuoglu)

구글 딥마인드 CTO 겸 구글 수석 AI아키텍트

구글 제미나이 2.0 플래시 실험 버전 공개

순다 피차이(Sundar Pichai), 구글 및 알파벳 CEO가 전합니다.

정보는 인류 발전의 원동력입니다. 이는 지난 26년간 구글이 전 세계 정보를 체계화하여 누구나 쉽게 이용하고 활용할 수 있도록 집중해 온 이유입니다. 구글은 AI 기술의 지평을 끊임없이 넓혀 모든 입력 정보를 체계화하고, 모든 출력 방식을 통해 정보에 접근할 수 있도록 노력하고 있습니다. 정보가 진정으로 유용하게 활용될 수 있도록 돕는 것이 구글의 궁극적인 목표입니다.

작년 12월, 구글은 이러한 비전을 담아 멀티모달로 구축된 최초의 AI 모델인 제미나이 1.0을 선보였습니다. 제미나이 1.0과 1.5는 텍스트, 동영상, 이미지, 오디오 및 코드 전반의 정보를 이해하고 처리하는 데 큰 발전을 이뤄냈습니다.

현재 수백만 명의 개발자가 제미나이를 활용해 새로운 혁신을 만들어내고 있습니다. 전세계 20억 명이 이용하고 있는 구글의 핵심 제품 7개를 포함해 모든 제품을 재구상하고, 새로운 제품을 개발하는 데에도 제미나이가 활용되고 있습니다. 노트북LM은 멀티모달과 긴 컨텍스트가 가진 잠재력과 그 인기의 이유를 잘 보여주는 사례입니다.

지난 한 해 동안, 구글은 주변 상황을 더 잘 이해하고, 여러 단계 앞을 미리 내다보며, 이용자를 대신해 작업을 수행할 수 있는 AI 에이전트 모델 개발에 집중해 왔습니다.

오늘, 구글은 새로운 에이전트 시대를 위한 차세대 모델 ‘제미나이 2.0’을 출시합니다. 제미나이 2.0은 지금까지 선보인 모델 중 가장 뛰어난 성능을 자랑합니다. 네이티브 이미지 및 오디오 출력, 네이티브 툴 사용 등 멀티모달의 새로운 발전을 통해 ‘유니버설 어시스턴트(universal assistant)’라는 구글의 비전에 더 가까이 다가갈 수 있게 됐습니다.

제미나이 2.0은 오늘부터 개발자와 테스트 프로그램 대상자(Trusted tester)에게 제공됩니다. 이는 제미나이와 구글 검색을 시작으로, 구글 제품에 빠르게 적용될 예정입니다. 제미나이 2.0 플래시 실험 모델은 모든 제미나이 이용자가 이용할 수 있습니다. 또한 구글은 ‘딥 리서치(Deep Research)’라는 새로운 기능도 선보입니다. 이 기능은 고급 추론 및 긴 컨텍스트 기능을 사용해 리서치 어시스턴트 역할을 수행하며, 이용자를 대신해 복잡한 주제를 탐색하고 보고서를 작성합니다. 이 새로운 기능도 오늘부터 제미나이 어드밴스드에서 사용할 수 있습니다.

AI의 영향을 가장 크게 받은 구글 제품은 바로 구글 검색입니다. 현재 10억 명의 이용자가 구글의 AI 개요(AI Overviews) 기능을 통해 완전히 새로운 유형의 질문을 할 수 있게 됐으며, 이는 가장 인기 있는 검색 기능 중 하나가 됐습니다. 구글은 다음 단계로, 제미나이 2.0의 고급 추론 기능을 AI 개요에 적용해 고급 수학 방정식, 멀티모달 쿼리 및 코딩 등 더 복잡한 질문을 처리할 수 있도록 개선할 예정입니다. 구글은 이번 주에 제한된 범위의 테스트를 시작했으며 내년 초에 더 광범위하게 출시할 예정입니다. 또한 내년에는 AI 개요 기능을 더 많은 국가와 언어로 확대해 선보일 계획입니다.

제미나이 2.0은 구글이 10년간 쌓아 온 AI 혁신, 특히 풀-스택 방식(full-stack approach)에 대한 투자의 결과물입니다. 제미나이 2.0은 구글이 자체 개발한 6세대 TPU, ‘트릴리움(Trillium)’을 기반으로 구축됐으며, 제미나이 2.0의 학습 및 추론 과정 모두 TPU로 가속화되었습니다. 오늘부터 구글 클라우드 고객은 트릴리움을 이용할 수 있습니다.

제미나이 1.0이 정보를 구성하고 이해하는 수준이었다면, 제미나이 2.0은 정보를 훨씬 더 유용하게 만드는 데까지 나아갈 것입니다. 이 다음 시대가 가져올 변화가 정말 기대됩니다.

— 순다 피차이

지난 한 해 동안 구글은 인공지능 분야에서 눈부신 발전을 이뤄 왔습니다. 오늘, 구글은 제미나이 2.0 모델 제품군의 첫 번째 모델인 제미나이 2.0 플래시(Gemini 2.0 Flash) 실험 버전을 선보입니다. 짧은 지연 시간과 향상된 성능을 자랑하는 제미나이 2.0 플래시는 최첨단 기술을 대규모로 구현한 구글의 최신 주력 모델입니다.

구글은 또한 제미나이 2.0의 탁월한 멀티모달 기능을 기반으로 개발된 프로토타입을 공개하며, 에이전트 연구의 새로운 지평을 열 것입니다.

제미나이 2.0 플래시

제미나이 2.0 플래시는 개발자들에게 가장 인기 있는 모델인 1.5 플래시의 성공을 기반으로, 더욱 빠른 응답 시간과 향상된 성능을 제공합니다. 특히 주요 벤치마크에서 제미나이1.5 프로보다 2배 빠른 속도로 뛰어난 성능을 보여줍니다. 제미나이 2.0 플래시는 이미지, 동영상, 오디오와 같은 멀티모달 입력은 물론, 텍스트와 이미지를 결합해 생성된 이미지, 조정 가능한 다국어 텍스트 음성 변환(TTS) 오디오와 같은 멀티모달 출력도 지원합니다. 구글 검색, 코드 실행, 서드파티 이용자 정의 함수와 같은 툴도 기본적으로 호출할 수 있습니다.

제미나이 2.0 주요 벤치마크 테이블

구글은 이용자가 안전하고 빠르게 모델을 사용할 수 있도록 최선을 다하고 있습니다. 지난 한 달 동안 개발자들과 제미나이 2.0의 초기 실험 버전을 공유하며 소중한 피드백을 얻었습니다.

제미나이 2.0 플래시는 현재 구글 AI 스튜디오(Google AI Studio) 및 버텍스 AI(Vertex AI) 에서 제미나이 API를 통해 개발자에게 실험 모델로 제공됩니다. 모든 개발자는 멀티모달 입력 및 텍스트 출력을 사용할 수 있으며, 텍스트 음성 변환(text-to-speech) 및 네이티브 이미지 생성은 일부 파트너들을 대상으로 제공됩니다. 내년 1월에는 더 많은 모델 사이즈와 함께 일반에 공개될 예정입니다.

개발자가 더욱 역동적이고 인터랙티브한 애플리케이션을 구축할 수 있도록 실시간 오디오, 비디오 스트리밍 입력과 여러 툴들을 결합해 사용할 수 있는 새로운 멀티모달 라이브 API도 출시합니다. 2.0 플래시 및 멀티모달 라이브 API에 대한 자세한 내용은 개발자 블로그에서 확인할 수 있습니다.

제미나이 앱에서 제미나이 2.0을 AI 어시스턴트로 사용 가능

오늘부터 전 세계 제미나이 이용자라면 누구나 데스크톱과 모바일 웹에서 제미나이 2.0을 만나볼 수 있습니다. 데스크톱과 모바일웹의 모델 드롭다운 메뉴에서 '2.0 플래시 실험 버전'을 선택하면 채팅에 최적화된 제미나이 2.0을 바로 사용해 볼 수 있으며, 이는 제미나이 모바일 앱에도 곧 적용될 예정입니다. 새로워진 제미나이 2.0은 이전보다 훨씬 더 강력하고 유용한 AI 어시스턴트 경험을 제공합니다.

내년 초에는 제미나이 2.0을 구글의 더 다양한 제품에서 만나볼 수 있도록 지원을 확대할 계획입니다.

제미나이 2.0으로 에이전트형 AI 경험 제공

제미나이 2.0 플래시는 네이티브 이용자 인터페이스 액션 기능과 멀티모달 추론, 긴 컨텍스트 이해, 복잡한 명령 수행 및 계획, 구성 가능한 함수 호출(compositional function-calling), 네이티브 툴 사용, 더 짧아진 지연 시간 등 다양한 개선 사항이 모두 결합돼 완전히 새로운 차원의 에이전트형 기반 경험을 제공합니다.

AI 에이전트의 실제적인 응용은 흥미로운 가능성으로 가득 찬 연구 분야입니다. 구글은 이용자들이 작업을 완료하고 목표를 달성하는 데 도움이 될 수 있는 일련의 프로토타입을 통해 이 새로운 영역을 탐구하고 있습니다. 여기에는 유니버설 AI 어시스턴트의 미래 기능을 탐구하는 연구 프로토타입인 ‘프로젝트 아스트라(Project Astra)’의 업데이트, 브라우저에서 시작해 인간과 에이전트간 상호 작용의 미래를 탐구하는 새로운 ‘프로젝트 마리너(Project Mariner)’, 개발자를 지원하는 AI 기반 코드 에이전트인 ‘줄스(Jules)’가 포함됩니다.

아직 개발 초기 단계이지만, 구글은 테스트 프로그램 대상자들이 이러한 새로운 기능을 어떻게 사용하며, 이를 통해 구글이 어떤 교훈을 얻을 수 있는지 주목하고 있습니다. 이를 통해 향후 더 많은 제품에 해당 기능을 더 광범위하게 사용할 것입니다.

‘프로젝트 아스트라(Project Astra)’: 실생활에서 멀티모달 이해를 활용하는 AI 에이전트

올해 구글 I/O에서 프로젝트 아스트라를 처음 공개한 이후, 안드로이드 휴대폰에서 아스트라를 사용하는 테스트 프로그램 대상자들의 피드백을 통해 실제로 유니버설 AI 어시스턴트가 어떻게 작동할 수 있는지, 그리고 안전 및 윤리적 의미는 무엇인지 더 잘 이해하게 됐습니다. 제미나이 2.0 기반으로 새롭게 개선된 프로젝트 아스트라는 다음과 같은 기능을 제공합니다.

더욱 자연스러워진 대화: 프로젝트 아스트라는 다양한 언어(multiple languages)와 혼합 언어(mixed languages)로도 대화가 가능하며, 다양한 억양과 생소한 단어까지 이해합니다.
새로운 툴 활용: 구글 검색, 구글 렌즈, 구글 맵스를 활용해 일상생활에 더욱 유용한 어시스턴트 역할을 수행합니다.
강화된 기억력: 프로젝트 아스트라는 이용자의 정보 보호를 최우선으로 하면서 기억력을 더욱 향상시켰습니다. 최대 10분 동안의 대화 내용을 기억하고 과거에 나눈 대화를 바탕으로 더욱 개인화된 경험을 제공합니다.
빠른 응답 속도: 새로운 스트리밍 기능과 향상된 오디오 이해 능력을 통해 이용자와 대화하는 것처럼 자연스럽고 빠르게 응답합니다.

구글은 이러한 기능들을 구글의 AI 어시스턴트인 제미나이 앱 등 구글 제품은 물론, 안경과 같은 또 다른 폼 팩터(form factor)에도 도입하기 위해 노력하고 있습니다. 또한 더 많은 이용자들이 프로젝트 아스트라를 경험할 수 있도록 테스트 프로그램을 확대하고 있으며, 곧 소규모 그룹을 대상으로 프로토타입 안경에서 프로젝트 아스트라를 테스트할 예정입니다.

‘프로젝트 마리너(Project Mariner)’: 복잡한 작업을 도와주는 에이전트

프로젝트 마리너는 제미나이 2.0으로 구축된 초기 연구 프로토타입으로, 브라우저를 시작으로 인간과 에이전트 간 상호 작용의 미래를 탐구합니다. 연구 프로토타입인 프로젝트 마리너는 픽셀 및 텍스트, 코드, 이미지, 양식과 같은 웹 요소를 포함해 브라우저 화면의 정보를 이해하고 추론한 다음, 실험적인 크롬 확장 프로그램(Chrome extension)을 통해 해당 정보를 활용하여 작업을 완료합니다.

엔드-투-엔드 실제 웹 작업에 대한 에이전트 성능을 테스트하는 WebVoyager 벤치마크에서 평가했을 때, 프로젝트 마리너는 단일 에이전트 설정으로 작동하여 최첨단 결과인 83.5%를 달성했습니다.

아직 초기 단계이지만 프로젝트 마리너는 브라우저 내에서 탐색하는 것이 기술적으로 가능해지고 있음을 보여줍니다. 아직 항상 정확하지는 않고 작업을 완료하는 속도가 아주 빠르지는 않지만, 시간이 지남에 따라 신속히 개선될 것입니다.

이를 안전하고 책임감 있게 구축하기 위해 구글은 새로운 유형의 위험과 완화 조치에 대해 적극적으로 연구하는 한편, 이용자와 계속 소통하고 있습니다. 예를 들어, 프로젝트 마리너는 브라우저의 활성 탭에서 입력, 스크롤 또는 클릭만 가능하며, 구매와 같은 민감한 작업을 수행하기 전에는 이용자에게 최종 확인을 요청합니다.

테스트 프로그램 대상자들은 현재 실험적인 크롬 확장 프로그램을 이용해 프로젝트 마리너를 테스트하기 시작했으며, 동시에 구글은 웹 생태계와도 소통을시작하고 있습니다.

개발자를 위한 AI 에이전트, ‘줄스(Jules)’

구글은 AI 에이전트가 개발자를 어떻게 지원할 수 있을지 탐구하고 있습니다. 그 결과물 중 하나가 바로 ‘줄스(Jules)’입니다. 줄스는 깃허브(GitHub) 워크플로우에 직접 통합되는 실험적인 AI 기반 코드 에이전트로, 개발자의 지시와 감독 하에 이슈를 처리하고, 계획을 세우고 실행할 수 있습니다. 궁극적으로 코딩을 포함한 모든 영역에서 도움이 되는 AI 에이전트를 구축하는 것이 구글의 장기적인 목표입니다.

줄스에 대한 자세한 내용은 개발자 블로그 게시물에서 확인할 수 있습니다.

게임 및 기타 영역의 에이전트

구글 딥마인드(Google DeepMind)는 AI 모델이 규칙을 준수하고, 계획 및 논리를 더 잘 수행하도록 돕기 위해 오랫동안 게임을 활용해 왔습니다. 최근에 구글은 단일 이미지에서 무한하게 다양한 플레이가 가능한 3D 세계를 만들 수 있는 AI 모델 ‘지니 2(Genie 2)’를 소개하기도 했습니다. 이러한 전통을 바탕으로, 구글은 제미나이 2.0을 사용해 비디오 게임의 가상 세계 탐색을 지원하는 에이전트를 구축했습니다. 이 에이전트는 화면의 동작만을 기반으로 게임에 대해 추론하고, 실시간 대화를 통해 다음에 무엇을 해야 할지 제안할 수 있습니다.

구글은 슈퍼셀(Supercell)과 같은 선도적인 게임 개발사와 협력해 ‘클래시 오브 클랜(Clash of Clans)’과 같은 전략 타이틀부터 ‘헤이 데이(Hay Day)’와 같은 농장 시뮬레이터에 이르기까지, 다양한 게임에서 에이전트가 규칙과 과제를 해석하는 능력을 테스트하고 있습니다.

이러한 에이전트는 가상 게임의 동반자 역할은 물론, 구글 검색을 활용해 웹 상의 풍부한 게임 지식을 제공할 수도 있습니다.

가상 세계에서의 에이전트형 기능 탐색 외에도, 구글은 제미나이 2.0의 공간 추론 기능을 로봇 공학에 적용해 물리적 세계에서 도움을 줄 수 있는 에이전트를 실험하고 있습니다. 아직 초기 단계이지만, 물리적 환경에서 도움을 줄 수 있는 에이전트의 잠재력에 큰 기대를 걸고 있습니다.

구글 랩스(Google Labs)에서 이러한 연구 프로토타입 및 실험에 대해 자세히 알아볼 수 있습니다.

책임감 있는 AI 에이전트 시대를 향해

구글은 제미나이 2.0 플래시와 구글의 리서치 프로토타입을 통해 AI 연구의 최전선에서 새로운 기능을 테스트하고 발전시켜 구글 제품을 더욱 유용하게 만들어가고 있습니다.

하지만 새로운 기술 개발에는 그에 따르는 책임이 수반됩니다. AI 에이전트로 인해 안전 및 보안 측면에서 많은 질문들이 제기되는 것을 구글 역시 인식하고 있습니다. 이를 위해 구글은 안전 교육을 반복적으로 실시하고, 신뢰할 수 있는 테스터 및 외부 전문가와 협력하며, 광범위한 위험 평가와 안전 및 보증 평가를 수행하는 등 다음과 같은 탐구적이고 점진적인 개발 접근 방식을 취하고 있습니다.

안전 프로세스의 일환으로 구글은 오랫동안 내부 검토 그룹인 책임 및 안전 위원회(RSC)와 협력해 잠재적 위험을 식별하고 대처해 왔습니다.
제미나이 2.0의 추론 기능은 AI 지원 레드팀 접근 방식(AI-assisted red teaming approach)에 큰 진전을 가져왔습니다. 이제 단순히 위험을 감지하는 것을 넘어, 이를 완화하기 위한 평가 및 훈련 데이터를 자동으로 생성할 수 있습니다. 즉, 구글은 보다 효율적으로 모델을 대규모로 안전하게 최적화할 수 있습니다.
제미나이 2.0의 멀티모달 기능은 잠재적 출력의 복잡성을 증가시키므로, 제미나이 이미지 및 오디오의 입력과 출력에서 모델을 지속적으로 평가하고 훈련해 안전을 개선할 것입니다.
프로젝트 아스트라를 통해 구글은 이용자가 의도치 않게 에이전트와 민감한 정보를 공유하는 것에 대해 잠재적인 완화 방안을 모색하고 있으며, 이용자가 세션을 쉽게 삭제할 수 있는 개인 정보 보호 제어 기능을 이미 구축했습니다. 또한 AI 에이전트가 안정적인 정보 출처 역할을 하는 동시에, 이용자를 대신해 의도하지 않은 행동을 하지 않도록 계속 연구하고 있습니다.
구글은 프로젝트 마리너를 통해 모델이 서드파티의 프롬프트 주입 시도보다 이용자 지침을 우선시하도록 학습시켜, 외부 소스의 잠재적인 악성 지침을 식별하고 오용을 방지하도록 노력하고 있습니다. 이를 통해 이메일, 문서 또는 웹사이트에 숨겨진 악성 지침 등을 통해 이용자가 사기 및 피싱 시도에 노출되는 것을 방지할 수 있습니다.

구글은 AI를 구축하는 유일한 방법은 처음부터 책임감을 갖는 것이라고 믿습니다. 앞으로도 구글은 모델과 에이전트를 발전시켜 나가면서 안전과 책임을 최우선 가치로 삼겠습니다.

제미나이 2.0, AI 에이전트를 넘어 그 이상으로

오늘의 발표는 제미나이 모델의 새로운 장을 열어 주었습니다. 획기적인 제미나이 2.0 플래시 출시와 AI 에이전트의 가능성을 탐구하는 다양한 연구 프로토타입을 통해, 구글은 제미나이 시대의 흥미진진한 여정을 지속해 나가고 있습니다. 앞으로도 구글은 AGI(Artificial General Intelligence)를 향해 모든 가능성을 안전하고 책임감 있게 탐구해 나가겠습니다.

관련 키워드: