[I/O 2025] 제미나이 2.5: 구글의 가장 뛰어난 모델이 발전을 거듭하고 있습니다

지난 3월, 구글은 역대 가장 뛰어난 모델인 제미나이 2.5 프로를 발표하고, 약 2주 전, 개발자들이 더 혁신적인 웹 애플리케이션을 제작할 수 있도록 구글의 I/O 업데이트 소식을 사전 공개했습니다. 그리고 오늘, 구글은 제미나이 2.5 모델 시리즈가 지원하는 더 많은 업데이트 내용을 공유해 드리고자 합니다.
- 2.5 프로(Pro)는 학술적 벤치마크에서 탁월한 성능을 보여주었을 뿐만 아니라, 이제는 WebDev Arena 및 LMArena 리더보드에서도 세계 최고 모델로 등극했으며, 학습 분야에서도 선도적인 모델로 평가받고 있습니다. 또한, 고난도 수학 및 코딩 작업을 위한 실험적 고급 추론 모드인 ‘딥 씽크(Deep Think)’의 도입으로 한층 더 강력해집니다.
- 구글은 2.5 프로와 2.5 플래시(Flash)에 네이티브 오디오 출력, 고급 보안 보호 기능 및 ‘프로젝트 마리너(Project Mariner)’의 컴퓨터 작업 수행 능력을 포함한 새로운 기능들을 도입합니다.
- 라이브 API(Live API)에는 이제 자연스러운 대화 경험을 구축할 수 있도록 2.5 플래시 기반의 ‘네이티브 오디오 출력(Native Audio output)’ 미리보기 버전을 포함했습니다.
- 구글은 개발자 경험을 지속적으로 개선하기 위해 다양한 기능을 도입하고 있습니다. 제미나이 및 버텍스 API에는 사고 요약(thought summaries) 기능이 새롭게 추가되었으며, 사고 예산(thinking budgets) 기능은 2.5 프로(Pro)까지 확대 적용되었습니다. 아울러 제미나이 API와 SDK는 이제 MCP(Multimodal Chain-of-Thought Programming)와 호환되도록 업데이트 되었습니다.
- 이제 2.5 플래시는 제미나이 앱에서 모든 이용자가 사용할 수 있으며, 다음 달에는 개발자를 위한 ‘구글 AI 스튜디오(Google AI Studio)’와 기업용 버텍스 AI(Vertex AI)에서도 업데이트된 버전이 우선 6월 초 출시되고, 2.5 프로에서도 곧 출시될 예정입니다.
이러한 주목할 만한 발전은 구글 전반에 걸쳐 여러 팀이 기술을 개선하는 동시에, 안전하고 책임감 있게 개발 및 출시하기 위해 끊임없이 노력한 결과입니다. 그럼 지금부터 자세히 살펴보겠습니다.
2.5 프로는 그 어느 때보다 뛰어난 성능을 발휘합니다.
구글은 최근 개발자들이 더욱 풍부하고 인터랙티브한 웹 앱을 구축할 수 있도록 2.5 프로를 업데이트했습니다. 이용자들은 제미나이 2.5 프로의 활용도를 긍정적으로 평가하고 있으며, 특히 풍부하고 인터랙티브한 웹 앱을 제작할 수 있는 기능에 크게 만족하고 있습니다. 구글은 이용자 의견을 바탕으로 지속적인 개선 작업도 이어 가고 있습니다.
강력한 성능 및 학술적 벤치마크 외에도, 새로운 2.5 프로는 많은 주요 코딩 벤치마크에서 최고 점수를 기록했습니다. WebDev Arena 리더보드에서는 ELO 점수 1420점으로 선두를 달리고 있으며, 다양한 환경에서의 인간 선호도를 평가하는 LMArena 리더보드의 모든 항목에서도 타의 추종을 불허하고 있습니다. 100만 토큰 규모의 컨텍스트 윈도우를 통해 긴 컨텍스트와 영상 이해력 면에서 최고 수준의 성능을 자랑합니다.
교육 분야 전문가들과 협력하여 구축한 구글의 학습 모델 제품군인 런LM(LearnLM)을 통합한 이후, 2.5 프로는 이제 학습 분야 최고 모델로 인정받고 있습니다. 교육자와 전문가들은 다양한 시나리오에서 제미나이 2.5 프로의 교육 방법(pedagogy)과 효과를 평가하는 일대일 비교에서 다른 모델들보다 제미나이 2.5 프로를 선호했습니다. 또한, 학습을 위한 AI 시스템 구축에 사용되는 학습 과학의 다섯 가지 원리 모두에서 제미나이 2.5 프로는 다른 우수 모델들을 능가하는 성능을 보였습니다.
더 자세한 내용은 업데이트된 제미나이 2.5 플래시 모델 카드와 제미나이 기술 페이지에서 확인할 수 있습니다.
딥 씽크(Deep Think)
제미나이 사고 능력의 경계를 탐구하며, 구글은 여러 접근 방식을 고려한 후 응답하는 알고리즘 개선과 최첨단 연구를 활용하는 고급 추론 모드 ‘딥 씽크(Deep Think)’를 테스트하고 있습니다.
제미나이 2.5 프로 ‘딥 씽크’는 난이도가 가장 높은 수학 벤치마크 중 하나인 USAMO(미국수학올림피아드) 2025에서 우수한 성적을 기록했습니다. 코딩 벤치마크인 LiveCodeBench에서 선도하고 있으며, 멀티모달 추론을 테스트하는 MMMU에서 84.0%의 정답률을 기록했습니다.

이에 대한 더 많은 의견 수집을 위해, 구글은 엄선된 안전성 전문가 그룹을 대상으로 2.5 프로 딥 씽크를 제공하며, 신뢰할 수 있는 테스터들에게도 제미나이 API를 통해 해당 기능을 선보일 예정입니다.
딥 씽크의 본격적인 출시에 앞서, 구글은 최첨단 안전성 평가와 이용자 피드백을 기반으로 지속적으로 개선해 나갈 예정입니다.
더욱 향상된 2.5 플래시
2.5 플래시는 빠르고 경쟁력 높은 비용을 위해 설계된 구글의 강력하고 가장 효율적인 핵심 모델로, 이제 거의 모든 부문에서 기능들이 더욱 향상되었습니다. 추론, 멀티모달리티, 코드 및 긴 컨텍스트 처리에 대한 주요 벤치마크에서 상당 부분 개선되었으며, 평가 결과 토큰 사용량은 20-30% 줄어 효율성도 더욱 높아졌습니다.
새로운 2.5 플래시는 이제 개발자를 위한 구글 AI 스튜디오, 기업용 버텍스 AI, 그리고 모든 이용자를 위한 제미나이 앱에서 미리보기로 제공되며, 오는 6월 초 정식 출시돼 프로덕션 환경에서 사용할 수 있게 됩니다.
더 자세한 내용은 업데이트된 제미나이 2.5 플래시 모델 카드와 제미나이 기술 페이지에서 확인할 수 있습니다.

제미나이 2.5의 새로운 기능
네이티브 오디오 출력 및 라이브 API(Live API) 향상
오늘 라이브 API에 2.5 플래시 기반의 ‘네이티브 오디오 출력 대화(native audio output dialogue)’ 프리뷰 버전이 소개됩니다. 이를 통해 보다 자연스럽고 표현력이 풍부한 제미나이 기반 대화 경험을 구축할 수 있으며, 이용자는 모델의 어조, 억양, 화법 등도 조절할 수 있습니다. 예를 들어, 모델에게 이야기를 할 때 극적인 목소리로 말하도록 요청할 수 있습니다. 모델은 이제 이용자를 대신해 검색할 수 있는 툴 사용 기능도 지원합니다.
이번 프리뷰에는 다음와 같은 초기 기능들도 함께 포함됩니다.
- 감정 기반 대화(Affective Dialogue) 기능은 AI 모델이 이용자의 목소리에서 감정을 감지하고 이에 대해 적절한 답변을 할 수 있도록 합니다.
- 능동형 오디오(Proactive Audio) 기능은 AI 모델이 화자의 음성과 배경음을 구분해 정확한 타이밍에 응답할 수 있도록 지원합니다.
- 라이브 API에서의 씽킹 모드를 도입해, 제미나이의 사고 능력을 활용해 보다 복잡한 임무를 수행할 수 있습니다.
또 제미나이 2.5 프로 및 2.5 플래시에서는 텍스트-음성 변환(Text-to-Speech) 기능의 새로운 프리뷰 버전 역시 제공됩니다. 이 기능은 네이티브 오디오 출력을 통해 두 개의 음성으로 TTS를 지원하는 최초의 다중 화자 지원 기능을 통해 더 생생하고 표현력 있는 대화를 구현할 수 있도록 돕습니다.
이는 네이티브 오디오 대화처럼, 텍스트-음성 변환에 있어 표현은 중요한 요소인 만큼, 속삭임과 같이 사람이 말할 때의 미묘한 뉘앙스까지 포착할 수 있습니다. 한국어를 포함해 24개 이상의 언어로 이용 가능하며, 언어 간 전환도 원활합니다.
이 텍스트-음성 변환 기능은 이제 제미나이 API에서 이용할 수 있습니다.
고급 보안
구글은 간접 프롬프트 주입(indirect prompt injections)과 같은 보안 위협에 대한 보호 기능을 대폭 강화했습니다. 이는 AI 모델이 검색하는 데이터에 악의적인 명령이 삽입되는 경우를 말합니다. 구글의 새로운 보안 접근 방식을 통해 툴 사용 중 간접 프롬프트 주입 공격에 대한 제미나이의 보호율이 크게 향상됐으며, 이 결과 제미나이 2.5는 현재까지 가장 안전한 저희 모델 제품군이 되었습니다.
안전, 책임, 보안 전반에 걸친 구글의 노력과 제미나이의 보안 보호 기능의 발전 과정에 대해 구글 딥마인드 블로그에서 더 자세히 알아 보세요.
고도화된 개발자 경험
사고 요약(Thought summaries)
2.5 프로 및 플래시 모델들은 이제 제미나이 API와 버텍스 AI에서 사고 요약 기능을 포함합니다. 사고 요약은 모델의 원시적인 생각들을 가져와 머리글, 주요 세부 정보, 그리고 툴을 사용하는 시점과 같은 모델 행동에 대한 정보와 함께 명확한 형식으로 정리합니다.
구글은 모델의 사고 과정에 대해 더욱 구조화되고 간결한 형식을 제공해, 개발자와 이용자들이 제미나이 모델과의 상호작용을 더 쉽게 이해하고 디버깅할 수 있기를 기대합니다.
사고 예산(Thinking budgets)
구글은 2.5 플래시를 출시할 때 사고 예산 기능을 함께 도입해 개발자들이 지연 시간과 품질의 균형을 맞춰 비용을 더욱 효과적으로 제어할 수 있게 했습니다. 그리고 오늘, 구글은 이 기능을 2.5 프로에도 확장 적용합니다.
이는 모델이 응답하기 전 사고하는 데 사용하는 토큰 수를 제어하거나, 심지어 사고 기능을 끌 수도 있습니다.
예산 기능이 적용된 제미나이 2.5 프로는 일반적으로 사용 가능한 모델과 함께 향후 몇 주 안에 안정적인 프로덕션 환경에서 정식 출시될 예정입니다.
모델 컨텍스트 프로토콜(MCP) 지원
구글은 오픈소스 툴과의 간편한 통합을 위해, 제미나이 API에 모델 컨텍스트 프로토콜(MCP) 정의를 지원하는 네이티브 SDK를 추가했습니다. 또한, 개발자들이 에이전트 기반 애플리케이션을 더욱 쉽게 구축할 수 있도록 MCP 서버 및 기타 호스팅 툴을 배포하는 방안도 모색하고 있습니다.
구글은 모델의 효율성과 성능을 더욱 향상시키는 것을 포함해, 모델 개선과 개발자 경험 향상을 위해 늘 새로운 접근 방식을 혁신하고 있습니다. 개발자 여러분의 피드백에도 지속적으로 귀 기울이고 있으니, 앞으로도 아낌없는 의견 부탁드립니다. 아울러, 제미나이의 역량을 보다 넓히는 기반 연구의 폭과 깊이도 지속적으로 확대해 나가고 있습니다. 곧 더 많은 소식을 발표할 예정이니 많은 관심 부탁드립니다.
제미나이와 그 기능에 대해 더 자세히 알아보세요.