제미나이 3.1 플래시 라이브: 더욱 자연스럽고 신뢰할 수 있는 오디오 AI
오늘 구글은 가장 높은 품질의 오디오 및 음성 모델인 제미나이 3.1 플래시 라이브(Gemini 3.1 Flash Live)를 통해 제미나이(Gemini)의 실시간 대화 기능을 한 단계 더 발전시킵니다. 이 모델은 차세대 음성 우선(voice-first) AI에 필요한 속도와 자연스러운 리듬을 제공하며, 개발자, 기업, 그리고 일반 이용자 모두에게 더욱 직관적인 경험을 선사합니다.
3.1 플래시 라이브(Flash Live)는 다음과 같은 구글 제품에서 사용할 수 있습니다:
- 개발자: 구글 AI 스튜디오(Google AI Studio)의 제미나이 라이브 API(Gemini Live API)를 통해 프리뷰 버전으로 제공
- 기업: 고객 경험용 제미나이 엔터프라이즈(Gemini Enterprise for Customer Experience)에서 제공
- 일반 이용자: 서치 라이브(Search Live) 및 제미나이 라이브(Gemini Live)를 통해 제공
개발자용: 향상된 추론 및 작업 실행 능력
3.1 플래시 라이브는 전반적인 품질이 개선되어, 개발자와 기업이 복잡한 작업을 대규모로 수행하는 음성 우선 에이전트를 보다 안정적으로 구축할 수 있도록 지원합니다. 다양한 제약 조건에서 다단계 함수 호출(multi-step function calling) 능력을 평가하는 ComplexFuncBench Audio 벤치마크에서, 이전 모델 대비 90.8%의 성능을 기록하며 선두를 차지했습니다.
스케일 AI(Scale AI)의 AudioMultiChallenge 벤치마크에서 제미나이 3.1 플래시 라이브는 '사고(thinking)' 모드 활성화 시 36.06%의 성능을 기록하며 선두로 앞서 나갔습니다. 이 벤치마크는 실제 오디오 환경에서 흔히 발생하는 대화 중단이나 망설임과 같은 상황을 반영해 복잡한 지시 사항을 따르고 장기적인 추론을 수행하는 능력을 구체적으로 평가합니다.
또한 3.1 플래시 라이브는 톤(tone)에 대한 이해도가 향상되어 보다 자연스러운 대화를 지원합니다. 고객 경험용 제미나이 엔터프라이즈(Gemini Enterprise for Customer Experience)에서는 2.5 플래시 네이티브 오디오(2.5 Flash Native Audio) 대비 음조(pitch)와 속도(pace) 등 음향적 특성을 훨씬 더 효과적으로 인식합니다. 아울러 이용자의 불만이나 혼란 섞인 표현에 따라 응답을 유연하게 조정하는 능력도 개선되었습니다.
3.1 플래시 라이브는 소음이 심한 환경에서도 복잡한 작업을 수행하는 음성 기반 에이전트를 구현할 수 있습니다.
3.1 플래시 라이브는 음성을 활용한 바이브 코딩(vibe code)을 통해 아이디어를 빠르게 실현하고 반복 개발을 할 수 있도록 지원합니다.
버라이즌(Verizon), 라이브킷(LiveKit), 홈디포(The Home Depot) 등 기업들은 워크플로우에 3.1 플래시 라이브를 도입한 후, 보다 자연스러워진 대화 경험에 대해 긍정적인 피드백을 공유했습니다.
모든 이용자를 위한 혜택: 더욱 자연스럽고 직관적인 상호작용
제미나이 라이브와 서치 라이브에서 3.1 플래시 라이브 모델은 간단한 일상 질문부터 복잡한 대화에 이르기까지 보다 유용하고 자연스러운 응답을 제공합니다.
3.1 플래시 라이브 모델을 탑재한 제미나이 라이브는 이전 모델 대비 더 빠른 응답 속도를 제공하며, 대화의 흐름을 두 배 더 길게 유지할 수 있습니다. 이를 통해 장시간의 브레인스토밍 중에도 맥락을 유지하며 자연스럽게 대화를 이어갈 수 있습니다.
3.1 플래시 라이브로 더욱 빠르고 유용해진 제미나이 라이브
또한 3.1 플래시 라이브는 다국어 처리 능력을 기본으로 갖추고 있어, 이번 주부터 시작되는 서치 라이브(Search Live)의 글로벌 서비스 확대를 지원합니다. 이번 출시로 200개 이상의 국가 및 지역 이용자들이 자신이 선호하는 언어로 구글 검색에서 실시간 멀티모달 대화를 나눌 수 있게 되었습니다.
서치 라이브에서 3.1 플래시 라이브로 실시간 문제 해결을 위한 도움을 받아보세요.
제미나이 3.1 플래시 라이브 체험해 보기
3.1 플래시 라이브가 생성하는 모든 오디오는 신스ID(SynthID) 워터마크가 적용됩니다. 감지 불가능한 해당 워터마크는 오디오 출력물에 직접 내장되어 AI 생성 콘텐츠를 신뢰성 있게 식별해, 오정보 확산 방지에 기여합니다. 안전성과 책임에 대한 자세한 내용은 모델 카드를 통해 확인 할 수 있습니다.
3.1 플래시 라이브는 오늘부터 이용할 수 있으며 보다 자연스럽고 신뢰도 높은 경험을 제공합니다. 여러분이 다양한 환경에서 3.1 플래시 라이브를 어떻게 활용할 수 있을지 기대가 됩니다.