메인 메뉴 바로가기
구글코리아 블로그

[I/O 2024] 크리에이터를 위해 함께 구축한 새로운 생성형 미디어 모델 및 도구

구글이 고화질 동영상 생성을 위한 모델인 비오(Veo), 텍스트-이미지 변환 모델인 이마젠 3(Imagen 3), 음악 AI 샌드박스로 제작한 새로운 실험적인 음악을 소개합니다.

이 블로그는 구글 The Keyword 블로그(영문)에서도 확인하실 수 있습니다.

지난 한 해 동안 구글은 생성형 미디어 기술의 품질을 향상시키는 데 놀라운 진전을 이뤘습니다. 크리에이티브 커뮤니티와 긴밀히 협력해 생성형 AI가 창작 과정을 가장 효과적으로 지원할 수 있는 방법을 모색하고, 각 단계에서 AI 도구가 최대한 유용하게 사용될 수 있도록 노력해 왔습니다.

오늘 구글은 제일 최신이자 가장 진보된 동영상 생성 모델인 비오(Veo)와 역대 최고 품질의 텍스트-이미지 변환 모델인 이마젠 3(Imagen 3)를 소개합니다.

또한 최근 영화감독 도널드 글로버(Donald Glover) 및 그의 크리에이티브 스튜디오 길가(Gilga)와의 협업과, 아티스트 위클리프 진(Wyclef Jean), 마크 레빌레(Marc Rebillet), 그리고 작곡가 저스틴 트랜터(Justin Tranter)가 뮤직 AI 샌드박스의 도움을 받아 제작한 새로운 음악도 공유할 예정입니다.

비오: 구글의 가장 뛰어난 성능의 비디오 생성 모델

비오는 현재까지 가장 뛰어난 성능을 자랑하는 구글의 동영상 생성 모델입니다. 다양한 시네마틱 비주얼 스타일로 1분 이상의 고화질 1080p 해상도 동영상을 생성할 수 있습니다.

비오는 자연어와 시각적 의미에 대한 이해도가 높으며, 긴 프롬프트의 세부 사항을 정확하게 랜더링하고 톤을 캡처하는 등 사용자의 창의적인 비전을 밀접하게 표현하는 비디오를 생성할 수 있습니다.

또한 이 모델은 '타임랩스(timelapse)' 또는 '풍경의 항공 촬영(aerial shots of a landscape)’과 같은 영화 용어를 이해하여 전례 없는 창의적인 제어 수준을 제공합니다. 사람, 동물, 사물이 샷 전체에서 사실적으로 움직이는 등 일관되고 일관성 있는 영상을 제작할 수 있습니다.

비오가 스토리텔러의 창작 과정을 가장 효과적으로 지원할 수 있는 방법을 찾기 위해 구글은 다양한 영화 제작자와 크리에이터를 초대하여 모델을 실험하고 있습니다. 또한 이러한 협업을 통해 기술을 설계, 구축 및 배포하는 방식을 개선하여 개발 과정에 크리에이터의 목소리를 반영할 수 있도록 하고 있습니다.

영화 프로젝트를 위해 비오를 실험한 영화 제작자 도널드 글로버(Donald Glover) 및 그의 크리에이티브 스튜디오인 길가(Gilga)와의 작업을 미리 살펴보세요.

영화 프로젝트를 위해 비오를 실험한 영화 제작자 도널드 글로버(Donald Glover) 및 그의 크리에이티브 스튜디오인 길가(Gilga)와의 작업을 미리 살펴보세요.
10:25

비오는 아키텍처, 스케일링 법칙 및 기타 새로운 기술을 결합하여 화질과 출력 해상도를 개선하는 GQN(Generative Query Network), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoetLumiere 등 수 년에 걸친 구글의 생성형 비디오 모델 작업을 기반으로 합니다.

비오를 통해 모델이 비디오의 내용을 이해하고, 고화질 이미지를 렌더링하, 물리학을 시뮬레이션하는 등 학습 방법을 개선했습니다. 이러한 학습을 통해 AI 연구 전반의 발전을 촉진하고 사람들이 새로운 방식으로 상호 작용하고 소통하는 데 도움이 되는 더욱 유용한 제품을 개발할 수 있습니다.

오늘부터 일부 크리에이터에 한해 비디오FX 내에서 비오를 사용할 수 있으며, 대기자 명단에 등록해 추가 참여할 수 있습니다. 향후에는 유튜브 쇼츠 및 기타 제품에도 비오의 일부 기능을 제공할 예정입니다.

비오의 기능에 대해 자세히 알아보세요.

이마젠 3: 최고 품질의 텍스트-이미지 변환 모델

구글은 지난 한 해 동안 이미지 생성 모델과 도구의 품질과 충실도를 개선하는 데 놀라운 진전을 이뤘습니다.

이마젠 3는 최고 품질의 텍스트-이미지 변환 모델입니다. 놀라운 수준의 디테일을 생성하며, 이전 모델보다 훨씬 적은 시각적 결함으로 사실적이고 생생한 이미지를 만들어냅니다.

  • Prompt: A close up of a sleek wolf perched regally in front of gray background, in a high-resolution photograph with detailed fine details, isolated on a plain stock photo with color grading in the style of a hyper-realistic style.

    Prompt: A close up of a sleek wolf perched regally in front of gray background, in a high-resolution photograph with detailed fine details, isolated on a plain stock photo with color grading in the style of a hyper-realistic style.

  • Prompt: Close-up of a jellyfish pulsating through crystal-clear water, tentacles trailing, vibrant coral reef background, macro photography, stock photo, high resolution, very detailed, soft lighting, professional color grading, shallow depth of field, sharp focus, taken with a DSLR camera in the style of professional photographers.

    Prompt: Close-up of a jellyfish pulsating through crystal-clear water, tentacles trailing, vibrant coral reef background, macro photography, stock photo, high resolution, very detailed, soft lighting, professional color grading, shallow depth of field, sharp focus, taken with a DSLR camera in the style of professional photographers.

  • Prompt: View from above of beautiful river canyon with trees, showcasing its stunning natural beauty with green mountains and blue waters. The photo captures the vastness of nature's creation in the style of its creation.

    Prompt: View from above of beautiful river canyon with trees, showcasing its stunning natural beauty with green mountains and blue waters. The photo captures the vastness of nature's creation in the style of its creation.

  • Prompt: Shot in the style of DSLR camera with the polarizing filter. A photo of two hot air balloons floating over the unique rock formations in Cappadocia, Turkey. The colors and patterns on these balloons contrast beautifully against the earthy tones of the landscape below. This shot captures the sense of adventure that comes with enjoying such an experience.

    Prompt: Shot in the style of DSLR camera with the polarizing filter. A photo of two hot air balloons floating over the unique rock formations in Cappadocia, Turkey. The colors and patterns on these balloons contrast beautifully against the earthy tones of the landscape below. This shot captures the sense of adventure that comes with enjoying such an experience.

  • Prompt: A pair of well-worn hiking boots, caked in mud and resting on a rocky trail. The head of a squirrel is poking out of one of the boots, and it looks lazily at the camera, a little king of its shoe. The laces of both boots fall loosely to the ground. There's a mountainous landscape in the background. Cinematic movie still, high quality DSLR photo.

    Prompt: A pair of well-worn hiking boots, caked in mud and resting on a rocky trail. The head of a squirrel is poking out of one of the boots, and it looks lazily at the camera, a little king of its shoe. The laces of both boots fall loosely to the ground. There's a mountainous landscape in the background. Cinematic movie still, high quality DSLR photo.

  • Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image.

    Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image.

이마젠 3는 자연어와 프롬프트의 의도를 더 잘 이해하며, 긴 프롬프트에서 작은 디테일까지 놓치지 않습니다. 이러한 추가 디테일은 이마젠 3가 다양한 스타일을 마스터하는 데 도움이 됩니다.

  • Prompt: A photo of a man with short hair and beard smiling at the camera. The background is blurry and it shows trees and buildings in light colors.

    Prompt: A photo of a man with short hair and beard smiling at the camera. The background is blurry and it shows trees and buildings in light colors.

  • Prompt: A view of a person's hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptor's scarf. Their hands are covered in clay dust. a macro DSLR image highlighting the texture and craftsmanship.

    Prompt: A view of a person's hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptor's scarf. Their hands are covered in clay dust. a macro DSLR image highlighting the texture and craftsmanship.

  • Prompt: Abstract sketch: A blur of expressive lines and energy captures the dynamic movement of a dancer in a gestural charcoal drawing. Sketch on aged parchment paper.

    Prompt: Abstract sketch: A blur of expressive lines and energy captures the dynamic movement of a dancer in a gestural charcoal drawing. Sketch on aged parchment paper.

  • Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background.

    Prompt: Elephant amigurumi walking in savanna, a professional photograph, blurry background.

  • Prompt: The girl in white dress stood on the bank of an endless lake, holding flowers and looking at the sky full of pink clouds. The sky is reflected by the water surface, creating a beautiful anime scene. There were small hills covered with wildflowers around her, adding to its beauty. Anime style background, purple blue tone, soft light, warm colors, dreamy atmosphere, and romantic emotions.

    Prompt: The girl in white dress stood on the bank of an endless lake, holding flowers and looking at the sky full of pink clouds. The sky is reflected by the water surface, creating a beautiful anime scene. There were small hills covered with wildflowers around her, adding to its beauty. Anime style background, purple blue tone, soft light, warm colors, dreamy atmosphere, and romantic emotions.

  • Prompt: A weathered, wooden mech robot covered in flowering vines stands peacefully in a field of tall wildflowers, with a small bluebird resting on its outstretched hand. Digital cartoon, with warm colors and soft lines. A large cliff with waterfall looms behind.

    Prompt: A weathered, wooden mech robot covered in flowering vines stands peacefully in a field of tall wildflowers, with a small bluebird resting on its outstretched hand. Digital cartoon, with warm colors and soft lines. A large cliff with waterfall looms behind.

또한 이마젠 3는 이미지 생성 모델에서는 어려운 과제였던 텍스트 렌더링에서도 역대 최고의 결과를 보여주는 모델입니다. 이는 개인 맞춤형 생일 메시지, 프레젠테이션 제목 슬라이드 등을 생성하는 데에 있어 새로운 가능성 열어줍니다.

이마젠 3는 오늘부터 일부 크리에이터 대상으로 이미지FX 내에서 제공되기 시작하며, 대기자 명단에 등록해 추가 참여할 수 있습니다. 이마젠 3는 곧 버텍스 AI에 출시될 예정입니다.

이마젠 3의 기능에 대해 자세히 알아보세요.

음악 커뮤니티와의 협업

예술과 음악 창작에서 AI가 할 수 있는 역할에 대한 지속적인 탐구의 일환으로, 구글은 유튜브와 협력하여 뛰어난 뮤지션, 작곡가 및 프로듀서들과 협업하고 있습니다.

이러한 협업은 가장 진보된 AI 음악 생성 모델인 리리아리리아(Lyria)를 비롯한 음악 생성 기술 개발에도 영향을 미치고 있습니다.

이러한 작업의 일환으로 구글은 음악 AI 도구 모음인 ‘뮤직 AI 샌드박스’(Music AI Sandbox)를 설계하고 구축해 왔습니다. 이 도구는 사람들이 새로운 악기 섹션을 처음부터 새로 만들고, 새로운 방식으로 사운드를 변형하는 등 창의력을 발휘할 수 있는 새로운 장을 열어주기 위해 고안되었습니다.

오늘 구글은 음악 AI 도구의 도움으로 제작한 데모 녹음을 유튜브 채널에 공개한 그래미 수상 뮤지션 위클리프 진(Wyclef Jean), 일렉트로닉 뮤지션 마크 레빌레(Marc Rebillet), 그래미 후보에 오른 작곡가 저스틴 트랜터(Justin Tranter)와 함께 이러한 음악적 실험을 계속 이어가고 있습니다.
10:25

오늘 구글은 음악 AI 도구의 도움으로 제작한 데모 녹음을 유튜브 채널에 공개한 그래미 수상 뮤지션 위클리프 진(Wyclef Jean), 일렉트로닉 뮤지션 마크 레빌레(Marc Rebillet), 그래미 후보에 오른 작곡가 저스틴 트랜터(Justin Tranter)와 함께 이러한 음악적 실험을 계속 이어가고 있습니다.

책임감 있는 설계, 개발 및 배포 과정

구글은 최첨단 기술 발전뿐만 아니라 이를 책임감 있게 수행하는 데에도 주의를 기울이고 있습니다. 따라서 생성형 기술로 인해 제기되는 문제를 해결하고 사람과 조직이 AI로 생성한 콘텐츠로 책임감 있게 작업할 수 있도록 지원하고 있습니다.

이러한 각 기술에 대해 크리에이티브 커뮤니티 및 기타 외부 이해관계자들과 협력하고, 인사이트를 수집하고, 피드백을 청취하여 안전하고 책임감 있는 방식으로 기술을 개선하고 배포하는 것을 돕고 있습니다.

안전 테스트를 실시하고, 필터를 적용하고, 가드레일을 설정하며, 안전 팀을 개발의 중심에 두고 있습니다. 또한, AI로 생성한 이미지, 오디오, 텍스트, 동영상에 눈에 띄지 않는 디지털 워터마크를 삽입할 수 있는 신스ID(SynthID)와 같은 선구적인 도구를 개발하고 있습니다. 또한, 오늘부터 비디오FX에서 비오로 생성한 모든 동영상에는 신스ID 워터마크를 삽입합니다.

생성형 AI의 창의적인 잠재력은 무궁무진하며, 구글은 전 세계 사람들이 새로운 모델과 도구를 사용해 아이디어를 어떻게 실현할지 기대가 큽니다.