이마젠 2로 새롭고 더 멋진 이미지를 만들어보세요
이 블로그는 구글 The Keyword 블로그(영문)에서도 확인하실 수 있습니다.
음악을 만들거나, 코딩에 대한 도움을 받거나, 이미지를 만들 때 리리아(Lyria), 코디(Codey), 이마젠(Imagen)과 같은 작업 기반 AI 모델들은 사람들이 창의적인 아이디어를 실현할 수 있도록 돕고 있습니다.
작년에 출시된 구글의 이마젠 기술은 사람과 기업들이 단 몇 개의 단어나 문구를 직접 입력해 이미지를 생성하는 데 도움을 주고 있습니다. 예를 들어, 생성형 AI 검색(SGE)을 통해 구글 검색에서 찾아볼 내용을 바로 상상해 볼 수 있고, 워크스페이스의 듀엣 AI(Duet AI)를 통해 구글 슬라이드에서 바로 이미지를 만들 수도 있습니다. 또한 개발자와 캔바(Canva), 스냅(Snap) 등의 기업들은 구글 클라우드의 버텍스 AI(Vertex A)I의 이마젠 API를 사용해 수백만 명의 이용자가 창의력을 펼칠 수 있도록 지원하고 있습니다.
지난 12월에는 고품질의 사실적인 결과물을 제공하는 업데이트된 이마젠 2 모델을 출시했습니다. 그리고 이제 이마젠 2는 바드와 이미지FX(ImageFX)에서 새로운 이미지 생성 기능을 지원합니다.
구글 딥마인드로 더욱 향상된 이미지 생성 기능
이마젠 2는 확산 기반 모델(diffusion-based model)을 활용한 구글 딥마인드의 최신 텍스트-이미지 변환 기술로 구동됩니다. 이번 업데이트를 통해 역대 최고 품질의 이미지를 제공할 수 있게 됐을 뿐 아니라, 사람의 손과 얼굴을 사실적으로 렌더링하거나 이미지에 방해가 되는 시각적 아티팩트가 없도록 하는 등 텍스트-이미지 변환 시스템에서 종종 어려움을 겪었던 부분들이 개선되었습니다.
이마젠 2는 이미지와 설명을 연결짓는 학습면에서 수준 높게 훈련되어 사람들의 언어 프롬프트의 의미와 더 잘 부합하는 더 상세한 이미지를 생성합니다. 이전 시스템보다 디테일을 더 정확하게 처리하고 뉘앙스를 포착하는 능력이 뛰어나 다양한 스타일과 이용 사례 전반에서 이미지들을 더욱 사실적으로 표현해줍니다.
[다양한 스타일과 이용 사례를 통한 이마젠 2의 이미지 예시 모음]
이제 이마젠 2는 바드, 이미지FX, SGE, 버텍스 AI에서 이용 가능합니다.
이제 이용자, 크리에이터 및 기업들은 바드를 포함한 구글 제품 전반에서 이마젠 2를 이용할 수 있습니다.
이마젠 2가 탑재된 바드는 브로셔를 만드는 일이나 블로그 포스트와 어울리는 이미지를 만드는 것까지 아이디어를 실현할 수 있도록 도와줍니다. 이마젠 2를 사용하면 바드는 단순하거나 복잡한 프롬프트를 모두 잘 이해해 다양한 고품질의 이미지를 생성할 수 있습니다. 현재 대부분의 국가에서 영어로 바드를 이용해 이미지를 생성할 수 있습니다.
바드에 탑재된 이마젠 2 기능을 보여주는 애니메이션
이제 구글 애즈, 워크스페이스의 듀엣 AI, 생성형 AI 검색(SGE)에서도 이마젠 2를 활용해 텍스트-이미지 변환 기능을 사용할 수 있습니다. 또한, 구글클라우드를 이용하는 개발자들은 버텍스 AI를 기반으로 이마젠 2를 이용할 수 있습니다.
버텍스 AI에서 사용된 이마젠 2의 기능을 보여주는 두 이미지. 프롬프트 “화장실 세면대 구석에 놓인 ‘CYMBAL’이라고 적힌 치약 광고 이미지”, “환하게 웃으며 행복하게 양치하는 여성 이미지, 치약 광고”
드디어 새로운 텍스트-이미지 변환 기능인 이미지FX(ImageFX)도 소개합니다. 실험적이고 창의적인 활동을 위해 설계된 이미지FX를 사용하면 간단한 텍스트 프롬프트만으로 이미지를 생성한 다음, 풍부한 표현 칩을 사용해 새로운 프롬프트 이미지를 쉽게 수정할 수 있습니다. 이미지FX는 ‘AI 테스트 키친(AI Test Kitchen) 애플리케이션’에서 사용할 수 있으며, 뮤직FX 및 텍스트FX와 같은 다른 생성형 AI 실험을 통해 탐색하고 제작할 수 있습니다.
이미지FX를 이용하여 표현 칩으로 프롬프트를 수정하는 방법을 보여주는 예시 이미지
더욱 책임감 있는 접근 방식으로 준비된 이마젠 2
사실적인 이미지를 생성하는 이마젠 2의 기능을 개선하며 구글은 해당 모델의 안전성을 최우선에 두었습니다. 구글은 처음부터 학습 데이터의 안전성에 투자하고 폭력적, 모욕적 또는 외설적인 콘텐츠 등 문제가 될 수 있는 결과물을 제한하기 위해 기술적인 규제도 추가하였습니다. 또한, 구글 AI 원칙에 입각하여, 잠재적으로 유해하거나 문제가 될만한 콘텐츠를 식별하고 줄이기 위하여 광범위한 적대적 테스트(adversarial testing)를 진행하고 레드팀을 구성했습니다. 뿐만 아니라 특정 인물의 이미지 생성을 방지하기 위해 필터를 적용하고 있습니다. 구글은 앞으로도 해당 모델의 안전성과 개인정보 보호를 더욱 강화하기 위해 새로운 기술에 지속적으로 투자할 것입니다.
구글 제품 내에서 이마젠 2로 생성된 모든 이미지들은 구글 딥마인드가 개발한 신스ID(SynthID)가 표시되며, 이 툴은 생성된 이미지의 픽셀에 직접 디지털 워터마크를 추가합니다. 신스ID 워터마크는 사람의 눈에는 보이지 않지만 디지털 기술을 통해 식별됩니다. 또한, About this image 기능을 이용해, 구글 검색이나 크롬에서 발견한 이미지가 구글의 AI 도구로 생성된 이미지인지 확인할 수도 있습니다.
구글 AI를 통해 생성된 이미지인지 ‘About this image’ 기능을 사용해 확인하는 모습 예시
이마젠 2의 기술과 기능에 대한 더욱 자세한 내용은 구글 딥마인드 홈페이지에서 확인해보세요.