Przejdź do głównego menu

Blog Google Polska

Nowe modele i narzędzia generatywne stworzone z myślą o twórcach

[]

Nowe modele i narzędzia generatywne stworzone z myślą o twórcach

15 Maj, 2024

Przedstawiamy Veo, nasz jak dotąd najbardziej zaawansowany model służący do generowania filmów o wysokiej rozdzielczości, oraz Imagen 3, nasz dotychczas najwyższej jakości model do generowania obrazów; dzielimy się również z Wami nowymi utworami muzycznymi skomponowanymi przy pomocy naszego nar

DouglasEck7351WhiteBkg-lo

Douglas Eck

Senior Research Director

EliCollins1637

Eli Collins

VP, Product Management

Obraz przedstawiający kostiumologa pracującego w swoim studiu, z napisem „Bring creative ideas to life” nad obrazem

W zeszłym roku poczyniliśmy ogromne postępy w ulepszaniu jakości naszych generatywnych technologii medialnych. Ściśle współpracowaliśmy ze społecznością twórców, aby dowiedzieć się, w jaki sposób generatywna AI może najlepiej wspierać proces twórczy, oraz aby upewnić się, że nasze narzędzia AI są jak najbardziej użyteczne na każdym etapie.

Dzisiaj prezentujemy Veo, nasz najnowszy i najbardziej zaawansowany model służący do generowania filmów, oraz Imagen 3, nasz najwyższej jakości model do generowania obrazów z poleceń tekstowych.

Dzielimy się również informacjami o podjętej niedawno współpracy z artystą Donaldem Gloverem, a także publikujemy muzykę stworzoną we współpracy z Wyclefem Jeanem, Markiem Rebilletem, Justinem Tranterem, przy pomocy naszego Music AI Sandbox.

Veo: nasz najbardziej zaawansowany model do generowania filmów

Veo tworzy wysokiej jakości wideo w rozdzielczości 1080p, które mogą trwać ponad minutę, w różnych stylach filmowych i wizualnych. Dzięki zaawansowanemu rozumieniu języka naturalnego i semantyki wizualnej Veo może tworzyć filmy wideo, które dokładnie odzwierciedlą kreatywną wizję twórcy oraz precyzyjnie oddadzą szczegóły z dłuższych promptów i zamierzony klimat filmu.

Model rozumie również terminy filmowe, takie jak „film poklatkowy” lub „ujęcia z lotu ptaka”, zapewniając niespotykany dotąd poziom kontroli twórczej. Tworzy spójny materiał filmowy, w którym ludzie, zwierzęta i przedmioty poruszają się w realistyczny sposób.

Przykłady możliwości Veo w zakresie generowania wysokiej jakości wideo. Wszystkie filmy zostały stworzone przez Veo i nie zostały zmodyfikowane.

Zapraszamy wielu filmowców i artystów do eksperymentowania z Veo, aby sprawdzić, jak ten model może najlepiej wspierać ich proces twórczy. Dzięki tej współpracy możemy ulepszać nasze technologie, biorąc pod uwagę potrzeby twórców i dając im wpływ na to, jak rozwijamy Veo.

Tak wyglądała nasza współpraca z filmowcem i artystą Donaldem Gloverem oraz jego studiem kreatywnym Gilga, którzy eksperymentowali z Veo przy projekcie filmowym.

Podgląd naszej pracy z filmowcem Donaldem Gloverem i jego studiem kreatywnym Gilga, którzy eksperymentowali z Veo przy projekcie filmowym.

Veo jest rezultatem naszej wieloletniej pracy nad generatywnymi modelami do tworzenia filmów, w tym Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet oraz Lumiere. Łączy architekturę, prawa skalowania i inne nowatorskie techniki w celu zmniejszenia opóźnień i poprawy rozdzielczości wyjściowej.

W ramach Veo ulepszyliśmy techniki związane z nauką rozumienia treści filmu, renderowania obrazu i dźwięku w wysokiej rozdzielczości, symulowania wyglądu otaczającego nas świata i nie tylko. Ta wiedza pozytywnie wpłynie na postępy w naszych badaniach nad sztuczną inteligencją i pozwoli nam tworzyć jeszcze bardziej użyteczne produkty, które pomogą ludziom wchodzić w interakcje i komunikować się na nowe sposoby.

Od dzisiaj Veo jest dostępny w prywatnej wersji testowej za pośrednictwem VideoFX przez zapisanie się na listę oczekujących. W przyszłości udostępnimy również niektóre funkcje Veo w YouTube Shorts oraz innych usługach.

Dowiedzcie się więcej o możliwościach Veo.

Imagen 3: nasz najwyższej jakości model do generowania obrazów

W ciągu ostatniego roku poczyniliśmy ogromne postępy w ulepszaniu jakości i dokładności naszych modeli oraz narzędzi do generowania obrazów.

Imagen 3 to nasz jak dotąd najlepszy model do generowania obrazów z tekstu. Obrazy generowane przez ten model są niezwykle szczegółowe, fotorealistyczne i bliskie rzeczywistości.

Imagen 3 lepiej rozumie język naturalny oraz intencję stojącą za promptem i uwzględnia drobne szczegóły zawarte w dłuższych promptach. To pomaga mu opanować szereg stylów.

Jest to również nasz jak dotąd najlepszy model do renderowania tekstu, które stanowiło wyzwanie dla modeli generujących obrazy. Wykorzystując Imagen 3, można na przykład generować spersonalizowane życzenia urodzinowe czy tytułowe slajdy w prezentacjach.

Od dzisiaj Imagen 3 jest dostępny dla wybranych twórców w wersji zapoznawczej w ImageFX, dostępne są również zapisy się na listę oczekujących, a niebawem pojawi się również w Vertex AI.

Dowiedzcie się więcej o możliwościach Imagen 3.

Nasza współpraca z muzykami

W ramach naszego nieustannego badania roli sztucznej inteligencji w tworzeniu sztuki i muzyki, we współpracy z YouTube zwróciliśmy się o pomoc do przedstawicieli świata muzyki, autorów tekstów i producentów.

Współpraca z twórcami wpływa również na rozwój naszych technologii generowania muzyki, w tym Lyrii, naszej najbardziej zaawansowanej rodziny modeli AI.

W ramach tej pracy zaprojektowaliśmy i zbudowaliśmy zestaw narzędzi muzycznych opartych na AI o nazwie Music AI Sandbox. Otwierają one nowe pole dla kreatywności, umożliwiając użytkownikom tworzenie nowych sekcji instrumentalnych od podstaw, przenoszenie dźwięków na nowe sposoby i i wiele więcej.

Obecnie kontynuujemy eksperymenty w dziedzinie muzyki z laureatem Grammy Wyclefem Jeanem, twórcą muzyki elektronicznej Markiem Rebilletem oraz nominowanym do nagrody Grammy autorem tekstów Justinem Tranterem, którzy opublikowali na swoich kanałach YouTube demo nagrań stworzonych przy pomocy naszych narzędzi muzycznych opartych na AI.

Odpowiedzialni na każdym etapie – od projektu przez rozwój aż po wdrożenie

Mamy świadomość, że ważne jest nie tylko rozwijanie najnowocześniejszych technologii, ale także robienie tego w sposób odpowiedzialny. Dlatego podejmujemy działania mające na celu sprostanie wyzwaniom związanym z rozwijaniem technologii generatywnych i pomagamy ludziom oraz organizacjom odpowiedzialnie pracować z treściami generowanymi przez sztuczną inteligencję.

W przypadku każdej z tych technologii współpracowaliśmy ze społecznością twórców oraz z przedstawicielami branży, gromadząc informacje zwrotne i słuchając opinii. Pomagają nam one ulepszać i wdrażać nasze technologie w bezpieczny i odpowiedzialny sposób.

Przeprowadzamy testy bezpieczeństwa, stosujemy filtry, wprowadzamy zabezpieczenia i stawiamy nasze zespoły ds. bezpieczeństwa w centrum procesu rozwoju. Nasze zespoły są również pionierami w dziedzinie narzędzi takich jak SynthID, które mogą osadzać niezauważalne cyfrowe znaki wodne w generowanych przez AI obrazach, dźwięku, tekście i filmach. Od dzisiaj wszystkie treści wygenerowane przez Veo na VideoFX będą oznaczone znakiem wodnym SynthID.

Potencjał twórczy generatywnej AI jest ogromny i nie możemy się doczekać, aby zobaczyć, jak ludzie na całym świecie będą realizować swoje pomysły za pomocą naszych nowych modeli i narzędzi.

MIEJSCE PUBLIKACJI: