Gemini Omni: kolejny krok w rozwoju multimodalnej sztucznej inteligencji
W zeszłym roku Google wprowadził Nano Banana – narzędzie do generowania i edytowania obrazów, które wykorzystuje inteligencję Gemini. Od tego czasu pomogło ono milionom osób odświeżyć stare zdjęcia, tworzyć projekty na podstawie szkiców oraz wizualizować pomysły w zupełnie nowy sposób. Od samego początku Gemini powstawał jako model natywnie multimodalny. Teraz przyszedł czas na kolejny krok w jego rozwoju.
Teraz pojawia się Gemini Omni – narzędzie łączące zaawansowane umiejętności rozumowania Gemini z możliwością kreatywnego tworzenia. Rozwiązanie to pozwala na jednoczesne przetwarzanie obrazów, dźwięków, materiałów wideo oraz tekstu jako danych wejściowych. Na tej podstawie model generuje wysokiej jakości filmy, oparte na wiedzy Gemini o otaczającym nas świecie. Tworzone materiały wideo można również w prosty sposób edytować, prowadząc swobodną rozmowę z modelem.
Google wprowadza pierwszy model z rodziny Omni – Gemini Omni Flash – do aplikacji Gemini, Google Flow oraz YouTube Shorts. W nadchodzących miesiącach planowane jest udostępnienie opcji generowania kolejnych formatów, takich jak obrazy i dźwięki. Oto dlaczego narzędzie Omni charakteryzuje się wyjątkowymi możliwościami:
Edycja filmów przez rozmowę
Omni ułatwia edytowanie materiałów wideo przy użyciu języka naturalnego. Każda kolejna instrukcja stanowi rozwinięcie poprzedniej. Postacie zachowują spójność, prawa fizyki zostają zachowane, a generowana scena pamięta wcześniejszy układ elementów.
Przekształcanie otaczającego nas świata. Narzędzie pozwala przekształcać otaczający świat poprzez zmianę wybranych elementów lub całego kadru. W ten sposób pierwotny film staje się punktem wyjścia do stworzenia materiałów, których tradycyjne sfilmowanie byłoby niemożliwe.
Prompt: Zmień rzeźbę w bańki mydlane.
Zmiana przebiegu akcji. Wystarczy użyć wcześniej nagranego filmu i poprosić Omni o zmianę rozgrywającej się na nim akcji. Narzędzie umożliwia modyfikowanie wydarzeń, dodawanie nowych postaci lub przedmiotów, a także przekształcanie poszczególnych scen w nieoczekiwany sposób.
Prompt: Gdy osoba dotknie lustra, niech powierzchnia pofaluje się niczym ciecz, a ramię osoby zmieni się w materiał odblaskowy.
Prompt: Przyciemnij światła w pokoju. Umieść pokój w czarno-białą szachownicę wewnątrz szklanej kuli unoszącej się nad dłonią. W środku powinna znajdować się rekurencyjna reprezentacja tej samej dłoni trzymającej kulę, tworząc nieskończoną pętlę pokoi. Kamera powoli zbliża się do wnętrza kuli, tworząc pętlę wideo.
Prompt: Światła w mieszkaniach zapalają się w rytm muzyki.
Poprawki na wielu etapach. Narzędzie umożliwia zmianę otoczenia, kąta kamery, stylu, a nawet wskazanych szczegółów – wszystko to bez utraty spójności i głównego wątku pierwotnej sceny.
Wideo przedstawiające skrzypka grającego utwór.
Prompt: Przenieś skrzypka w środowisko z obrazu.
Prompt: Zmień kąt kamery tak, aby znajdowała się nad ramieniem skrzypka.
Urzeczywistnianie pomysłów na podstawie wiedzy Gemini o świecie
Omni nie tylko tworzy sceny, które wyglądają realistycznie, lecz także wnioskuje, co powinno wydarzyć się dalej. Łączy intuicyjne pojmowanie fizyki z wiedzą Gemini na temat historii, nauki i kontekstów kulturowych, dzięki czemu pozwala przejść od fotorealizmu do treściwej narracji.
Materiały wizualne bardziej zgodne z prawami fizyki. Omni charakteryzuje się ulepszonym intuicyjnym rozumieniem takich sił, jak grawitacja, energia kinetyczna i dynamika płynów, dzięki czemu pozwala tworzyć bardziej realistyczne sceny.
Prompt: Szybko tocząca się kulka na torze typu „chain reaction”, ciągłe, płynne ujęcie.
Łączenie wiedzy z kreatywnością. Omni wykorzystuje wiedzę Gemini, łącząc słowo, obraz i kontekst w sposób, który wykracza daleko poza zwykłe odtwarzanie schematów.
Prompt: Wideo pokazuje przedmioty odpowiadające literom alfabetu. Na stole pojawia się nietypowy przedmiot rozpoczynający się na daną literę (np. kapibara dla K, kula dyskotekowa dla K, lampa lawa dla L). Wszystkie 26 liter musi być reprezentowanych przez 26 przedmiotów z dopasowanymi napisami w dolnej części ekranu. Na ekranie widoczny jest tylko jeden przedmiot i napis. Każdy napis powinien wyglądać jak odręcznie napisany czarnym markerem na kartce w lewym dolnym rogu. Szybkie tempo, około 9 klatek na przedmiot przy 24 kl./s. Ostatnia klatka to kartka z napisem „KONIEC”. Całości towarzyszy spokojna, płynna muzyka.
Wizualizacja skomplikowanych pomysłów. Na podstawie krótkich promptów Omni potrafi tworzyć atrakcyjne materiały wideo i wizualizacje, które rozbijają bardziej złożone zagadnienia na mniejsze elementy.
Prompt: Animacja plastelinowa tłumacząca fałdowanie białek, wszystko wykonane z plasteliny, bez rąk, poklatkowa, wierna naukowo.
Tworzenie na podstawie dowolnych danych wejściowych
Korzystanie z dowolnych materiałów. Omni przekształci materiały – obrazy, teksty, filmy i dźwięki – w jedną spójną całość. Choć początkowo z danych wejściowych audio obsługiwane będą tylko instrukcje głosowe, Google wkrótce wprowadzi obsługę innych typów danych dźwiękowych.
Prompt: Dynamiczne wideo w stylu sci-fi na podstawie image_0.png. Elementy podświetlają się podobnie jak w video_0.mp4, zsynchronizowane z rytmem muzyki z audio_0.wav.
Prompt: Nawiązując do ekstremalnych ruchów kamery, perspektywy i zniekształceń w video-0, stwórz cykl chodu pełnej postaci z image-0, szybko zmieniając style wizualne podczas chodu, zaczynając od realizmu kinowego. Zachowaj otoczenie, zmieniaj tylko style. Ostre cięcia tła, zawsze centrując niebo. Ciągły chód, ciągły dźwięk i zmiana stylów idealnie zsynchronizowane z rytmem dźwięku. Kinowe, 16:9.
Prompt: Dodaj dźwięki harfy zsynchronizowane z dotknięciem każdego liścia paproci. Zmień strukturę liści tak, aby przypominały półprzezroczyste, bioluminescencyjne rośliny 3D, wokół których latają bioluminescencyjne świetliki reagujące na grę, w synchronizacji z dźwiękami, subtelna głębia ostrości bokeh, dynamiczne oświetlenie odbijające się od ścian w pokoju, przy zachowaniu struktury pomieszczenia.
Rozpoczynanie projektu. Jako bazę można wykorzystać zdjęcia postaci, scen oraz rysunki, co pozwala na stworzenie materiału wideo w pełni odpowiadającego zamierzonej wizji.
Prompt: Wyobraź sobie, że świat stopniowo zmienia się w styl retro-futurystyczny (ziarnisty i nastrojowy jak image-1), gdy idę. Wykorzystaj dźwięk jako tło muzyczne w stylu retro-futurystycznym. 10 s.
Prompt: Przekształć to w realistyczne nagranie, używając rysunku jedynie jako wskazówki dla ruchu, nie pokazuj rysunku w finalnym wideo.
Prompt: Zastosuj pozę i ruch z wejściowego wideo do postaci z dostarczonego obrazu. Zastosuj styl z obrazu referencyjnego do nowego wideo.
Style, ruch i efekty. Przekaz wizualny można zdefiniować za pomocą wejściowych materiałów referencyjnych lub po prostu opisać pożądany efekt językiem naturalnym. Omni połączy wszystkie wskazane odniesienia i stworzy na ich podstawie spójny klip.
Prompt: Edytuj to, zachowując wszystko bez zmian. Dodaj animowane efekty ruchu wydobywające się ze deskorolki.
Prompt: Zastosuj ruch pływającego wieloryba z dostarczonego wideo do obrazu płynnego materiału odblaskowego. Nie pokazuj wieloryba ani wody; zamiast tego niech ten odblaskowy, poruszający się materiał uformuje kształt przypominający wieloryba podczas pływania. Zastąp wodę białymi, gładkimi kształtami materiału, które się poruszają.
Tworzenie filmów z własnym cyfrowym awatarem
Google stawia na odpowiedzialny rozwój sztucznej inteligencji i działa opierając się na zasadach, które chronią użytkowników przed szkodliwymi skutkami i regulują korzystanie z nowoczesnych narzędzi. Na początek pojawi się możliwość tworzenia filmów z własnym głosem przy użyciu awatarów AI. Tworzą one cyfrową wersję autora.
Kolejnym krokiem będzie zaawansowana edycja dźwięku oraz mowy. Można przewidywać, że modyfikacje audio staną się jedną z najczęstszych próśb ze strony użytkowników. Google intensywnie testuje te funkcje. Prace koncentrują się na tym, aby udostępnić nowe możliwości w sposób w pełni bezpieczny i odpowiedzialny.
Wszystkie filmy wygenerowane w Omni zawierają niedostrzegalny cyfrowy znak wodny SynthID i dane identyfikujące treści C2PA. Dzięki temu w aplikacji Gemini, Gemini w Chrome oraz w wyszukiwarce Google można łatwo sprawdzić, czy dany materiał został utworzony przy użyciu Gemini Omni. Więcej informacji o rozwoju narzędzi weryfikacyjnych i działaniach na rzecz przejrzystości treści – pomagających dowiedzieć się, jak dany materiał powstał i był edytowany w internecie – znajduje się w osobnym wpisie na blogu.
Przetestuj Omni teraz
Model Gemini Omni Flash debiutuje dzisiaj dla wszystkich subskrybentów Google AI Pro oraz Ultra na całym świecie w aplikacji Gemini i Google Flow. W tym tygodniu narzędzie zacznie być również udostępniane bezpłatnie użytkownikom platformy YouTube Shorts oraz aplikacji YouTube Create.
W nadchodzących tygodniach Google udostępni to rozwiązanie także deweloperom i firmom za pośrednictwem interfejsów API.