Das ist Gemini Omni
Letztes Jahr haben wir mit Nano Banana Geminis Intelligenz für die Generierung und Bearbeitung von Bildern verfügbar gemacht. Seitdem konnten Millionen von Menschen damit alte Fotos restaurieren, anhand von Skizzen Bilder entwerfen und Ideen auf völlig neue Weise visualisieren. Von Anfang an war Gemini von Grund auf multimodal konzipiert. Jetzt gehen wir einen Schritt weiter.
Das neue Gemini Omni kombiniert Geminis Fähigkeiten zum Schlussfolgern mit der Fähigkeit, Neues zu kreieren. Omni ist unser neues Modell, das aus allen möglichen Eingaben vielfältige Ausgaben erzeugen kann – angefangen bei Videos. Mit Omni könnt ihr bei der Eingabe Bilder, Audio, Video und Text kombinieren und so hochwertige Videos erstellen, die auf Geminis Allgemeinwissen fundiert sind. Videos lassen sich zudem ganz einfach per Sprachbefehl bearbeiten.
Heute stellen wir das erste Modell der Omni-Familie vor: Gemini Omni Flash. Es ist für alle Abonnentinnen und Abonnenten von Google AI Plus, Pro und Ultra weltweit über die Gemini App sowie Google Flow verfügbar. Gemini Omni Flash wird außerdem kostenlos für die Nutzerinnen und Nutzer von YouTube Shorts und YouTube Create eingeführt. Schon bald werden wir Ausgabeformate wie Bild und Audio unterstützen. Hier einige der Besonderheiten von Omni:
Videos per Spracheingabe bearbeiten
Mit Gemini Omni lassen sich Videos einfacher bearbeiten, und zwar mit natürlicher Sprache. Jede Anweisung baut auf der vorherigen auf.Charaktere bleiben konsistent, physische Eigenschaften sind realitätsgetreu und Szenen basieren auf dem, was vorher geschah.
Verändert die Welt um euch herum. Ihr könnt Einzelheiten ändern – oder alles. Euer Video wird zum Ausgangspunkt für etwas, das ihr nie hättet filmen können.
Prompt: Make the sculpture out of bubbles.
Erfindet neue Handlungen. Nehmt ein Video auf und bittet Omni einfach, das Geschehen zu ändern. Ihr könnt die Handlung bearbeiten, neue Charaktere und Gegenstände hinzufügen oder einen Augenblick in etwas Unerwartetes verwandeln.
Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material.
Prompt: Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.
Prompt: The lights of the apartments start turning on in sync with the music.
Videos in mehreren Durchgängen optimieren. Ihr könnt die Umgebung ändern, oder den Blickwinkel, den Stil und sogar bestimmte Details, ohne dabei jemals den Faden der ursprünglichen Szene zu verlieren. Schaut euch hier im Karusell an, wie die einzelnen Eingaben aufeinander aufbauen:
A video of a violinist playing a song.
Prompt: Transport the violinist to the image environment
Prompt: Change the camera angle to be over the violinist’s shoulder.
Mit Geminis Allgemeinwissen Ideen zum Leben erwecken
Gemini Omni erzeugt nicht nur realistische Szenen, sondern überlegt auch, wie es weitergeht. Dazu kombiniert es ein intuitives Verständnis von Physik mit Geminis Wissen über Geschichte, Wissenschaft und kulturellen Kontext. So wird die Brücke zwischen Fotorealismus und bedeutungsvollem Storytelling geschlagen.
Starke Bilder und präzise Physik. Omni bietet ein verbessertes intuitives Verständnis von Kräften wie Schwerkraft, kinetischer Energie und Fluiddynamik, damit ihr realistische Szenen erstellen könnt.
Prompt: A marble rolling fast on a chain reaction style track, continuous smooth shot.
Verbindung von Wissen und Kreativität. Omni greift auf das Wissen von Gemini zurück, um Sprache, Bilder und Bedeutung auf eine Weise zu verknüpfen, die weit über das bloße Erkennen von Mustern hinausgeht.
Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.
Komplexe Ideen visualisieren. Omni kann aus kurzen Prompts überzeugende Erklärvideos erstellen und Visuals generieren, die komplexe Ideen verständlich machen.
Prompt: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
Erstellt Videos aus jeder beliebigen Kombination von Eingaben
Referenziert alles. Omni verwandelt jede Referenz – sei es Bild, Text, Video oder Audio – in ein einziges, stimmiges Ergebnis. Während zu Beginn erstmal nur Sprachreferenzen für Audio unterstützt werden, werden wir schon bald weitere Arten von Audio-Eingaben einführen.
Prompt: Dynamic sci-fi film style video based on image_0.png. Elements light up similar to video_0.mp4 synchronized to the beat of the music from audio_0.wav
Prompt: Referring to the extreme camera movement, perspective, and distortion in video-0, create a front-facing full-body walk cycle of the character from image-0, quickly style-shifting into multiple visual styles during the walk cycle, starting from realistic cinema. Keep the environment, only change styles. Hard cut backgrounds always centering the sky. Continuous walking, continuous audio, and style shifts in perfect sync to the beat of the audio. Cinematic, 16:9.
Prompt: Add harp sounds synchronized to when I touch each fern leaf. Change the leaf structure to all resemble semi translucent 3d bioluminescent plant life, with bioluminescent fireflies flying around it that react as I play, in sync with the sounds, subtle bokeh depth of field dynamic lighting, reflecting off the walls in the room, keeping the room structure the same
Einfaches Ausgangsmaterial. Mit Bildern von Figuren, Szenen oder Zeichnungen als Eingabereferenz könnt ihr eure kreative Visionen verwirklichen.
Prompt: Imagine the world gradually changing into retro futuristic style (grainy and moody as image-1) as I walk. Use the audio for a retro-futuristic background music. 10s.
Prompt: turn this into realistic footage, using the drawing only as a guide for movement, do not show the drawing in the final video
Prompt: Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video
Stile, Bewegungen oder Effekte anwenden. Ihr könnt den visuellen Stil anhand von Eingabereferenzen definieren oder ganz einfach in natürlicher Sprache beschreiben. Omni kombiniert die Eingaben zu einem stimmigen Clip.
Prompt: edit this keeping everything the same. add animated motion effects coming out of the skateboard
Prompt: Apply the motion of the whale swimming from the provided video to the provided image of fluid reflective material. Do not show the whale or water; instead, have this reflective moving material form a shape that resembles the whale as it swims. Replace water with white smooth material shapes that move
Videos mit dem eigenen digitalen Avatar erstellen
Wir haben uns der verantwortungsvollen Entwicklung von KI verschrieben und verfügen über klare Richtlinien, die Nutzerinnen und Nutzer vor Schaden schützen sowie den Einsatz unserer KI-Tools regeln. Zum Einstieg könnt ihr Videos mit eurer eigenen Stimme erstellen, indem ihr Avatare nutzt; diese erzeugen eine digitale Version eurer selbst, sodass ihr Videos generieren könnt, die genau wie ihr aussehen und klingen. Über die Avatar-Funktion hinaus arbeiten wir derzeit noch daran, die Bearbeitung von Videos – insbesondere im Hinblick auf die Veränderung von Audio und Sprache – zu testen und besser zu verstehen, wie wir diese Funktion verantwortungsvoll für unsere Nutzerinnen und Nutzer bereitstellen können. Avatare werden zunächst nicht für Nutzerinnen und Nutzer in Europa verfügbar sein.
Alle mit Omni erstellten Videos enthalten das unsichtbare digitale Wasserzeichen SynthID. Mit der Gemini App, Gemini in Chrome und der Google Suche lässt sich einfach überprüfen, ob Videos mit Gemini Omni erstellt wurden. Mehr darüber, wie wir unsere Tools für Inhalte-Transparenz und -verifizierung erweitern sowie darüber, wie Webinhalte erstellt und bearbeitet werden, erfahrt ihr in unserem Blogpost.
Gemini Omni jetzt testen
Heute launchen wir das erste Modell der Omni Familie: Gemini Gemini Omni Flash. Gemini Omni Flash ist ab heute für alle Abonnentinnen und Abonnenten von Google AI Plus, Pro und Ultra weltweit über die Gemini App sowie Google Flow verfügbar. Es wird außerdem ab dieser Woche kostenlos für die Nutzerinnen und Nutzer von YouTube Shorts und YouTube Create eingeführt.
In den kommenden Wochen wird es ebenfalls für Entwicklerinnen und Entwickler und Unternehmenskunden über APIs verfügbar sein.