Voici Gemini Omni
L’année dernière, Nano Banana a apporté l’intelligence de Gemini à la génération et à la retouche d’images. Depuis, il a aidé des millions de personnes à restaurer de vieilles photos, à créer à partir d’esquisses et à visualiser des idées de manières auparavant impossibles. Dès le départ, nous avons conçu Gemini comme un modèle multimodal natif, et nous franchissons maintenant une nouvelle étape.
Nous présentons Gemini Omni, où la capacité de raisonnement de Gemini rencontre la capacité de création. Omni est notre nouveau modèle qui peut créer n’importe quoi depuis n’importe quelle entrée, en commençant par la vidéo. Avec Omni, vous pouvez combiner des images, du son, des vidéos et du texte comme entrées et générer des vidéos de grande qualité, ancrées dans les connaissances du monde réel de Gemini. Vous pouvez également modifier vos vidéos par la conversation.
Aujourd’hui, nous déployons le premier modèle de la famille Omni : Gemini Omni Flash, dans l’appli Gemini, Google Flow et YouTube Shorts. Avec le temps, nous prendrons en charge des modalités de sorties comme l’image et le son. Voici quelques éléments qui rendent Omni unique :
Modifiez vos vidéos par la conversation
Gemini Omni vous offre une façon plus simple de modifier des vidéos avec le langage naturel. Chaque instruction s’appuie sur la précédente. Vos personnages restent cohérents, la physique tient la route et la scène conserve le fil de ce qui s’est produit avant.
Transformez le monde qui vous entoure. Modifiez certains éléments, ou changez tout; votre vidéo devient le point de départ d’une œuvre que vous n’auriez jamais pu filmer vous-même.
Requête: Make the sculpture out of bubbles.
Réimaginez l’action. Prenez une vidéo que vous avez tournée et demandez simplement à Omni de changer ce qui s’y passe. Modifiez l’action, ajoutez de nouveaux personnages ou de nouveaux objets, ou transformez un moment en quelque chose d’inattendu.
Requête: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material.
Requête: Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.
Requête: The lights of the apartments start turning on in sync with the music.
Affinez vos vidéos avec plusieurs échanges. Modifiez l’environnement, l’angle, le style ou même certains détails, sans jamais perdre le fil de votre scène d’origine.
Vidéo d'une violoniste jouant une chanson.
Requête: Transport the violinist to the image environment
Requête: Change the camera angle to be over the violinist’s shoulder.
Animez vos idées grâce aux connaissances du monde réel de Gemini
Gemini Omni ne se contente pas de créer des scènes réalistes : il raisonne aussi sur ce qui devrait se produire ensuite. Il combine une compréhension intuitive de la physique avec la connaissance qu’a Gemini de l’histoire, des sciences et du contexte culturel, comblant ainsi l’écart entre le photoréalisme et une narration pertinente.
Créez des visuels avec une physique plus précise. Omni possède une compréhension intuitive améliorée de forces comme la gravité, l’énergie cinétique et la dynamique des fluides, ce qui vous permet de créer des scènes plus réalistes.
Requête: A marble rolling fast on a chain reaction style track, continuous smooth shot.
Alliez connaissance et créativité. Omni s’appuie sur les connaissances de Gemini pour relier le langage, l’imagerie et le sens d’une manière qui va bien au-delà de la simple reconnaissance de motifs.
Requête: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.
Des idées complexes rendues visuelles. Omni peut créer des explications visuelles intéressantes à partir de courtes requêtes afin de décomposer des concepts plus complexes.
Requête: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
Créez des vidéos à partir de n’importe quelle combinaison d’entrées
Faites référence à n’importe quoi. Omni transforme toute référence (image, texte, vidéo ou son) en un résultat unique et cohérent. Seules les références vocales seront prises en charge au départ pour le son, mais nous ajouterons bientôt d’autres types d’entrées audio.
Requête: Dynamic sci-fi film style video based on image_0.png. Elements light up similar to video_0.mp4 synchronized to the beat of the music from audio_0.wav
Requête: Referring to the extreme camera movement, perspective, and distortion in video-0, create a front-facing full-body walk cycle of the character from image-0, quickly style-shifting into multiple visual styles during the walk cycle, starting from realistic cinema. Keep the environment, only change styles. Hard cut backgrounds always centering the sky. Continuous walking, continuous audio, and style shifts in perfect sync to the beat of the audio. Cinematic, 16:9.
Requête: Add harp sounds synchronized to when I touch each fern leaf. Change the leaf structure to all resemble semi translucent 3d bioluminescent plant life, with bioluminescent fireflies flying around it that react as I play, in sync with the sounds, subtle bokeh depth of field dynamic lighting, reflecting off the walls in the room, keeping the room structure the same
Partez de ce que vous avez. Grâce aux contenus de référence, vous pouvez utiliser des images de personnages, des scènes ou des dessins pour créer d’une manière fidèle à votre vision.
Requête: Imagine the world gradually changing into retro futuristic style (grainy and moody as image-1) as I walk. Use the audio for a retro-futuristic background music. 10s.
Requête: turn this into realistic footage, using the drawing only as a guide for movement, do not show the drawing in the final video
Requête: Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video
Appliquez des styles, des mouvements ou des effets. Définissez le langage visuel à l’aide de contenus de référence, ou décrivez-le simplement en langage naturel. Omni fusionne les contenus de référence pour créer un extrait cohérent.
Requête: edit this keeping everything the same. add animated motion effects coming out of the skateboard
Requête: Apply the motion of the whale swimming from the provided video to the provided image of fluid reflective material. Do not show the whale or water; instead, have this reflective moving material form a shape that resembles the whale as it swims. Replace water with white smooth material shapes that move
Créez des vidéos avec votre propre avatar numérique
Notre engagement est de développer l'IA de façon responsable. C'est pourquoi nous avons mis en place des règles claires pour protéger nos utilisateurs des dérives et encadrer l'usage de nos outils d'IA. Pour débuter, vous pouvez créer des vidéos avec votre propre voix grâce aux Avatars : ils créent un clone numérique de vous-même pour générer des vidéos qui ont votre apparence et votre voix. Au-delà des avatars, nous testons actuellement la modification de l'audio et de la parole au sein des vidéos, afin de mieux cerner comment déployer cette fonctionnalité auprès des utilisateurs de manière responsable.
Toutes les vidéos créées avec Omni comportent notre filigrane numérique imperceptible SynthID. Vous pouvez facilement vérifier si des vidéos ont été générées avec Gemini Omni dans l’appli Gemini, Gemini dans Chrome et Recherche Google. Dans notre billet de blogue, vous pouvez en apprendre davantage sur l’expansion de nos outils de transparence et de vérification du contenu pour mieux comprendre comment le contenu a été créé et modifié sur le Web.
Essayez Gemini Omni maintenant
Aujourd’hui, nous lançons le premier modèle dans la famille Omni, Gemini Omni Flash. Gemini Omni Flash est déployé dès aujourd’hui auprès de tous les abonnés à Google AI Plus, Pro et Ultra dans le monde entier, par l’intermédiaire de l’appli Gemini et de Google Flow. Il sera également déployé sans frais pour les utilisateurs de YouTube Shorts et de l’appli YouTube Create à compter de cette semaine.
Au cours des prochaines semaines, nous commencerons aussi à le déployer auprès des développeurs et des clients d’entreprise via les API.