Apresentamos o Gemini Omni
No ano passado, o Nano Banana levou a inteligência do Gemini até à geração e edição de imagens. Desde aí, ajudou milhões de pessoas a restaurar fotos antigas, a criar a partir de esboços e visualizar ideias de formas que não eram, antes, possíveis. Desde o início, criámos o Gemini para ser nativamente multimodal e agora vamos dar o próximo passo.
Apresentamos o Gemini Omni, onde a capacidade de raciocínio do Gemini se une ao poder da criação. Com o Omni, pode combinar imagens, áudio, vídeo e texto como entrada para gerar vídeos de alta qualidade com base no conhecimento do mundo real do Gemini. Além disso, pode também editar os seus vídeos facilmente através de uma conversação.
Hoje, estamos a disponibilizar o primeiro modelo da família Omni, o Gemini Omni Flash, na aplicação Gemini, no Google Flow e no YouTube Shorts. Nos próximos meses, iremos disponibilizar modalidades de saída como imagem e áudio. Veja alguns exemplos do que torna o Omni especial:
Edite os seus vídeos através de uma conversa
O Gemini Omni oferece uma maneira mais simples de editar vídeos: com linguagem natural. Cada instrução baseia-se na anterior. As personagens permanecem consistentes, as leis da física são respeitadas e a cena lembra-se do que a antecedeu.
Transforme o mundo à sua volta. Altere pormenores específicos ou altere tudo. O seu vídeo torna-se num ponto de partida para algo que nunca poderia ter filmado por si só.
Prompt: Make the sculpture out of bubbles.
Reinvente a ação. Pegue num vídeo que tenha gravado e peça ao Omni para alterar o que está a acontecer. Edite a ação, adicione novas personagens ou objetos, ou transforme o momento em algo inesperado.
Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material.
Prompt: Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.
Prompt: The lights of the apartments start turning on in sync with the music.
Aperfeiçoe os seus vídeos em múltiplas etapas. Altere o ambiente, o ângulo, o estilo ou até detalhes específicos, sem nunca perder a ligação à cena original.
A video of a violinist playing a song.
Prompt: Transport the violinist to the image environment
Prompt: Change the camera angle to be over the violinist’s shoulder.
Dê vida às suas ideias, com base no conhecimento do mundo do Gemini
O Omni não se limita a criar cenas que parecem reais, também raciocina sobre o que deve acontecer em seguida. Combina um entendimento intuitivo sobre física com os conhecimentos do Gemini sobre história, ciência e o contexto cultural, colmatando a lacuna entre o fotorrealismo e storytelling relevante.
Crie recursos visuais com física mais precisa. O Omni tem uma compreensão intuitiva melhorada das forças como a gravidade, a energia cinética e a dinâmica de fluidos, o que lhe permite criar cenas mais realistas.
Prompt: A marble rolling fast on a chain reaction style track, continuous smooth shot.
Combine conhecimento e criatividade. O Omni recorre aos conhecimentos do Gemini para estabelecer uma ligação entre linguagem, imagens e significado de formas que vão muito além da correspondência de padrões.
Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.
Visualize ideias complexas. O Omni pode criar explicações apelativas a partir de comandos curtos, gerando recursos visuais que simplificam ideias mais complexas.
Prompt: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
Crie vídeos a partir de qualquer combinação de entradas
Use qualquer referência. O Omni transforma qualquer referência, seja imagem, texto, vídeo ou áudio, num único resultado coeso. Embora, inicialmente, apenas as referências de voz sejam compatíveis com áudio, vamos implementar em breve outros tipos de entradas de áudio.
Prompt: Dynamic sci-fi film style video based on image_0.png. Elements light up similar to video_0.mp4 synchronized to the beat of the music from audio_0.wav
Prompt: Referring to the extreme camera movement, perspective, and distortion in video-0, create a front-facing full-body walk cycle of the character from image-0, quickly style-shifting into multiple visual styles during the walk cycle, starting from realistic cinema. Keep the environment, only change styles. Hard cut backgrounds always centering the sky. Continuous walking, continuous audio, and style shifts in perfect sync to the beat of the audio. Cinematic, 16:9.
Prompt: Add harp sounds synchronized to when I touch each fern leaf. Change the leaf structure to all resemble semi translucent 3d bioluminescent plant life, with bioluminescent fireflies flying around it that react as I play, in sync with the sounds, subtle bokeh depth of field dynamic lighting, reflecting off the walls in the room, keeping the room structure the same
Comece com o que tem. Com referências de entrada, pode usar imagens de personagens, cenas ou desenhos para criar de uma forma que corresponda à sua visão.
Prompt: Imagine the world gradually changing into retro futuristic style (grainy and moody as image-1) as I walk. Use the audio for a retro-futuristic background music. 10s.
Prompt: turn this into realistic footage, using the drawing only as a guide for movement, do not show the drawing in the final video
Prompt: Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video
Aplique estilos, movimento ou efeitos. Defina a linguagem visual usando referências de entrada ou simplesmente descreva-a através de linguagem natural. O Omni combina as referências de entrada para criar um clipe coeso.
Prompt: edit this keeping everything the same. add animated motion effects coming out of the skateboard
Prompt: Apply the motion of the whale swimming from the provided video to the provided image of fluid reflective material. Do not show the whale or water; instead, have this reflective moving material form a shape that resembles the whale as it swims. Replace water with white smooth material shapes that move
Crie vídeos com o seu próprio avatar digital
Estamos empenhados em desenvolver a IA de forma responsável e temos políticas claras para proteger os utilizadores de danos e para regular a utilização das nossas ferramentas de IA. Atualmente, pode criar vídeos com a sua voz usando avatares, que criam uma versão digital de si para que possa gerar vídeos que se assemelham a si em termos de aparência física e voz. Para além da funcionalidade de avatar, no que diz respeito à edição de vídeos para alterar o áudio e a voz, ainda estamos a trabalhar no sentido de testar esta capacidade e compreender melhor como podemos disponibilizá-la aos utilizadores de uma forma responsável.
Todos os vídeos criados com o Omni incluem a nossa marca de água digital impercetível, o SynthID. Pode confirmar facilmente se os vídeos foram gerados com o Gemini Omni através da app Gemini, o Gemini no Chrome e a Pesquisa Google. Consulte a nossa publicação no blogue para saber mais sobre como vamos expandir as nossas ferramentas de transparência e de validação de conteúdo, que lhe permitem compreender como o conteúdo foi criado e editado na Web.
Experimente o Omni agora
O Gemini Omni Flash vai ser implementado globalmente hoje para todos os subscritores do Google AI Pro e Ultra através da aplicação Gemini e do Google Flow. Além disso, vai ser implementado sem custos adicionais para os utilizadores no YouTube Shorts e na aplicação YouTube Create a partir desta semana.
Nas próximas semanas, vamos disponibilizá-lo para programadores e clientes empresariais através de APIs.