Gemini Omni を発表
昨年公開した Nano Banana は、古い写真を復元したり、スケッチからデザインを起こしたり、これまでにない方法でアイデアを視覚化するお手伝いをしてきました。Gemini は、開発の初期段階からネイティブなマルチモーダルとして構築してきましたが、本日、また新たな可能性を広げます。
本日、Gemini の高い推論能力と創造力を組み合わせた新しいモデルファミリー 「 Gemini Omni 」 を発表します。 Gemini Omni は、動画をはじめとして、あらゆる入力から様々なものを創り出すことができる新しいモデルです。画像、音声、動画、テキストを自由に組み合わせて入力し、Gemini が持つ現実世界の知識に基づいたハイクオリティな動画を生成することができます。また、まるで会話をするように簡単に動画を編集することも可能です。
本日より 、 Gemini Omni ファミリーの第一弾として Gemini Omni Flash を Gemini アプリ 、 Google Flow 、そして YouTube Shorts で順次提供を開始します。今後、画像や音声といった出力形式にも対応予定です。
話すだけで簡単に動画編集
Gemini Omni は、自然言語だけで、より直感的に動画を編集できます。すべてのプロンプトが前の文脈を引き継ぐため、登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れず、シーン全体の流れもしっかりと記憶されます。
一から世界を創りだす:特定の部分を変更することも、すべてを作り変えることも可能です。自分で撮影するのが難しかったような映像も、撮影した動画を初めから全く新しい作品に変えることも可能です。
プロンプト:泡のアート作品を作って。
続きを再構築する:Gemini Omni では、 自分で撮影した動画をベースに「そこで何が起きているか」 を自由に変更や追加ができます。キャラクターの動きを編集したり、新しいキャラクターやオブジェクトを追加したり、ある一瞬を思いがけない展開へと変貌させることができます。
Reimagine the action. Take a video you shot and just ask Omni to change what’s happening. Edit the action, add in new characters or objects, or transform a moment into something unexpected.
プロンプト:人が鏡に触れると、鏡面は液体のように美しく波紋を広げ、その人の腕は光を反射する鏡の素材へと変化していく。
プロンプト:薄暗い部屋。手の上に浮かびながら追従するガラス球。球体の中には白黒チェッカーボードの部屋があり、その中に球体を持つ手が無限に再帰する空間が広がっている。カメラがゆっくり球体にズームインしていくループ動画。
プロンプト:アパートの明かりが、音楽と合わせて点灯する。
やり取りしながらよりより作品に:元のシーンの文脈を失うことなく、背景環境、カメラアングル、スタイル、さらには細かなディテールまで調整が可能です。編集がどのように積み重なっていくかに関しては、下のカルーセルをスクロールして動画をご覧ください。
バイオリニストが曲を演奏している動画
プロンプト:バイオリニストを指定された画像の環境へ移動させてください。
プロンプト:カメラのアングルを、バイオリニストの背後からの視点に変更してください。
Gemini の世界知識に基づき、アイデアを形にする
Gemini Omni は、単にリアルに見えるシーンを作るだけでなく、 「次に何が起こるか」 を論理的に推論します。物理法則に対する直感的な理解と、Gemini が持つ歴史、科学、文化的な背景知識を組み合わせることで、単なる写真のような美しさを超えた、意味のある物語りが可能になります。
より正確な物理法則を取り入れたビジュアル生成:Gemini Omni は、重力、運動エネルギー、流体力学といった物理に対する理解が向上しています。これにより、水や物の動きがより自然で、リアリティ溢れるシーンを創り出すことができます。
プロンプト:連鎖反応コースを高速で転がるビー玉。途切れのないスムーズなワンカット撮影。
知識とクリエイティビティ:Gemini Omni は Gemini の知識を活用し、単なるパターンマッチングを超え、言葉、映像、あるいはその意味を結びつけます。
プロンプト:アルファベットのアイテムを紹介する動画。各文字で始まる「珍しいアイテム」がテーブルの上に置かれている様子を映す(例:C ならカピバラ、D ならディスコボール、L ならラバランプなど)。全 26 文字を象徴する 26 個のアイテムが登場し、それぞれの文字を画面下部のテロップで表示。一度に表示するのは、1 つのアイテムと1 つのテロップのみ。各テロップのデザインは、画面左下に配置された紙に、黒のペンで文字が手書きされているような見た目にする。テンポは超高速で、24FPS 換算で 1 アイテムあたり約 9 フレーム。最後のフレームには「THE END」と書かれた紙を表示。動画全体に、穏やかでスムーズな音楽が流れている。
複雑なアイデアの視覚化:短いプロンプトだけで、 Gemini Omni が説得力のある解説動画を作成できます。難解で複雑なアイデアをわかりやすく噛み砕いたビジュアルを生成してくれます。
プロンプト:タンパク質の折りたたみを解説するクレイアニメ。すべてが粘土でできており、制作中の人間の手は映らないこと。ストップモーション撮影、正確な描写。
あらゆる入力を組み合わせて動画を生成する
リファレンスへの対応:Gemini Omni は、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた 1 つ の動画作品をつくりあげます。音声の参照については、 まずは音声リファレンスから対応し、 今後 、その他の入力にも対応していく予定です。
プロンプト:image_0.png をベースにした、ダイナミックな SF 映画スタイルの動画。audio_0.wav の音楽のリズムに合わせて、video_0.mp4 と同じように、要素が光り出す。
プロンプト:video-0 にある極端なカメラワーク、遠近感、および歪みを参考にして、image-0 のキャラクターが正面を向いて全身で歩くループ アニメーションを作成してください。歩いている最中に、最初はリアルな映画風から始まり、複数のビジュアルスタイルへと素早く絵のスタイルを変化させていくこと。周囲の世界観は維持し、スタイルのみを変更してください。背景は空が常に中央にくるように、ブツ切りで切り替えます。途切れることのないウォーキング、途切れることのないオーディオ、そしてオーディオのリズムに完全に合わせたスタイル変化。映画風、画面比率16:9。
プロンプト:シダの葉に触れる瞬間に合わせて、ハープの音を追加してください。葉の構造は、すべて半透明の 3D 生物発光植物のような見た目に変更し、その周囲を飛び回る生物発光のホタルは、私が演奏するのに合わせて音と合わせて反応するようにしてください。うっすらとした被写界深度とダイナミックなライティングを加え、その光が部屋の構造はそのままに維持された壁に反射しているようにしてください。
手元にある素材から始める:入力リファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、あるいは手書きのスケッチなどを活用し、ご自身の思い描くビジョンに完全に一致する作品を創り出すことができます。
プロンプト:歩くにつれて、世界が徐々にレトロフューチャー スタイルへと変化していく様子を表現してください(image-1のような、粒子感がありムード漂う質感)。オーディオは、レトロフューチャー風の BGM として使用してください。動画の長さは10秒。
プロンプト:リアルな映像に変換してください。イラストは動きのガイドとしてのみ使用し、最終的なビデオにはその描画を表示させないでください。
プロンプト:入力された動画のポーズと動きを、この画像に描かれたキャラクターに適用してください。新しい動画には参照画像からスタイルを適用してください
スタイル、モーション、エフェクトの適用:入力リファレンスを使って視覚的な表現を定義することも、自然な言葉で説明するだけでも構いません。 Gemini Omni がそれらの要素を組み合わせ、まとまりのある 1 つ のクリップを生成します。
プロンプト:すべてをそのまま維持して編集してください。スケートボードからアニメーションのようなモーションエフェクトを追加してください。
プロンプト:提供された動画のクジラが泳ぐ動きを、提供された流動的な反射素材の画像に適用してください。クジラや水は表示させず、代わりにこの反射する動く素材が、泳いでいるクジラを連想させるような形を形成するようにしてください。水は、動きのある白い滑らかな素材の形状に置き換えてください。
デジタルアバターを使った動画作成
私たちは、責任ある AI の開発に全力で取り組んでおり、ユーザーの皆さまを害から守り、AI ツールの適切な利用を管理するための明確なポリシーを定めています。 まず 、ご自身の声を使って動画を作成できる アバター機能を提供します。これにより、ご自身のデジタルバージョンを作成し、見た目も声も自分そっくりの動画を生成できるようになります。なお、動画内の音声や会話を編集・変更する機能については、ユーザーの皆さまに責任ある形でお届けできるよう、現在も慎重にテストと評価を重ねています。
Gemini Omni で作成されたすべての動画には、電子透かし技術 SynthID が埋め込まれます。動画が Gemini Omni によって生成されたものかどうかは、 Gemini アプリ 、Gemini in Chrome 、あるいは Google 検索 を通じて簡単に確認することができます。ウェブ全体でコンテンツがどのように作成・編集されたかを理解しやすくするための、コンテンツの透明性と検証ツールの拡大に向けた取り組みについては、こちらのブログ記事をご覧ください。
Gemini Omni を今すぐ体験しましょう
Gemini Omni Flash は、 本日より 、 世界中のすべての Google AI Plus 、 Pro 、および Ultra ユーザーの皆さまを対象に、 Gemini アプリ および Google Flow を通じて 順次提供を開始します。また、 今週から は、 YouTube Shorts および YouTube Create アプリ ユーザーの方にも、 無料で順次提供開始されます 。
さらに、 数週間以内には 、API を通じてデベロッパーや企業の皆さま向けにも提供を開始する予定です。
皆さまがこの新しい Gemini Omni を使って、どのような素晴らしい作品や心躍るストーリーを創造されるのか、心から楽しみにしています!