Gemini 2.0: エージェント時代に向けた新しい AI モデル

Sundar Pichai

CEO of Google and Alphabet

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Koray Kavukcuoglu

CTO of Google DeepMind

Google and Alphabet CEO スンダー・ピチャイからのメッセージ

情報は人類の進歩に不可欠です。だからこそ、私たちは 26 年以上にわたり「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」というミッションに注力してきました。そして、あらゆる入力情報に対応し、あらゆる出力形式で情報にアクセスできるようにするために、AI 技術の可能性を追求し続けています。そうすることで、情報が真に皆様のお役に立てると考えているからです。

これが、昨年 12 月に Gemini 1.0 を発表した時の私たちのビジョンでした。ネイティブなマルチモーダルモデルとして構築された Gemini 1.0 と 1.5 は、テキスト、動画、画像、音声、コードといった多様な情報を理解し、より大量の情報を処理するために、マルチモダリティとロングコンテキストにおいて大きく向上しました。

現在、数百万人の開発者が Gemini を利用して開発を行っています。そうした Gemini の活用は、20 億人のユーザーを抱える Google の 7 製品を含むすべての製品を再考し、新しい製品を開発する取り組みに役立てられています。たとえば、NotebookLMは、マルチモーダルとロングコンテキストが人々にどう貢献できるかを示す素晴らしい例です。そして、それがユーザーから支持されている理由でもあります。

この 1 年間、私たちはよりエージェント的なモデルの開発に投資してきました。このモデルは周囲の状況についてより深く理解し、何歩も先を考え、あなたの指揮のもとであなたに代わって行動を起こすことができます。

本日、私たちはこの新しいエージェント時代のために構築された次世代モデルを発表できることを嬉しく思います。Gemini 2.0 は、これまでで最も有能なモデルです。ネイティブでの画像や音声の出力、ツールの使用など、マルチモーダルの新たな進歩により、ユニバーサルアシスタントという私たちのビジョンに近づく新しい AI エージェントを構築できるようになります。

本日、開発者と一部のテスターに向けて 2.0 を公開します。また、Google では Gemini と Google 検索をはじめとした製品に 2.0 への実装を迅速に進めています。本日より、Gemini 2.0 Flash の試験運用版をすべての Gemini ユーザーがご利用いただけるようになります。加えて、高度な推論とロングコンテキスト能力を活用することでリサーチアシスタントとして動作し、複雑なトピックを探索してユーザーに代わってレポートを作成する Deep Research という新機能もリリースします。この機能は、Gemini Advanced で本日からご利用いただけます。

検索ほど AI によって変革された製品はありません。現在、 10 億人のユーザーに利用されている AI による概要は、新しいタイプの質問に答えることができます。そして、これまでで最も人気のある検索機能のひとつへと成長しています。次のステップでは、Gemini 2.0 の高度な推論機能を AI による概要に導入し、高度な数式、マルチモーダルに対応したクエリ、コーディングなど、より複雑なトピックや複数ステップの質問に対応できるようになります。今週より、限定的なテストを開始し、来年初めにはさらに広範囲に展開する予定です。また、今後 1 年間で AI による概要をさらに多くの国と言語に提供していきます。

2.0 の進歩は、私たちが10年にわたり投資してきた、独自のフルスタックAIイノベーションへの取り組みによって支えられています。これは、第 6 世代 TPU である Trillium などのカスタムハードウェア上に構築されています。TPU は、Gemini 2.0 のトレーニングと推論の 100% を駆動しています。現在、Trillium は一般のお客様向けに提供されており、Trillium を使用した開発が可能になっています。

Gemini 1.0 が情報の整理と理解に関するものであったとすれば、Gemini 2.0 はそれをさらに有用にすることができます。次の時代がもたらす変化にもご期待ください。

Sundar

----------------------------------------------------

Gemini 2.0: エージェント時代に向けた新しい AI モデル

By Demis Hassabis, CEO of Google DeepMind and Koray Kavukcuoglu, CTO of Google DeepMind on behalf of the Gemini team

この 1 年間、私たちは人工知能において驚異的な進歩を遂げてきました。そして本日、Gemini 2.0 モデルファミリーの最初のモデル、Gemini 2.0 Flash の試験運用版をリリースします。Gemini 2.0 Flash は、最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデルです。

Gemini 2.0 のネイティブでのマルチモーダル機能によって実現されたプロトタイプとエージェントリサーチの最新情報についてもご紹介します。

私たちの目標は、モデルを安全かつ迅速に皆さまに届けることです。先月より、Gemini 2.0 の初期の試験運用版を共有し、開発者から素晴らしいフィードバックをいただいています。

現在、Gemini 2.0 Flash は Google AI Studio および Vertex AI の Gemini API を介して開発者向けの実験モデルとして提供されており、マルチモーダル入力とテキスト出力はすべての開発者に提供されています。また、早期アクセスパートナーはテキスト読み上げとネイティブ画像生成を利用できます。来年 1 月には一般提供を開始し、モデルサイズも拡大します。

開発者が動的でインタラクティブなアプリケーションを構築できるよう、リアルタイムの音声、動画ストリーミング入力、複数のツールを組み合わせた機能を備えた新しい Multimodal Live API もリリースします。2.0 Flash と Multimodal Live API の詳細については、開発者ブログをご覧ください。

Gemini 2.0 を AI アシスタントの Gemini アプリで利用

また本日より、世界中の Gemini ユーザーが、デスクトップとモバイルのドロップダウンメニューからモデルを選択して、チャットに最適化された 2.0 試験運用版モデルにアクセスできるようになります。このバージョンは、まもなく Gemini モバイルアプリでも利用可能になります。この新しいモデルにより、ユーザーはさらに便利な Gemini アシスタントを体験できます。

来年初めには、Gemini 2.0 をより多くの Google 製品でお使いいただける予定です。

Gemini 2.0 でエージェント体験を実現

Gemini 2.0 Flashは、ネイティブなユーザーインターフェース操作機能と、マルチモーダル推論、長文脈理解、複雑な指示への追従と計画、複合的な関数呼び出し、ネイティブなツール利用、そしてレイテンシの改善といった様々な改良が連携することで、新しいエージェント体験を実現します。

AI エージェントの実用化は、大きな可能性を秘めた研究分野です。私たちは、人々のタスクを支援する様々なプロトタイプを開発し、この新しい領域に取り組んでいます。その例として、普遍的なAIアシスタントの将来の可能性を探る研究プロトタイプ Project Astra のアップデート、ブラウザを起点に人間とエージェントの相互作用の未来を探る新しい Project Mariner 、そして開発者を支援するAIコードエージェント Jules が含まれます。

まだ開発の初期段階ですが、一部のテスターがこれらの新しい機能をどのように活用し、どのような教訓を得ることができるかを調べ、将来的に製品でより広く利用できるようにしたいと考えています。

Project Astra: 現実世界でマルチモーダル理解を実現

I/O で Project Astra を発表後、Androidスマートフォンで利用するテスターの皆様から貴重なフィードバックをいただいてきました。これらのフィードバックは、安全性や倫理面も含め、普遍的なAIアシスタントが実用的にどのように機能するかをより深く理解する上で役立っています。Gemini 2.0を基に構築された最新バージョンでは、以下の点が改善されています。

対話の改善: Project Astra は、複数の言語および混合言語での会話が可能になり、アクセントや珍しい単語の理解も向上しました。
新しいツールの利用: Gemini 2.0 では、Project Astra は Google 検索、Google レンズ、Google マップを利用できるようになり、日常生活におけるアシスタントとしての利便性が向上しました。
記憶力の強化: Project Astraは、ユーザーが管理しながら記憶できる情報量が拡張されました。セッション中は最大10分間の記憶保持が可能になり、過去の会話もより多く記憶することで、ユーザー一人ひとりに最適化された体験を提供します。
応答速度の向上: 新しいストリーミング機能とネイティブな音声理解により、人間同士の会話とほぼ遜色のない応答速度で言語を理解できるようになりました。

私たちは、これらの機能を AI アシスタントの Gemini アプリなどの Google 製品や、AR グラスなどのさまざまなデバイスに導入する取り組みを進めています。また、一部のテスタープログラムをより多くの人々に拡大します。これには、まもなくプロトタイプのメガネを用いた Project Astra のテストを開始する小規模なグループも含まれます。

Project Mariner: 複雑なタスクを支援するエージェント

Project Marinerは、Gemini 2.0で構築された初期の研究プロトタイプで、ブラウザを起点に人間とエージェントのインタラクションの可能性を探求します。リサーチプロトタイプとして、テキスト、コード、画像、フォームなどのピクセルやウェブ要素を含む、ブラウザ画面上の情報を理解し、推論することができます。そして、試験運用版の Chrome 拡張機能を介してその情報を使用し、ユーザーの代わりにタスクを完了します。

エンドツーエンドの実際のウェブタスクでエージェントの性能をテストする WebVoyager ベンチマークと比較して評価したところ、Project Mariner は単一のエージェント設定で 83.5% という最高水準の結果を達成しました。

Project Mariner はまだ初期段階の研究プロトタイプですが、現時点では精度やタスク完了速度に課題が残るものの、技術的にはブラウザ内を操作できる可能性を示しています。これらの課題は今後急速に改善されると見込まれます。

安全かつ責任ある開発を進めるため、私たちは人間を常に介在させつつ、新たな種類のリスクとそれらへの対策に関する研究を積極的に行っています。例えば、Project Mariner はブラウザでアクティブになっているタブ内でのみ、文字入力、スクロール、クリックといった操作が可能で、購入などの機密性の高い操作を実行する前には、必ずユーザーに最終確認を求めます。

現在、一部のテスターは試験運用版の Chrome 拡張機能を使用して Project Mariner のテストを開始しており、私たちは並行してウェブエコシステムとの対話を進めています。

Jules: 開発者向けエージェント

また、AI エージェントによる開発支援の可能性を探る取り組みとして、GitHubのワークフローに直接統合された実験的なAIコードエージェント「Jules」の開発を進めています。Julesは、開発者の指示と監督の下、課題への取り組み、計画の策定、そして実行までを担うことができます。この取り組みは、コーディングを含むあらゆる分野で役立つAIエージェントの構築を目指す、私たちの長期的な目標の一環です。

この進行中の試験運用の詳細については、開発者向けブログ投稿をご覧ください。

ゲームやその他の分野でのエージェント

Google DeepMindは、AI モデルがルールに従い、計画を立て、論理的に考える能力を高めるために、長年にわたりゲームを活用してきました。例えば、先週は、1枚の画像から無限に多様なプレイ可能な 3D 世界を生成する AI モデル Genie 2 を発表しました。この流れを受け、Gemini 2.0を用いて、ビデオゲームの仮想世界をナビゲートするエージェントを開発しました。このエージェントは、画面上の動きのみに基づいてゲーム状況を把握し、次に取るべき行動をリアルタイムの会話で提案します。

私たちは、Supercell のような大手ゲーム開発者と協力して、これらのエージェントがどのように機能するかを調査し、クラッシュ・オブ・クランのような戦略ゲームからヘイ・デイのような農業シミュレーターまで、さまざまなゲームでルールと課題を解釈する能力をテストしています。

これらのエージェントは、仮想ゲームコンパニオンとして機能するだけでなく、Google 検索を利用して、ウェブ上の豊富なゲーム知識とユーザーをつなげることもできます。

仮想世界でのエージェント機能の探求に加え、私たちは Gemini 2.0 の空間推論機能をロボット工学に適用することで、現実世界で役立つエージェントの実験を行っています。まだ初期段階ではありますが、私たちは現実環境で支援できるエージェントの可能性に大きな期待を寄せています。

これらのリサーチプロトタイプと試験運用の詳細については、labs.google をご覧ください。

エージェント時代における責任ある開発

Gemini 2.0 Flash とリサーチプロトタイプにより、AI 研究の最前線で新しい機能をテストし、反復することができます。これにより、最終的には Google 製品がより役立つものになります。

私たちはこれらの新しいテクノロジーを開発するにあたって、それに伴う責任と、AI エージェントが安全性とセキュリティに関して提起する多くの疑問を認識しています。そのため、私たちは探索的かつ段階的な開発アプローチを採用し、複数のプロトタイプの研究を行い、安全性トレーニングを反復的に実装し、信頼できるテスターや外部の専門家と協力し、広範なリスク評価と安全性と保証の評価を行っています。

いくつかの例をご紹介します。

安全プロセスの一環として、長年にわたる社内レビューグループである Responsibility and Safety Committee (RSC) と協力して、潜在的なリスクの特定と把握に努めています。
Gemini 2.0 の推論機能により、AI 支援のレッドチームアプローチが大幅に進歩しました。リスクを単に検出するだけでなく、リスクを軽減するための評価とトレーニングデータを自動的に生成できるようになりました。つまり、安全性のためにモデルをより効率的に最適化できるということです。
Gemini 2.0 のマルチモーダル性により、潜在的な出力の複雑さが増すため、画像と音声の入出力にわたってモデルを評価およびトレーニングし、安全性の向上に役立てていきます。
Project Astra では、ユーザーが意図せずにエージェントに機密情報を共有することに対する潜在的な緩和策を検討しており、ユーザーがセッションを簡単に削除できるプライバシーコントロールをすでに組み込んでいます。また、AI エージェントが信頼できる情報源として機能し、ユーザーに代わって意図しないアクションを取らないようにする方法についても引き続き研究しています。
Project Mariner では、モデルがサードパーティのプロンプトインジェクションの試みよりもユーザー指示を優先するように学習させ、外部ソースからの潜在的に悪意のある指示を識別して悪用を防止できるように取り組んでいます。これにより、電子メール、ドキュメント、Web サイトに隠された悪意のある指示などによってユーザーが詐欺やフィッシングの試みにさらされるのを防ぎます。

私たちは、AI を構築する上で、開発の初期段階から責任を持つことが唯一の道だと強く信じています。モデルとエージェントを進化させていく中で、安全性と責任をモデル開発プロセスの重要な要素として今後も重視していきます。

Gemini 2.0、AI エージェント、そしてその先

本日の発表は、 Gemini モデルにとって新たな幕開けとなります。Gemini 2.0 Flashのリリースと、エージェントの可能性を探る一連の研究プロトタイプは、Gemini の時代における重要なマイルストーンとなります。私たちは、AGI（汎用人工知能）の実現に向けた開発を進めながら、今後も安全性を最優先に、あらゆる可能性を追求していくことを楽しみにしています。

Gemini 2.0: エージェント時代に向けた新しい AI モデル

Gemini 2.0: エージェント時代に向けた新しい AI モデル

関連記事