Google I/O 2024:新世代に向けた I/O
編集者注:以下は I/O 2024 の基調講演でのスンダー ピチャイの発言を編集し、イベントで発表された内容をさらに含むように再構成したものです。すべての発表についてはこちらをご覧ください。
Google は、完全に Gemini の時代に突入しました。
本題に入る前に、Google の現在の立ち位置を振り返ってみましょう。Google は 10 年以上にわたって AI への投資を継続しており、リサーチ、製品、インフラストラクチャなど、あらゆる階層を革新してきました。本日は、それらの取り組みについてご紹介します。
Google は、まだ AI プラットフォームへの移行の初期段階にいます。クリエイター、開発者、スタートアップ、あらゆる人々にとって、この先には多くのチャンスが待っていると Google は考えています。そうした機会を全ての人に推進する手助けをすることが、Gemini 時代に Google が目指すことです。それでは始めましょう。
Gemini の時代
1 年前の I/O で、Google は Gemini の計画についてはじめて発表しました。Gemini は、ゼロから構築された本質的なマルチモーダルのフロンティア モデルであり、テキスト、画像、動画、コードなどを推論できます。これは、あらゆる入力をあらゆる出力にできる大きな一歩となります。つまり新世代の「I/O」です。
その後 Google は、過去最高の性能を持つ一連の Gemini モデルを発表しました。Gemini モデルは、マルチモーダル ベンチマークで最先端のパフォーマンスを実証しています。その 2 か月後、Google は Gemini 1.5 Pro を発表し、ロング コンテキストにおける大きな進歩を達成しました。Gemini 1.5 Pro は、実稼働環境でこれまでの大規模基盤モデルを凌ぐ 100 万トークンを安定して実行できます。
Google は、誰もが Gemini の能力を使えるようにしたいと考えています。だからこそ、これらの進歩をすべての人々に共有する取り組みを迅速に進めています。現在、150 万人以上の開発者がコードのデバッグ、新しい洞察の取得、次世代の AI アプリケーションの開発を行うために、Google のツール全体で Gemini モデルを使用しています。
Google は、Gemini の画期的な機能をパワフルなアプローチで製品全体に導入しています。本日は、Google 検索、Google フォト、Google Workspace、Android などの例を紹介します。
製品の進捗
現在、約 20 億のユーザーが利用する製品すべてに Gemini が使われています。
また、モバイルを含む新しい体験も導入しています。Android と iOS で利用できるようになったアプリから、直接 Gemini と対話することができるようになりました。また、Gemini Advanced を通じて、Google の最も機能的なモデルへアクセスいただけます。Gemini Advanced は、わずか 3 か月で 100 万人以上が 試験運用に登録しており、登録者数は現在も増え続けています。
検索の AI による概要の拡大
Gemini による最もエキサイティングな変革のひとつは、Google 検索です。
昨年、Google は試験運用中の生成 AI による検索体験(SGE)の一環として、数十億ものクエリに回答しました。ユーザーは SGE を新しい検索手段として活用しており、新しい種類の質問、より長く複雑なクエリの入力、写真を使った検索 ( 英語のみ ) など、Web が提供できるベストな情報にアクセスしています。
Google は、この体験を Labs 以外でも試験運用しており、検索を使用する量の増加に加えて、ユーザーの満足度が向上していることに勇気づけられています。
今週、この完全に刷新された体験である「AI Overviews (AI による概要) 」を英語で米国のすべてのユーザーに向けて公開できることを嬉しく思います。今後、さらに多くの国にこの機能を展開する予定です。
検索では多くのイノベーションが起きています。Gemini により、検索の製品内も含め、より強力な検索体験を生み出せるようになりました。
Ask Photos が登場
約 9 年前に登場した Google フォト。公開以来、多くのユーザーが大切な思い出を整理するために利用しています。現在では、毎日 60 億以上の写真と動画がアップロードされています。
ユーザーは、Google フォトを使って人生の検索を楽しんでいますが、Gemini を使用することで、この体験がずっと簡単になります。
たとえば、駐車料金を支払いたいけれど、車のナンバーを思い出せないとします。これまでであれば、写真をキーワードで検索して、数年分の写真をスクロールしてナンバーを探していました。これからは、Google フォトがよく撮影されている車を認識し、質問するだけで、どれがあなたの車かを特定して、ナンバーを教えてくれます。
Ask Photos は、思い出をより深く検索するのに役立ちます。たとえば、娘のルシアが幼かったころの出来事を思い出しているとします。これからは Google フォトに「ルシアがはじめて泳げたのはいつだった?」と尋ねることができます。
さらに、「ルシアの水泳の上達を見せて」などといった、より複雑なフォローアップの質問もすることもできます。
ここで Gemini は、単純な検索以上のタスクを実行します。ラップスイミングやシュノーケリング、泳力認定証の文字や日付に至るまで、さまざまなコンテキストを認識します。そして、あなたが素敵な思い出を一度に振り返れるよう、すべてを概要にまとめます。Ask Photos は、今年の夏から展開がはじまります(試験的に米国から)。さらに、今後より多くの能力の追加も予定しています。
UI は変わる可能性があります。回答の正確性は確認してください。
マルチモダリティとロング コンテキストでより多くの知識を
フォーマットを超えて知識を解き放つことが、Gemini をゼロからマルチモーダルに構築した理由です。Gemini は、すべてのモダリティが組み込まれたひとつのモデルです。つまり、Gemini は各タイプの入力を理解するだけでなく、それらの関係性も見つけることができます。
マルチモダリティは、私たちが尋ねることができる質問と、得られる回答を根本的に拡大します。ロング コンテキストを使用すると、さらに一歩進んで、数百ページのテキスト、数時間の音声または 1 時間の動画、コード リポジトリ全体、およそ 96 種類の Cheesecake Factory のメニューなど、より多くの情報を取り込むことができます。
これだけ多くのメニューを使用するには、100 万トークンのコンテキスト ウィンドウが必要になりますが、Gemini 1.5 Pro ではそれが可能になりました。開発者は、これを非常に興味深い方法で使用しています。
ここ数か月間、Google はロング コンテキストを備えた Gemini 1.5 Pro をプレビュー版として展開してきました。Google は、翻訳、コーディング、推論全体にわたって一連の品質改善を行い、これをアップデートとして本日よりモデルに反映します。
世界中のすべての開発者に向けて、この Gemini 1.5 Pro の改良版を展開できることを嬉しく思います。また、本日より Gemini Advanced の一般ユーザー向けにも 100 万コンテキストを備えた Gemini 1.5 Pro を提供いたします。Gemini 1.5 Pro は、日本語を含む 35 の言語でご利用いただけます。
プライベート プレビューで 200 万トークンまで拡張
100万トークンは、まったく新しい可能性を切り開きます。これはとてもワクワクするものですが、私たちはさらに新しい領域を目指すことができると考えています。
本日より、コンテキスト ウィンドウが 200 万トークンまで拡張され、開発者がプライベート プレビューで利用できるようになります。
振り返ってみると、わずか数か月の間におどろくべき進歩がありました。そしてこれは、無限のコンテキストという究極の目標に向けた Google の取り組みの次の一歩を示すものです。
Gemini 1.5 Pro を Google Workspace に
これまで、マルチモダリティとロング コンテキストという 2 つの技術的進歩について説明してきました。これらはそれぞれとてもパワフルですが、組み合わせることにより、さらに深い能力と多くのインテリジェンスを引き出すことができます。
それは Google Workspace で実現します。
ユーザーは常に Gmail でメールを検索しています。Google は、このユーザー体験を Gemini で強化できるよう取り組んでいます。たとえば、保護者は子供の学校で起こっているすべての情報を常に把握しておきたいと考えています。Gemini は、そうした情報の把握に役立ちます。
Gemini に頼んで、学校から送信された最近のメールをすべて要約してもらうことができます。Gemini は、バックグラウンドで関連するメールを識別し、PDF などの添付ファイルも分析します。これにより、重要な項目と、しなければならないことの概要が表示されます。たとえば、ある週に旅行中で PTA の会合に参加できなかったとします。1 時間の会議の録音がある場合、会議が Google Meet で行われたものなら、Gemini は要点をまとめることができます。他にも、保護者グループがボランティアを募集していたとして、当日予定がない場合には、Gemini に頼んで返事の下書きを作成してもらうことができます。
このように、日々の生活を楽にできる用途は無数にあります。Gemini 1.5 Pro は、Workspace Labs でご利用いただけます。もっと詳しく知るには、Aparna の投稿をご覧ください。
NotebookLM の音声出力
これまで、テキスト出力の例を見てきましたが、マルチモーダル モデルを使用することで、さらに多くのことができるようになります。
Google はここでも進歩を遂げており、今後もより多くをこなせるようになるでしょう。NotebookLM のAudio Overviews には進行状況が表示されます。Gemini 1.5 Pro を使用してソースの情報を取得し、パーソナライズされたインタラクティブな音声会話を生成します。
これはマルチモダリティのチャンスです。間もなく、入力と出力を組み合わせて使用できるようになります。私たちが、新しい時代の I/O と呼ぶのはこれが理由です。しかしながら、もっと先へ進むことはできるでしょうか?
AI エージェントでもっと先へ
AI エージェントの可能性のひとつとして、これをさらに先に進めることができます。私は、これらを推論、プランニング、記憶を行い、複数のステップを「考える」ことができ、ソフトウェアやシステム全体で機能するインテリジェントなシステムと捉えています。これらすべては、ユーザーに代わり、ユーザーの管理に基づいてタスクをこなすものです。
この取り組みはまだ始まったばかりですが、Google が全力で取り組んでいるユースケースをご紹介します。
まずはショッピングからみてみましょう。靴を買うのは楽しいものですが、サイズが合わなかったときに返品する手間は、それほど楽しくはないでしょう。
Gemini があなたの代わりに以下のすべての手順を実行できるとしたら、どうなるかを想像してみてください。
受信箱を検索して領収書を探す。
メールから注文番号を確認する。
返品フォームに記入する。
宅配業者の集荷スケジュールを設定する。
とても簡単ですね。
もう少し複雑な別の例を見てみましょう。
あなたはシカゴに引っ越したばかりだとします。Gemini と Chrome が連携することで、準備のためのさまざまな作業(整理、推論、生成など)をあなたに代わって実行する様子を想像してみてください。たとえば、市内を探索して、クリーニング店から犬の散歩業者まで、近くのサービスを探したいとします。たくさんの Web サイトで、新しい住所を入力する必要もあります。
Gemini はこれらのタスクを横断的に作業することができるほか、必要に応じて詳細情報の入力を求めるプロンプトが表示されるため、ユーザーは常に実行状況を管理することができます。
これは非常に重要です。Google はこれらの体験をプロトタイプ化する際に、プライベートかつ安全で、誰にとっても機能する方法を真剣に考えています。
これらはシンプルな例ですが、あなたに代わって先読みし、推論し、計画を立てるインテリジェントなシステムを構築することで、Google がなにを解決しようとしているかを理解していただけるかと思います。
Google のミッションにとっての意味
マルチモダリティ、ロング コンテキスト、エージェントを備えた Gemini により、AI をすべての人に役立つものにするという最終的な目標に近づくことができます。
Google は、これが私たちのミッションに対して最大限の進歩を遂げる方法であると考えています。これは、あらゆる入力において世界の情報を整理し、どのような出力からでもアクセスできるようにし、あなたにとって真に役立つ方法で、世界の情報とあなたの世界の情報を組み合わせるということです。
新たな可能性を引き出す
AI を最大限に活用するには、新たな可能性を引き出す必要があります。Google DeepMind チームは、この取り組みに注力しています。
1.5 Pro とそこで実現されたロング コンテキスト ウィンドウは、非常に高い評価を受けていますが、開発者からはさらなる高速化とコスト効率の向上の声が寄せられています。そこで、スケールを考慮して構築された軽量モデルである Gemini 1.5 Flash を発表します。1.5 Flash は、低遅延とコストが最も重要なタスク向けに最適化されています。1.5 Flash は、火曜日に AI Studio と Vertex AI で利用できるようになります。
さらに先を見据え、Google は日常生活に役立つユニバーサルなエージェントを構築したいと常に考えてきました。Project Astra は、マルチモーダルでの理解とリアルタイムの会話機能を備えています。
Google は、Veo と Imagen 3 によって動画と画像の生成も進化させ、責任ある AI イノベーションのための次世代オープン モデルである Gemma 2 を導入しました。詳細については、Demis Hassabis の投稿をご覧ください。
AI 時代のインフラストラクチャ:Trillium を公開
最先端のモデルをトレーニングするには、大量のコンピューティング能力が必要です。ML コンピューティングに対する業界の需要は、過去 6 年間で 100 万倍に増加しました。そして毎年、その数は 10 倍に増加しています。
Google はこのために設立されました。25 年間にわたり、Google は、検索を強化する最先端のハードウェアから AI の進歩を強化する独自の Tensor Processing Unit(TPU)まで、世界レベルのテクニカル インフラストラクチャに投資してきました。
Gemini は、第 4 世代と第 5 世代の TPU のみを使用してトレーニングされ、提供されています。また、Anthropic を含む他の大手 AI 企業も、自社のモデルを TPU でトレーニングしています。
本日、第 6 世代の TPU、Trillium を発表できることを嬉しく思います。Trillium はこれまでで最もパフォーマンスが高く効率的な TPU であり、前世代の TPU v5e と比較してチップあたりのコンピューティング パフォーマンスが 4.7 倍向上しています。
Google は、Trillium を 2024 年後半に Google Cloud ユーザーに向けて展開する予定です。
Google は、TPU に加えて、あらゆるワークロードをサポートする CPU と GPU を提供できることを誇りに思っています。これには、先月発表した新しい Axion プロセッサー、業界トップレベルのパフォーマンスとエネルギー効率を実現する初の Arm ベースのカスタム CPU が含まれます。
また、Google は 2025 年初頭に発売される Nvidia の最先端 Blackwell GPU を提供する初の Cloud プロバイダーに選ばれました。NVIDIA との長年にわたるパートナーシップにより、お客様に、Blackwell の画期的な機能を提供できることを嬉しく思います。
チップは、パフォーマンスが最適化されたハードウェアとオープン ソフトウェアから、柔軟な消費モデルまで、統合されたエンドツーエンド システムの基礎となる部分です。これらすべては、画期的なスーパーコンピュータ アーキテクチャである AI ハイパーコンピュータに統合されています。
企業や開発者は、これをより複雑な課題に取り組むために使用しており、未加工のハードウェアとチップを購入する場合に比べて 2 倍以上の効率を得ることができます。Google の AI ハイパーコンピュータの進歩の一部は、データ センターにおける液体冷却への取り組みによって可能になりました。
Google は、業界の最新技術となるずっと前から、10 年近くにわたってこの取り組みを継続してきました。現在、液冷システム用に展開されている Google のフリートの総容量は、ほぼ 1 ギガワット規模へと拡大を続けています。この容量は、他のフリートの 70 倍近くです。
これを根底で支えるのは、Google のインフラストラクチャを世界中に接続する巨大なネットワークです。Google のネットワークは、他のクラウド プロバイダの実に 10 倍以上の規模を持つ、全長 320 万 km を超える陸上および海底光ファイバー ケーブルによって接続されています。
今後も、Google は AI イノベーションを推進し、最先端の機能を提供するために必要な投資を継続していきます。
検索のワクワクするような進化
私たちが投資とイノベーションにおいて最も注力している領域のひとつが、Google 創業時からの製品である検索です。25 年前、インターネット上の情報を人々が理解できるよう、Google は検索を開発しました。
プラットフォームの移り変わりに合わせて、ユーザーの質問により良い回答を提供できるよう、Google は新しい技術を開発してきました。モバイルでは、より適切なコンテキスト、位置把握、リアルタイム情報を使用して、新しい種類の質問と回答を引き出しました。自然言語理解とコンピュータ ビジョンの進歩により、声や鼻歌で曲を検索したり、散歩中に見つけた花を撮影して調べたりといった、まったく新しい検索方法が可能になりました。さらに、かこって検索の機能を使って、新しい靴を購入するといったこともできるようになりました。
Gemini 時代の検索は、Google のインフラストラクチャの強み、最新の AI 機能、情報品質に対する高い基準、そして豊かな Web にユーザーをつなげる Google の数十年にわたる経験を組み合わせることで、まったく新しいレベルに引き上げられるでしょう。その結果として、人々の役に立つ製品が生まれます。
Google 検索は、人間の好奇心の大きさによって生成される AI です。そして、これは検索における最もワクワクする進化です。詳細については、Liz Reid による「Gemini 時代の検索」をご覧ください。
よりインテリジェントな Gemini 体験
Gemini は単なる会話型 AI ではありません。Gemini は、複雑なタスクに取り組み、ユーザーに代わってアクションを実行することができる、パーソナルで便利なアシスタントとして設計されています。
Gemini との対話は、会話的で直感的でなければなりません。このビジョンを実現に近づけるために、ライブチャット という新しい体験を発表します。ライブチャット では、音声会話で Gemini と詳細な会話ができるようになります。また、今年後半には 200 万個のトークンを Gemini Advanced に導入し、動画や長いコードなどの超高密度ファイルのアップロードと分析を可能にする予定です。詳細については、Sissie Hsiao によるこちらの記事をご覧ください。
Android 向けの Gemini
世界中の数十億人の Android ユーザーに向けて、さらに統合された Gemini のユーザー体験を提供できることを嬉しく思います。新しい AI アシスタントとして、Gemini はいつでもどこでもユーザーをサポートします。Google は、最新のオンデバイス モデルを含む Gemini モデルを Android に組み込みました。マルチモダリティを備えた Gemini Nano は、テキスト、画像、音声、言語を処理して、デバイス上の情報をプライベートに保ちながら新しいエクスペリエンスを引き出します。Sameer Samat による Android の最新情報は、こちらをご覧ください。
AI に対する責任あるアプローチ
私たちは、AI の可能性にワクワクしています。また、これからも 私達は AI における大胆でありつつも責任ある取り組みを継続します。Google はすべてのモデルの改善に、Google DepMind の AlphaGo に代表される進歩を活用した AI レッド チームと呼ばれる最先端の技術を開発しています。さらに、SynthID などのデジタル電子透かしの革新により、AI 生成コンテンツの識別が容易になり、テキストと動画という 2 つの新しいモダリティを拡張しました。詳細については、James Manyika によるこちらの記事をご覧ください。
未来を共に創造
これらすべての取り組みは、AI をすべての人にとって役立つものにするために、Google の大胆かつ責任あるアプローチの重要な進歩を示すものです。
Google は、長年 AI ファーストのアプローチをとってきました。Google による数十年にわたる研究のリーダーシップは、Google と業界における AI の進歩を推進する最新のブレークスルーを多く生み出してきました。加えて Google は、
- AI 時代に向けて構築された世界最高のインフラストラクチャ
- Gemini を活用した検索における最先端のイノベーション
- 5 億人のユーザーを持つ 15 製品を含む、大規模かつ役立つ製品の数々
- パートナー、顧客、クリエイター、そして誰もが未来を革新することができるプラットフォーム
この進歩は、素晴らしい開発者コミュニティによって実現しています。皆さんが日々開発される体験やアプリケーションを通じ、進歩が現実のものになっています。会場の皆さん、そして世界中で視聴された数百万人の皆さん、これからも未来の可能性を一緒に創造していきましょう。