最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
Google / Alphabet CEO Sundar Pichaiからのメッセージ
すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。
世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。
私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなっています。現在、多くの人々が Google の製品で生成 AI を利用し、より複雑な問題の答えの検索から、新しいツールを活用したコラボレーションや創作まで、1 年前にはできなかったことを行っています。同時に、開発者は Google のモデルとインフラストラクチャを活用して新しい生成 AI アプリケーションを構築しており、世界中のスタートアップや企業が Google の AI ツールで成長しています。
これらは既に信じられない出来事ですが、私たちは可能性のほんの一部にしかまだ到達していません。
私たちは大胆かつ責任を持って AI の取り組みを進めています。それは、研究に野心的に向き合い、人々と社会に利益をもたらすことを追求すると同時に、AI の能力の向上に応じて安全性を組み込み、政府や専門家と協力してリスクに対処することを意味します。そして、Google は AI 原則に基づいて、最高のツール、基盤モデル、インフラストラクチャへの投資を継続し、それらを製品に導入し提供していきます。
多くの主要ベンチマークで優れた性能を実現した高性能かつ汎用的なモデルである Gemini とともに、私たちは次の一歩を踏み出しました。最初のバージョンである Gemini 1.0 は、Ultra、Pro、Nano の 3 サイズに最適化されています。これらは Gemini 時代の最初のモデルであり、今年初めに Google DeepMind を設立したときに、私たちが抱いていたビジョンを初めて実現したものです。この新時代のモデルは、Google が企業として取り組んできたサイエンスおよびエンジニアリングの取り組みのなかでも最も大きなものです。私は、これから起こること、そして Gemini が世界中の人々にもたらす機会を心から楽しみにしています。
---Sundar
Gemini を発表
By Demis Hassabis, CEO and Co-Founder of Google DeepMind, on behalf of the Gemini team
多くの研究者と同様に、AI は私のライフワークの中心です。10 代の頃にコンピューター ゲーム用の AI をプログラミングして以来、そして神経科学の研究者として脳の働きを研究してきた長い年月を通じ、よりスマートなマシンを構築し活用できれば、人類に信じられないほどのメリットをもたらせると私は常に信じています。
責任を持って開発/実装された AI によって強化された世界という可能性が、Google DeepMind の取り組みを推進し続けています。私たちは長い間、人々が世界を理解し、世界と対話する方法からインスピレーションを得た、新世代の AI モデルを構築したいと考えてきました。AI は、賢いソフトウェアというよりも、より便利で直感的な、相談できる専門家または仲間のように感じられるようになるでしょう。
本日、そのビジョンに私たちを近づけてくれる、高性能 AI モデル Gemini を発表します。
Gemini は、Google Research のメンバーを含む Google 全体での大規模な共同研究の成果です。マルチモーダルとしてゼロから構築された Gemini は、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。
Gemini は、これまでで最も柔軟なモデルでもあり、データセンターからモバイル デバイスまであらゆる場所で効率的に動作します。最先端の機能により、開発者や企業が AI を構築および拡張する方法が大幅に強化されます。
私たちは、モデルの最初のバージョンである Gemini 1.0 を 3 つのサイズに最適化しました。
- Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
- Gemini Pro — 幅広いタスクに対応する最良のモデル
- Gemini Nano — デバイス上のタスクに最も効率的なモデル
最先端のパフォーマンス
私たちは Gemini を厳密にテストし、テキスト、ビジョン、音声、コーディングなどにわたるさまざまなタスクにおけるパフォーマンスを評価してきました。
自然な画像の理解から数学的推論、音声や動画の理解に至るまで、広く使用されている 32 の業界ベンチマークのうち 30 で、Gemini Ultra のパフォーマンスは既存の最高水準の結果を上回っています。
Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルです。
Gemini Ultra は、意図的な推論を必要とする異なるドメインにまたがるマルチモーダル タスクで構成される新しい MMMU ベンチマークでも、59.4% という最高水準のスコアを達成しました。私たちがテストした画像ベンチマークでは、Gemini Ultra はオブジェクト文字認識 (OCR) システムの支援なしで、以前の最高水準のモデルを上回りました。これらのベンチマークは、Gemini のネイティブでのマルチモーダリティを強調するとともに、より複雑な推論能力の初期徴候を示しています。
詳細については、Gemini テクニカル レポートをご覧ください。
Gemini は、さまざまなマルチモーダル ベンチマークで最高水準のパフォーマンスを上回ります。
次世代の機能
これまでのマルチモーダル モデルを作成する標準的なアプローチには、異なるデータの個別コンポーネントをトレーニングし、それらをつなぎ合わせてこの機能の一部を大まかに模倣することが含まれました。これらのモデルは、画像の説明などの特定のタスクの実行には優れていますが、より概念的で複雑な推論に苦労することがあります。
私たちは、Gemini をネイティブでマルチモーダルに対応できるように設計し、当初より異なるデータで事前学習させました。次に、追加のマルチモーダル データを使用してファインチューンし、その有効性をさらに洗練させました。これにより、Gemini はあらゆる種類の入力をゼロからシームレスに理解し、推論することができるようになりました。Gemini の能力は、既存のマルチモーダル モデルよりもはるかに優れており、ほぼすべてのドメインで最高水準です。
Gemini の性能や詳細についてはこちらをご確認ください。
高度な推論性能
Gemini 1.0 のマルチモーダルにも対応する高度な推論性能は、複雑な文字情報や視覚情報を理解するのに役立ちます。つまり、膨大な量のデータの中から識別するのが難しい知識を発見すること能力に長けています。
情報の読み取り、フィルタリング、理解を通じて数十万もの文書から洞察を抽出する Gemini の優れた能力は、科学から金融までの多くの分野において、デジタル技術の進化による新たな飛躍をもたらすのに役立ちます。
テキスト、画像、音声などを理解する
Gemini 1.0 は、テキスト、画像、音声などを同時に認識して理解できるようにトレーニングされているため、ニュアンスを含んだ情報をより理解し、複雑なトピックに関する質問に答えることができます。特に数学や物理学の推論の説明に優れています。
高度なコーディング
Gemini は、Python、Java、C++、Go など、世界で最も広く利用されているプログラミング言語の理解、説明、そして高品質なコードを生成できます。複数の言語を超えて機能し、複雑な情報を推論できるため、世界でも先進的なコーディング基盤モデルです。
Gemini Ultra は、重要な業界標準ベンチマークの HumanEval やウェブベースの情報ではなく著者生成のソースを使用した私たちの社内データセットである Natural2Code を含む複数のコーディング ベンチマークで優れた結果を残しています。
Gemini は、より高度なコーディング システムのエンジンとしても使用できます。2 年前にプログラミング コンテストで競争力のあるレベルのパフォーマンスに達した初の AI コード生成システムである AlphaCode を発表しました。
Gemini の特別なバージョンを使用し、より高度なコード生成システム AlphaCode 2 を開発しました。AlphaCode 2 は、コーディングを超えた複雑な数学や理論的なコンピューターサイエンスを含む、競技プログラミングの問題の解決に優れています。
オリジナルの AlphaCode と同じプラットフォームで評価した場合、AlphaCode 2 はほぼ 2 倍の問題を解決し、大幅な改善していますまた、コンテスト参加者の 85% よりも優れたパフォーマンスを示したことが推定されています ( AlphaCode の約 50% から増加)。プログラマーがAlphaCode 2に従うコード サンプルの特定プロパティを定義すると、パフォーマンスはさらに向上します。
私たちは、問題の推論、コード設計の提案、実装の支援における共同ツールとして、プログラマーの皆さまが高機能な AI モデルを活用する機会が増えることに期待しています。これにより、アプリのリリースや、より良いサービスの設計をより迅速に行えるようになるでしょう。
詳細については、AlphaCode 2 技術レポートをご覧ください。
信頼性、拡張性、効率性の向上
Google は、社内で設計された Tensor Processing Unit (TPU) v4 および v5e を使用して、AI に最適化されたインフラストラクチャ上で Gemini 1.0 を大規模にトレーニングしました。Gemini は、このトレーニングにおいて最も信頼性と拡張性が高く、最も効率的に運用できるモデルとして設計されています。
TPU では、Gemini は小型の従来モデルよりも大幅に高速に動作します。これらのカスタム設計の AI アクセラレータは、Google 検索、YouTube、Gmail、Google マップ、Google Play、Android など、数十億人のユーザーが使う Google の AI を活用した製品の中核です。また、世界中の企業が大規模な AI モデルをコスト効率よくトレーニングできるようになりました。
本日、最先端の AI モデルのトレーニング向けに設計された TPU システムである Cloud TPU v5pを発表します。 この次世代 TPU は Gemini の開発を加速させ、開発者や企業が大規模な生成 AI モデルをより迅速にトレーニングできるように支援します。これにより、新しい製品や機能をより早く提供できるようになります。
Google データセンターに並ぶ Cloud TPU v5p AI アクセラレータ スーパーコンピューター。
責任と安全性を中心に
Google は、あらゆる活動において大胆かつ責任ある AI の推進に取り組んでいます。Google の AI 原則と製品全体にわたる堅牢な安全ポリシーに基づいて、Gemini のマルチモーダル機能を考慮した新しい保護機能を追加しています。開発の各段階で、私たちは潜在的なリスクを検討し、それらのテストと軽減に取り組んでいます。
Gemini では、バイアスや有害性含め、これまでの Google AI モデルの中で最も包括的な安全性評価を行っています。私たちは、サイバー攻撃、扇動、自律性などの潜在的なリスク領域に関する新しい研究を実施し、Gemini の導入に先立って重大な安全上の問題を特定するために、Google Research のクラス最高の敵対的テスト技術を適用しました。
内部評価アプローチの盲点を特定するために、Google は外部の専門家やパートナーからなる多様なグループと協力して、さまざまな問題にわたってモデルのストレステストを実施しています。
Gemini のトレーニング段階でコンテンツの安全性の問題を診断し、その出力がポリシーに従っていることを確認するために、アレン研究所の専門家によって開発された Real Toxicity Prompts (ウェブから取得したさまざまな程度の有害性を持つ 100,000 のプロンプトのセット) などのベンチマークを使用しています。
Google は、危害を制限するために、暴力や否定的な固定概念などを含むコンテンツを識別、ラベル付け、分類する専用の安全分類子を構築しました。堅牢なフィルターと組み合わせたこの多層アプローチは、Gemini をすべての人にとってより安全でより包括的なものにするように設計されています。さらに、私たちは、事実性、根拠、帰属、裏付けなどのモデルに関する既知の課題にも継続的に取り組んでいます。
Google は、責任と安全を常にモデルの開発と提供の中心に据えています。それは、各業界や広範なエコシステムとの協力が必須となる長期的な取り組みです。MLCommons、Frontier Model Forumとその AI Safety Fund、および公共部門と民間部門にわたる AI システムに特有のセキュリティリスクを軽減するために設計された Google の Secure AI Framework (SAIF) とともに安全性とセキュリティのベンチマークとベストプラクティスを設定しています。私たちは、Gemini の開発にあたり、世界中の研究者、政府、市民社会団体と今後も協力していきます。
Gemini Pro と Google 製品
Gemini は、Google の各製品を通じて数十億人のユーザーに提供します。
本日より、理解と要約、推論、ブレインストーミング、文章編集、計画の立案など、Bard でできることが大幅に向上します。(英語版のみ)この Bard 提供以来最大のアップデートにより、Bard は、無料かつ高性能な会話型生成 AI サービスになります。170 以上の国と地域で英語で利用できます。また、今後数か月以内にさまざまなマルチモーダルデータに拡大し、新しい場所や言語のサポートを追加する予定です。
さらに、Gemini を Google Pixel に導入します。Google Pixel 8 Pro は、Gemini Nano を実行できるように設計された最初のスマートフォンです。Gemini Nano は、レコーダー アプリの要約などの新機能を強化するだけでなく、WhatsApp から始まる Gboard のスマート リプライにも展開され、来年にはさらに多くのメッセージング アプリに対応します(日本語対応は未定)。
今後数か月間をかけ、Gemini は Google 検索、広告、Chrome、Duet AI などの Google の主要な製品やサービスで利用できるようになります。
私たちはすでに Gemini in Search の試験運用を開始しています。これにより、ユーザーの検索生成エクスペリエンス (SGE) が高速化され、米国における英語版での遅延は 40% 削減され、品質も向上しました。
Gemini で構築する
12 月 13 日より、開発者や企業は、Google AI Studio または Vertex AI の Gemini API を介して Gemini Pro にアクセスできるようになります。
Google AI Studio は、API キーを使用してアプリのプロトタイプを迅速に作成し、起動するのに役立つ無料の Web ベースの開発者ツールです。フルマネージド AI プラットフォームが必要な場合は、Vertex AI を使用することで、完全なデータ コントロールを使用して Gemini をカスタマイズし、企業のセキュリティ、安全性、プライバシー、データガバナンスとコンプライアンスのための追加の Google Cloud 機能の恩恵を受けることができます。
Android 開発者は、AICore を介して、オンデバイス タスク用の最も効率的なモデルである Gemini Nano を使用して開発することもできます。AICore は、Google Pixel 8 Pro 以降の Android 14 で利用できる新しいシステムです。利用するには、早期プレビューにサインアップしてください。
Gemini Ultra を近日公開予定
Gemini Ultra については、信頼できる外部関係者によるレッドチームを含む広範な信頼性および安全性チェックを実施するとともに、展開前のファインチューンと人間のフィードバックによる強化学習 (RLHF) によってモデルのさらなる改良を行っています。
このプロセスの一環として、来年の開発者や企業への公開前に、初期実験とフィードバックを目的とし、一部の顧客、開発者、パートナー、安全責任専門家に Gemini Ultra を提供します。
来年には、Gemini Ultra で動作する、高性能モデルと機能にアクセスできる最先端の AI 体験を提供する Bard Advanced もリリース予定です。
Gemini :イノベーションの未来を実現
これは AI の開発における重要なマイルストーンであり、Google にとって新しい時代の始まりです。Google は、これからも革新を継続し、責任を持ってモデルを進化させ続けます。
Gemini の開発で大きな進歩を遂げています。現在、計画とメモリの進歩や、さらに多くの情報を処理するためのコンテキスト ウィンドウの増加など、その機能をさらに拡張する次世代モデルの Gemini のトレーニングも行っています。
私たちは、AI によって強化された世界の驚くべき可能性に大いに期待しています。これは、創造性を高め、知識を拡張し、科学を進歩させ、世界中の数十億の人々の生活と働き方を変革するイノベーションの未来です。Gemini についての詳細はこちらからご確認ください。