Gemini が新たな領域へ : より高速なモデル、ロング コンテキスト、AI エージェント
Google 初のネイティブ マルチモーダル モデルである Gemini 1.0 を、 Ultra、Pro、Nano の 3 種類のサイズで昨年の 12 月に公開しました。その数か月後には、パフォーマンスを強化し、 100 万トークンという画期的なロング コンテキスト ウィンドウを備えた 1.5 Pro を公開しました。
開発者や企業ユーザーは、1.5 Pro を驚くべき方法で活用しており、ロング コンテキスト ウィンドウ、マルチモーダル推論機能、優れた総合性能の有用性は高く評価されています。
ユーザーのフィードバックから、一部のアプリケーションでは、より低いレイテンシとサービス提供コストの低減が必要であることがわかっています。こうした需要は、Google に革新を続ける動機を与えています。そして本日、1.5 Pro よりも軽量かつ、大規模なサービスに高速かつ効率的に対応できるように設計されたモデル、Gemini 1.5 Flash を発表します。
1.5 Pro と 1.5 Flash はどちらも、Google AI Studio と Vertex AI で 100 万トークンのコンテキスト ウィンドウを備えたパブリック プレビューとしてご利用いただけます。そして今、1.5 Pro は、200 万トークンのコンテキスト ウィンドウでも、API を使用する開発者および Google Cloud ユーザー(ウェイティング リスト順)に提供されます。
また、Gemini ファミリーのモデルのアップデートとして、次世代のオープン モデルである Gemma 2 を発表し、Project Astra による AI アシスタントの将来に関する進捗状況をお知らせします。
Gemini ファミリー モデル全体のアップデート
スピードと効率を最適化した新しい 1.5 Flash
1.5 Flash が、Gemini モデル ファミリーに新たに加わりました。これは、API で提供される中で最も高速な Gemini モデルです。1.5 Flash は、大規模かつ高頻度のタスク向けに最適化されており、コスト効率が高く、画期的なロング コンテキスト ウィンドウを備えています。
1.5 Flash は、1.5 Pro よりも軽量なモデルですが、膨大な量の情報にわたるマルチモーダル推論の能力が高く、サイズ以上の優れた品質を実現します。1.5 Flash は、要約、チャット アプリケーション、画像や動画のキャプション、長い文書や表からのデータ抽出などに優れています。これは、1.5 Pro が蒸留(Distillation)呼ばれるプロセスを通じてトレーニングされているためです。このプロセスでは、より大きなモデルの最も重要な知識とスキルが、より小さく効率が高いモデルに転送されます。
1.5 Flash については、Gemini の技術サイトで、1.5 Flash の提供状況と価格については、こちらからご覧いただけます。そして より詳細については、もうすぐ公開する最新の Gemini 1.5 テクニカルレポートでご確認ください。
大幅に改良された 1.5 Pro
過去数か月にわたって、Google は幅広いタスクにわたる一般的なパフォーマンスを実現する最良のモデルである 1.5 Pro を大幅に改善しました。コンテキスト ウィンドウを 200 万トークンに拡張するだけでなく、データとアルゴリズムの進歩を通じて、コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解を強化しました。これらの各タスクの公開ベンチマークと内部ベンチマークでの結果が大幅に改善されています。
1.5 Pro は、役割、形式、スタイルなどといった製品レベルの動作を指定するものなど、より複雑で微妙な指示に従うことができるようになりました。Google は、チャット エージェントのペルソナや応答スタイルの作成、複数の関数呼び出しによるワークフローの自動化など、特定のユースケースに対するモデルの応答の制御を改善しました。また、ユーザーがシステム インストラクションを設定することでモデルの動作を制御できるようにしています。
また、Gemini API と Google AI Studio に音声理解を追加したことにより、1.5 Pro は Google AI Studio にアップロードされた動画の画像と音声を理解できるようになりました。
1.5 Pro の詳細については、Gemini の技術サイトをご覧いただけます。より詳細については、もうすぐ公開する最新の Gemini 1.5 テクニカルレポートでご確認ください。
マルチモダリティの Gemini Nano
Gemini Nano が、テキスト入力だけでなく、画像も含めるように拡張されました。マルチモダリティを備えた Gemini Nano を使用するアプリケーションは、テキスト入力だけでなく、視覚、聴覚、話し言葉を通じて、人間と同じように世界を理解できるようになります。この機能は、まず Google Pixel に向けて提供されます。
Android の Gemini 1.0 Nano についての詳細は、こちらをご覧ください。
次世代のオープンモデル
本日、Gemma の一連のアップデートも公開します。Gemma は、Gemini モデルの開発に用いられたリサーチとテクノロジーによって構築されたオープン モデル ファミリーです。
Google は、責任ある AI を開発するための次世代オープン モデルである Gemma 2 を発表します。Gemma 2 は、画期的なパフォーマンスと効率を実現するために設計された新たなアーキテクチャを備えており、新しいサイズで提供されます。
Gemma ファミリーは、PaLI-3 からインスピレーションを得た最初のビジョン言語モデルである PaliGemma によっても拡張されています。また、モデル応答の品質を評価するために、 責任ある生成 AI ツールキットをアップグレードし LLM Comparator を追加しました。
詳細については、開発者ブログをご覧ください。
AI エージェントの進捗状況
人類に利益をもたらすために責任を持って AI を構築するという Google DeepMind のミッションの一環として、Google は日常生活に役立つ汎用 AI エージェントを開発したいと常に考えてきました。本日、Project Astra という AI アシスタントの未来に対する開発における進捗状況をお知らせするのは、これが理由です( 高度な視覚と会話するエージェント)。
本当に役立つエージェントは、複雑でダイナミックな世界を人間と同じように理解し、対応する必要があります。また、コンテキストを理解して行動を起こすために、見聞きしたものを取り入れて記憶する必要があります。ユーザーが遅延なく自然に会話できるよう、AI アシスタントは、能動的で、教えやすいもので、かつパーソナルである必要があります。
Google は、マルチモーダルな情報を理解できる AI システムの開発で驚くべき進歩を遂げてきましたが、応答時間を会話的なものにまで短縮することは、エンジニアリング上の困難な課題です。ここ数年、Google はモデルが認識、推論、会話する方法を改善して、インタラクションのペースと質をより自然に感じられるよう、取り組みを継続してきました。
これらのエージェントは、Gemini モデルに基づいて構築されており、動画のフレームを継続的にエンコードし、動画と音声入力をイベントのタイムラインに結合し、効率的に呼び出せるようにキャッシュすることで、情報をより高速に処理するように設計されています。
Google の主要な音声モデルを活用することで、エージェントの音声が強化され、幅広いイントネーションが与えられました。これらのエージェントは、会話の中で使用されているコンテキストをよりよく理解し、迅速に応答することができます。
スマートフォンやスマートグラスを介して、優れたアシスタントをいつでも活用できる未来はすぐそこまできています。これらの機能の一部は、今年後半に Geminiアプリやウェブでの体験などの Google 製品に導入予定です。
探求の継続
Google はこれまで、Gemini モデルファミリーで驚くべき進歩を遂げてきましたが、常に最先端の技術を進化させるために取り組みを継続しています。絶え間ないイノベーションの生産ラインに投資することで、Google は最前線で新しいアイデアを探求すると同時に、新しくエキサイティングな Gemini 活用の可能性を解き放つことができます。
Gemini とその能力の詳細については、こちらをご覧ください。