メインページに戻る
Japan Blog

Gemini Robotics を発表、AI を物理世界へ

Gemini Robotics のイメージ

Gemini 2.0 を基盤としたロボット工学向けの AI モデル、Gemini Robotics を発表

Google DeepMind は、ロボット工学のために設計された、Gemini 2.0 を基盤とする新しい AI モデル「Gemini Robotics」を発表しました。

Google DeepMindは、テキスト、画像、音声、動画といった多様な情報を理解するマルチモーダル推論を通じて、Gemini が複雑な課題をいかに解決できるかという点で革新してきましたが、これらの能力は、主にデジタル領域での活用に留まっていました。AI が物理的な世界で人々の役に立ち、真の支援となるためには、周囲の環境を理解し、それに応じて適切に反応する人間のような「身体性」推論能力が不可欠です。さらに、安全かつ確実に目的を達成するための行動能力も求められます。

Gemini 2.0を基盤とする、次世代の有用なロボットの実現に不可欠となる 2 つの新しい AI モデル、Gemini Robotics と Gemini Robotics-ER を発表します。

Gemini Robotics は、Gemini 2.0を基盤とし、ロボットを直接制御することを目的に、物理的な動作を新たな出力形式として加えた、高度な視覚・言語・行動(VLA)モデルです。 Gemini Robotics-ER は、高度な空間認識能力を備えた Gemini モデルで、ロボット研究者が Gemini の身体性推論(Embodied Reasoning, ER)能力を活用して、独自のプログラムを実行できるよう設計されています。

これらの2つのモデルは、いずれも様々なロボットが、これまで以上に広範な現実世界のタスクを実行することを可能にします。この取り組みの一環として、私たちはApptronik 社と提携し、Gemini 2.0 を搭載した次世代の人型ロボットの開発を進めています。また、Gemini Robotics-ER の発展に向けて、信頼できるテスターの方々との協力も開始しています。

私たちは、モデルの能力をさらなる探求と、実用化に向けた開発を続けていくことを楽しみにしています。

Gemini Robotics:最も先進的な視覚・言語・行動モデル

ロボット工学向けの AI モデルが人々の役に立ち、真に有用であるためには、3つの重要な性質が求められます。まず、多様な状況に適応できる能力である汎用性です。そして、指示や周囲の環境変化を迅速に理解し、対応できる能力であるインタラクティブ性です。最後に、人が通常手や指で行うような、例えば注意深く物体を操作するなどの繊細な作業を実行できる能力である器用さです。

私たちの過去の研究においてもこれらの分野で進展が見られましたが、Gemini Robotics はこれら 3 つの重要な側面すべてにおいて大幅な性能向上を実現しており、汎用的なロボットの実現に向けて大きく前進しました。

汎用性

Gemini Robotics は、Gemini の高度な世界理解能力を活かし、新しい状況に柔軟に対応します。事前の特別な訓練なしに、これまで見たことのない多様なタスクをすぐに解決できるのが特徴です。また、新しい物体、様々な指示、そして未知の環境への適応力にも優れています。

技術報告書では、包括的な汎化性能ベンチマークにおいて、Gemini Robotics は他の最先端の視覚・言語・行動モデルと比較して、平均して 2 倍以上の性能向上を示しており、その卓越した汎用性を実証しています。

インタラクティブ性

変化し続ける現実の世界でロボットが機能するためには、人々と周囲の環境と円滑にやり取りし、その場で起こる変化に即座に適応できる必要があります。

Gemini 2.0 を基盤として構築されている Gemini Robotics は、直感的でインタラクティブな操作が可能です。Gemini の高度な言語理解能力により、日常会話のような自然な言葉で表現された指示はもちろん、様々な言語によるコマンドも理解し、適切に応答することができます。

Gemini Robotics は、以前のモデルと比較して、はるかに広範な自然言語による指示を理解し、応答することができます。さらに、ユーザーの入力に応じて、その行動を柔軟に変化させることが可能です。

また、周囲の状況を常に監視し、環境や指示の変化を的確に捉え、それに応じて自身の行動を調整します。このような制御性、すなわち「操作性(steerability)」は、人々がロボットアシスタントとより円滑に連携する上で非常に重要であり、家庭から職場まで、様々な場面での活躍が期待されます。

もし物体が掴んだ手から滑り落ちたり、誰かが物を動かしたりといった予期せぬ事態が発生した場合でも、Gemini Robotics は迅速に計画を立て直し、処理を継続することができます。これは、予測不可能な出来事が日常的に起こりうる現実世界において、ロボットにとって極めて重要な能力と言えます。

器用さ

有用なロボットを構築するための3つ目の重要な要素は、その器用さです。人間が容易に行う多くの日常的な作業は、驚くほど繊細な運動能力を必要とし、現在のロボットにとっては依然として困難な課題です。

しかし、Gemini Robotics は、これとは対照的に、折り紙を折る、スナックをジップロックの袋に詰めるなど、精密な操作が求められる非常に複雑な多段階のタスクに取り組むことができます。

多様な形態

最後に、ロボットには様々な形状とサイズが存在するため、Gemini Robotics は多様な種類のロボットに容易に適応できるよう設計されています。私たちは主に二腕ロボットプラットフォームである ALOHA 2 のデータを用いてモデルをトレーニングしましたが、多くの研究室で利用されている Franka アームをベースとした二腕プラットフォームの制御も可能であることを実証しました。

Gemini Robotics は、さらに複雑な形態にも対応できるよう特化させることも可能です。例えば、Apptronik 社が開発した人型ロボット Apollo のようなものでも、現実世界のタスクを遂行することを目標としています。

Gemini の世界理解の強化

Gemini Robotics と並行して、私たちは Gemini Robotics-ER (「Embodied Reasoning(エンボディード・リーズニング、身体性推論)」の略)という高度な視覚・言語モデルを発表します。このモデルは、ロボット工学に必要となる形でGemini の世界理解を強化するもので、特に空間推論に重点を置いています。これにより、ロボット研究者は既存の低レベル制御と容易に連携させることが可能です。

Gemini Robotics-ER は、ポインティングや 3D 検出といった Gemini 2.0 が持つ既存の能力を大幅に向上させます。空間推論と Gemini のコーディング能力を組み合わせることで、Gemini Robotics-ER は全く新しい能力を即座に実現できます。例えば、コーヒーカップを見せると、モデルは取っ手を持って持ち上げるための適切な二本指の掴み方と、安全な接近軌道を直感的に理解することができます。

Gemini Robotics-ER は、知覚、状態推定、空間理解、計画、コード生成など、ロボットを初期状態からすぐに制御するために必要なあらゆるステップを実行できます。このようなエンドツーエンドの設定において、このモデルは Gemini 2.0 と比較して 2 倍から 3 倍の成功率を達成しています。さらに、コード生成だけでは不十分な場合でも、Gemini Robotics-ER は文脈内学習を活用し、わずかな人間のデモンストレーションパターンに従って適切な解決策を提供することが可能です。

Gemini Robotics-ER は、物体検出や物体の一部の指示、対応点の発見、そして3Dでの物体検出を含む、身体性推論能力に優れています。

責任あるAIとロボット工学の発展

AI とロボット工学の継続的な可能性を探求するにあたり、私たちは低レベルのモーター制御から高レベルのセマンティック理解に至るまで、研究における安全性に取り組むために、多層的かつ包括的なアプローチを採用しています。

ロボットとその周囲の人々の物理的な安全は、ロボット工学において長年にわたり最も重要な懸念事項の一つです。そのため、ロボット研究者は、衝突回避、接触力の制限、移動ロボットの動的安定性の確保といった安全対策を講じてきました。Gemini Robotics-ER は、それぞれの特定の形態に固有の安全性を重視したコントローラーと連携することが可能です。さらに、Gemini の中核となる安全機能に基づき、Gemini Robotics-ER が、特定の状況下において潜在的な行動が安全かどうかを理解し、適切な応答を生成できるように設計しています。

学術界と産業界全体でロボットの安全研究を推進するため、私たちはエンボディード AI とロボット工学におけるセマンティックな安全性を評価し、改善するための新しいデータセットも公開しています。以前の研究では、アイザック・アシモフのロボット工学三原則に触発されたロボット憲章が、大規模言語モデル(LLM)に対して、ロボットにとってより安全なタスクを選択させる上でいかに有効であるかが示されました。その後、私たちはロボットの行動を制御するために、自然言語で直接表現されたルールである、データ駆動型の憲章を自動的に生成するフレームワークを開発しました。このフレームワークにより、人々は憲章を作成、修正、適用することで、より安全で人間の価値観に沿ったロボットを開発できるようになります。最後に、新しい ASIMOV データセットは、研究者が現実世界のシナリオにおけるロボットの行動の安全性の影響を厳密に測定するのに役立ちます。

私たちの研究が社会に与える影響をさらに深く理解するために、責任ある開発とイノベーションチームの専門家や、AI アプリケーションを責任ある方法で開発することを確認する内部機関 Responsibility and Safety Councilと連携しています。また、ロボット工学アプリケーションにおけるエンボディード AI がもたらす特有の課題と機会について、外部の専門家とも意見交換を行っています。

Apptronik 社との提携に加え、Gemini Robotics-ER モデルは、Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Toolsといったテスターにも提供されています。私たちは、モデルの能力を探求し、次世代のより役立つロボットのための AI 開発を継続していくことを楽しみにしています。