DolphinGemma: イルカのコミュニケーション解読に取り組む Google の AI
イルカのクリックス、ホイッスル、バースト パルスを理解することは、数十年にわたり科学者たちが挑戦し続けてきた研究分野です。もし私たちが、イルカが発する音を聞き、彼らの複雑なコミュニケーションのパターンを十分に理解して、それに応答できるようになったらどうでしょうか。
Google はジョージア工科大学の研究者と Wild Dolphin Project(WDP)との共同フィールド研究により、イルカの発声構造を学習し、イルカのような音を生成するようにトレーニングした基盤 AI モデル DolphinGemma を発表しました。この取り組みは、種を超えたコミュニケーションの可能性を広げ、AI 技術の新たな応用と海洋世界とのつながりを探求します。
長年にわたるイルカ社会の研究
生物を本当に理解するためには、その生活環境に関する深い知識が必要です。これが、WDP の重要な貢献の一つです。1985 年から、WDP は世界で最も長く続く水中イルカ研究プロジェクトを継続しており、バハマに生息する野生のタイセイヨウマダライルカ(Stenella frontalis)の特定の群れを世代を超えて研究してきました。イルカを自然な環境で観察し、干渉を最小限に抑える「彼らの世界で、彼らの条件で」という研究方針により、豊富なデータが集まりました。何十年分の水中ビデオと音声記録には、各イルカの個体情報、生活歴、観察された具体的な行動パターンが詳細に記録されています。

WDP の主な研究テーマは、イルカの自然なコミュニケーションと社会的交流の観察と分析です。水中での調査によって、研究者は水面からはわからないイルカの音と特定の行動を直接観察できます。WDP は何十年もかけて、イルカが出す様々な音と、その音が使われる状況やタイミングとの関連性をを特定してきました。以下はいくつかの例です。
- 母親と子イルカが再会するためのシグネチャー ホイッスル(個体を識別する固有の音)
- 喧嘩中によく使われる「スクォーク」と呼ばれるバースト パルス
- 求愛行動やサメを追いかける際に使われる「バズ」と呼ばれるクリックス
正確な解釈には、どのイルカがどの音を出しているかを正確に把握することがが重要です。この研究の最終的な目標は、イルカの自然な発声の中にある構造とその意味を理解することです。つまり、音声パターンやルールが何らかの言語システムを示しているかを探ることです。この自然なコミュニケーションの長期的な観察と分析が WDP の研究の基礎となり、AI 技術の応用に不可欠な背景情報を提供しています。
左: 採餌中に子イルカを見守る母イルカ。子イルカが食べ終わった後、固有のシグネチャー ホイッスルで子イルカを呼び戻す 右: ホイッスルを視覚化するスペクトログラム

DolphinGemma について
イルカの自然で複雑なコミュニケーションを分析することは大変な作業ですが、WDP が長年にわたり収集し、ラベル付けされたデータセットは、最新の AI 技術を適用する機会になります。
そこで開発されたのが DolphinGemma です。Google が開発したこの AI モデルは、Google の特別な Google 音声技術を活用しています。SoundStream トークナイザーというシステムで、イルカの音を効率的にデジタル化し、複雑なパターン処理に適した AI モデル アーキテクチャで分析します。約 4 億のパラメータを持つこのモデルは、WDP が現場で使用する Google Pixel スマートフォンで直接動作するよう最適化されています。
DolphinGemma の初期テスト中に生成されたホイッスル(左)とバースト パルス

DolphinGemma は、Google の軽量でオープンな AI モデルである Gemma を基にしています。Gemma は、Google の Gemini モデルと同じ研究から生まれました。DolphinGemma は、WDP が収集した野生のタイセイヨウマダライルカの WDP の音声データでトレーニングされ、イルカの音声を入力して音声を出力するモデルとして機能します。人間の言語を処理する大規模言語モデルが文章の続きを予測するように、このモデルはイルカの音声パターンを分析します。
WDP は、今シーズンからこの DolphinGemma の試験導入を開始しています。このモデルは、繰り返し出現する音のパターンやまとまりを特定することで、これまで膨大な人手を要した作業を効率化し、イルカのコミュニケーションに隠された構造や意味の発見を助けます。将来的には、イルカが遊ぶ物体を表す音など、研究者が作成した合成音と組み合わせることで、イルカとの共通言語を確立できるかもしれません。
Google Pixel スマートフォンを使用したイルカの音声分析
自然なコミュニケーションの研究に加えて、WDP はもう一つの取り組みも進めています。それは、海中でのテクノロジーを使ったた双方向コミュニケーションの可能性を探ることです。この研究から、ジョージア工科大学と協力して、CHAT(Cetacean Hearing Augmentation Telemetry: 鯨類聴覚増強テレメトリー)システムを開発しました。CHAT は、水中で使えるコンピュータで、イルカの複雑な自然言語を直接解読するのではなく、より単純な共通語彙の確立を目指しています。
このシステムはまず、CHAT が作り出すイルカの自然な音とは異なる人工的なホイッスルを、イルカが好む特定の物体(サルガッサム、アマモなどの海藻や、研究者のスカーフなど)に関連付けます。研究者同士でこのシステムを使って実演することで、好奇心旺盛なイルカたちがこれらの物をリクエストするためにホイッスルを真似するようになることを期待しています。将来的に、イルカの自然な音声についての理解が深まれば、それらもシステムに組み込むことができます。
双方向のやり取りを実現するために、CHAT システムには、以下の機能が必要です。
- 海の騒音の中で、イルカの模倣音を正確に聞き取る
- リアルタイムでどのホイッスルが模倣されたかを特定する
- 水中でも使える骨伝導ヘッドフォンを通じて、イルカが「要求した」物体を研究者に伝える
- 研究者が素早く正しい物体を提供できるようにして、イルカとの関係を強化する
このシステムでは、Google Pixel 6 がリアルタイムにイルカの音を高精度に分析しました。2025 年夏に予定されている次世代のシステムでは、Google Pixel 9 を中心にスピーカーおよびマイク機能を統合し、スマートフォンの処理能力を活用してディープラーニング モデルとテンプレート マッチング アルゴリズムの両方を同時に実行することが可能になります。これにより、研究がさらに進化します。
右: 「CHAT Senior, 2012」を装着した Denise Herzing 博士、左: 「CHAT Junior, 2025」を装着したジョージア工科大学の博士課程に在籍する Charles Ramey 氏

Google Pixel スマートフォンを使用することで、カスタム ハードウェアの必要性が大幅に減り、システムのメンテナンスが容易になり、消費電力の削減、デバイスの小型化とコスト削減が実現します。これらは、外洋での調査にとって重要な利点です。また、DolphinGemma の予測能力により、イルカの発声の早い段階で模倣音を検出できるため、研究者のイルカに対する反応速度が向上し、よりスムーズなやり取りが可能になります。
DolphinGemma の研究コミュニティへの共有
科学的発見にはコラボレーションが重要だと考えており、今夏 DolphinGemma をオープンモデルとして公開する予定です。このモデルは、タイセイヨウマダライルカの音声でトレーニングされていますが、バンドウイルカやハシナガイルカなど、他のクジラ類を研究する研究者にも役立つと期待しています。種によって音声が異なるためファインチューニングが必要かもしれませんが、モデルのオープンな性質がこうした対応を容易にします。
DolphinGemma のようなツールを提供することで、世界中の研究者が自分たちの音声データを分析し、パターンの発見を加速し、これらの知的な海洋哺乳類への理解をともに深めていくことを願っています。
イルカのコミュニケーションを理解する道のりはまだ長いですが、WDP の現場研究、ジョージア工科大学のエンジニアリングに関する専門知識、そして Google のテクノロジーを組み合わせることで、新しい可能性が切り開かれています。私たちは単にイルカの声を「聞く」段階を超え、その音の中のパターンを理解し始めています。人間とイルカのコミュニケーションの隔たりが少しずつ縮まってきているのです。
Wild Dolphin Project の詳細については、こちらをご覧ください。