DolphinGemma: l'AI di Google per decifrare la comunicazione dei delfini
Comprendere i clic, i fischi e le sequenze di impulsi dei delfini ha rappresentato per decenni una vera e propria sfida scientifica. Ma cosa succederebbe se potessimo non solo ascoltare, ma decifrare i modelli della loro articolata comunicazione fino al punto di generare risposte plausibili? Oggi Google, in collaborazione con i ricercatori del Georgia Tech e il lavoro sul campo del Wild Dolphin Project (WDP), presenta i progressi compiuti con DolphinGemma: un modello di intelligenza artificiale innovativo, specificamente addestrato per interpretare la struttura delle vocalizzazioni dei delfini e produrre nuove sequenze sonore che le imitano fedelmente. Questa strategia, volta a svelare i segreti della comunicazione tra le specie, amplia le frontiere dell'intelligenza artificiale e le potenzialità del nostro legame con l'ambiente marino.
Decenni di ricerca sulla rete sociale dei delfini
Per comprendere a fondo una specie è necessario un contesto approfondito, e questo è uno degli aspetti fondamentali forniti dal WDP. Dal 1985, il WDP conduce il più longevo progetto di ricerca subacquea sui delfini, studiando una specifica comunità di stenelle maculate atlantiche selvatiche (Stenella frontalis) alle Bahamas, seguendole nel corso delle generazioni. Questo approccio non invasivo, basato sull'osservazione "nel loro mondo, alle loro condizioni", ha permesso di raccogliere un insieme di dati unico e incredibilmente ricco: decenni di registrazioni video e audio subacquee, accuratamente associate all'identità di ogni delfino, alla sua storia di vita e ai comportamenti osservati.
Un gruppo di stenelle maculate atlantiche, Stenella frontalis.

Uno degli obiettivi principali del WDP è osservare e analizzare la comunicazione naturale e le interazioni sociali dei delfini. Lavorare sott'acqua permette ai ricercatori di collegare direttamente i suoni a specifici comportamenti, cosa impossibile con la sola osservazione in superficie. Per decenni, hanno messo in relazione diversi tipi di suoni con i rispettivi contesti comportamentali. Ecco alcuni esempi:
- I fischi firma (nomi unici) che possono essere usati da madri e piccoli per riunirsi
- "Squawk” intermittenti spesso osservati durante i conflitti
- "Buzz" di clic (suoni ad alta frequenza) spesso usati durante il corteggiamento o l'inseguimento degli squali
L'obiettivo finale di questo lavoro osservativo è comprendere la struttura e il potenziale significato all'interno di queste sequenze sonore naturali — cercando modelli e regole che potrebbero indicare un linguaggio. Questa analisi a lungo termine delle forme di comunicazione naturale costituisce la base della ricerca del WDP e fornisce un contesto essenziale per qualsiasi analisi di intelligenza artificiale.
A sinistra: una stenella maculata adulta osserva il suo cucciolo mentre cerca cibo. Userà il suo fischio firma unico per richiamare il cucciolo quando avrà finito. A destra: uno spettrogramma per visualizzare il fischio.

Il ruolo di DolphinGemma
L'analisi della complessa e naturale comunicazione dei delfini rappresenta una sfida considerevole, e il database etichettato del WDP offre un'opportunità eccezionale per l'intelligenza artificiale più avanzata.
È qui che entra in gioco DolphinGemma. Sviluppato da Google, questo modello di intelligenza artificiale sfrutta specifiche tecnologie audio: il tokenizer SoundStream codifica efficientemente i suoni dei delfini, che vengono poi elaborati da un'architettura di modello ideale per sequenze complesse. Questo modello, con circa 400 milioni di parametri, è dimensionato in modo ottimale per essere eseguito direttamente sui telefoni Pixel utilizzati dal WDP sul campo.
Fischi (a sinistra) e sequenze di impulsi (a destra) generati durante le prime fasi di test di DolphinGemma.

Questo modello trae ispirazione da Gemma, la famiglia di modelli open source leggeri e all'avanguardia di Google, sviluppati a partire dalla stessa ricerca e tecnologia che alimenta i nostri modelli Gemini. Addestrato estesamente sul database acustico del WDP riguardante le stenelle maculate atlantiche selvatiche, DolphinGemma funziona come un modello audio-in, audio-out, elabora sequenze di suoni naturali di delfini per identificare modelli, strutture e, in ultima analisi, prevedere i suoni che con maggiore probabilità seguiranno in una sequenza. Questo processo è molto simile a come i grandi modelli linguistici per il linguaggio umano anticipano la parola o il token successivo in una frase.
Il WDP sta iniziando a utilizzare DolphinGemma in questa stagione sul campo, con potenziali benefici immediati. Grazie all'identificazione di schemi sonori ricorrenti, cluster e sequenze affidabili, il modello può assistere i ricercatori nello svelare strutture nascoste e possibili significati all'interno della comunicazione naturale dei delfini — un compito che finora richiedeva un incredibile sforzo umano. In prospettiva, questi schemi, arricchiti con suoni sintetici creati dai ricercatori per indicare oggetti con cui i delfini interagiscono volentieri, potrebbero gettare le basi per un vocabolario condiviso con i delfini ai fini di una comunicazione interattiva.
Gli smartphone Pixel per ascoltare e analizzare i suoni dei delfini
Parallelamente all'analisi della comunicazione naturale, il WDP sta seguendo un percorso distinto e complementare: esplorare la potenziale interazione bidirezionale sfruttando la tecnologia in ambiente oceanico. Questo impegno ha condotto allo sviluppo del sistema CHAT (Cetacean Hearing Augmentation Telemetry), realizzato in collaborazione con il Georgia Institute of Technology. CHAT è un computer subacqueo progettato non per decifrare direttamente il complesso linguaggio naturale dei delfini, bensì per stabilire un vocabolario condiviso più elementare.
L'idea di base consiste nell'associare nuovi fischi sintetici (generati da CHAT e differenti dai suoni naturali dei delfini) a specifici oggetti che i delfini gradiscono, come il sargasso, l'erba marina o le sciarpe impiegate dai ricercatori. Attraverso dimostrazioni del sistema tra esseri umani, i ricercatori auspicano che i delfini, mossi dalla loro naturale curiosità, impareranno a imitare i fischi per richiedere tali oggetti. In futuro, con una maggiore comprensione dei suoni naturali dei delfini, anche questi potranno essere integrati nel sistema.
Per rendere possibile l'interazione bidirezionale, il sistema CHAT deve innanzitutto:
- Rilevare con precisione l'imitazione sonora nonostante il rumore dell'oceano..
- Identificare in tempo reale quale specifico fischio è stato imitato.
- Comunicare al ricercatore (attraverso cuffie a conduzione ossea utilizzabili sott'acqua) l'oggetto che il delfino ha "richiesto".
- Consentire al ricercatore di rispondere prontamente offrendo l'oggetto desiderato, consolidando così l'associazione appresa.
Un Google Pixel 6 ha elaborato l'analisi ad alta fedeltà dei suoni dei delfini in tempo reale. La prossima generazione, basato su un Google Pixel 9 (la cui ricerca è programmata per l'estate 2025), si basa su questo lavoro integrando le funzionalità di altoparlante e microfono e utilizzando l'elaborazione avanzata del telefono per eseguire contemporaneamente sia modelli di deep learning che algoritmi di corrispondenza di template.
A sinistra: la Dott.ssa Denise Herzing indossa “Chat Senior, 2012”, a destra: lo studente di dottorato del Georgia Tech Charles Ramey indossa “Chat Junior, 2025”

L'impiego di smartphone Pixel riduce drasticamente la necessità di hardware specifico, migliora la facilità di manutenzione del sistema, abbassa il consumo energetico e abbatte i costi e le dimensioni del dispositivo — vantaggi di fondamentale importanza per la ricerca sul campo in mare aperto. Parallelamente, la capacità predittiva di DolphinGemma può assistere CHAT nell'anticipare e identificare potenziali imitazioni nelle prime fasi della sequenza di vocalizzazione, incrementando la velocità di reazione dei ricercatori nei confronti dei delfini e rendendo le interazioni più immediate e costruttive.
Condividere DolphinGemma con la comunità di ricerca
Consapevoli dell'importanza della collaborazione nella scoperta scientifica, prevediamo di rendere disponibile DolphinGemma come modello open source nel corso di quest'estate. Pur essendo stato addestrato sui suoni delle stenelle maculate atlantiche, riteniamo che possa rivelarsi utile anche per i ricercatori che studiano altre specie di cetacei, come i tursiopi o gli stenelle dal lungo rostro. È possibile che per le vocalizzazioni di specie diverse si renda necessario un affinamento, e la natura aperta del modello ne agevola l'adattamento.
Mettendo a disposizione strumenti come DolphinGemma, auspichiamo di fornire ai ricercatori di tutto il mondo gli strumenti per analizzare i propri set di dati acustici, accelerare l'individuazione di schemi e approfondire collettivamente la nostra comprensione di questi intelligenti mammiferi marini.
Il percorso verso la piena comprensione della comunicazione dei delfini è ancora lungo, ma la sinergia tra la ricerca sul campo dedicata del WDP, l'esperienza ingegneristica del Georgia Tech e la potenza della tecnologia di Google sta aprendo nuove e promettenti prospettive. Non ci limitiamo più ad ascoltare: stiamo iniziando a decifrare i modelli all'interno dei suoni, aprendo la strada a un futuro in cui il divario tra la comunicazione umana e quella dei delfini potrebbe ridursi un po’.
Per saperne di più, visitate il sito web del Wild Dolphin Project.