La nostra vision sulla creazione di un assistente AI universale

Negli ultimi dieci anni, abbiamo posto molte delle basi per l’era moderna dell’AI: dall’ideazione dell’architettura Transformer, su cui si basano tutti i modelli linguistici di grandi dimensioni (LLM), allo sviluppo di sistemi di agenti in grado di comprendere e pianificare come AlphaGo e AlphaZero.
Abbiamo applicato queste tecniche per ottenere importanti progressi nel campo del quantum computing, nella matematica, nelle scienze biologiche e nella scoperta algoritmica. E continuiamo a investire con determinazione sull'ampiezza e sulla profondità della nostra ricerca fondamentale, con l'obiettivo di sviluppare le prossime grandi innovazioni necessarie al progresso dell’intelligenza artificiale generale (AGI).
E’ per questo che stiamo lavorando per estendere il nostro miglior modello multimodale di base, Gemini 2.5 Pro, affinchè diventi un “modello globale” capace di pianificare e immaginare nuove esperienze comprendendo e simulando aspetti del mondo, proprio come fa il cervello umano.
Stiamo facendo progressi in questa direzione già da tempo, a partire dal nostro lavoro pionieristico nell'addestrare agenti in grado di padroneggiare giochi complessi come Go e StarCraft, fino a costruire Genie 2, capace di generare ambienti 3D simulati e interattivi a partire da un semplice prompt visivo.
Già ora possiamo osservare segnali di queste capacità emergere nell’abilità di Gemini di utilizzare la conoscenza del mondo e il ragionamento per rappresentare e simulare ambienti naturali, nella comprensione profonda della fisica intuitiva da parte di Veo e nel modo in cui Gemini Robotics insegna ai robot ad afferrare oggetti, seguire le istruzioni e adattarsi rapidamente.
Rendere Gemini un modello globale è un passo fondamentale nello sviluppo di una nuova forma di AI più generale e utile - un assistente AI universale. Si tratta di un AI intelligente, in grado di comprendere il contesto in cui vi trovate e che può pianificare e svolgere azioni per vostro conto, secondo la vostra richiesta, tramite qualsiasi dispositivo.
Trasferire le funzionalità live di Project Astra nei nostri prodotti
La nostra vision finale è trasformare l’app di Gemini in un assistente AI universale che si occuperà delle attività quotidiane al posto nostro, gestirà le incombenze amministrative più noiose e ci proporrà nuove e piacevoli raccomandazioni – rendendoci più produttivi e arricchendo le nostre vite.
Tutto questo parte dalle funzionalità che abbiamo iniziato a esplorare lo scorso anno con il nostro prototipo di ricerca, Project Astra, come la comprensione dei video, la condivisione dello schermo e la memoria.
Nel corso dell’ultimo anno, abbiamo integrato funzionalità come queste in Gemini Live affinché oggi sempre più persone possano sperimentarle. Continuiamo a migliorare senza sosta ed esplorare innovazioni all’avanguardia. Ad esempio, abbiamo reso la voce più naturale grazie a un output audio nativo, migliorato la memoria e aggiunto il controllo del computer.
Stiamo attualmente raccogliendo feedback su queste funzionalità da tester fidati e lavorando per portarle in Gemini Live, in nuove esperienze nella Ricerca Google, nel Live API per sviluppatori e in nuovi formati, come gli occhiali.
In ogni fase di questo processo, la sicurezza e la responsabilità sono al centro del nostro lavoro. Abbiamo recentemente condotto un ampio progetto di ricerca su problemi etici riguardanti gli assistenti AI avanzati e questo lavoro continua a guidare la nostra ricerca, lo sviluppo e la distribuzione.
Sviluppare un’ AI multitasking
Abbiamo anche esplorato come le capacità agentiche possano aiutare le persone a svolgere più attività contemporaneamente con Project Mariner. Si tratta di un prototipo di ricerca che indaga il futuro dell’interazione tra esseri umani e agenti, a partire dai browser.
A partire dalla presentazione di Project Mariner lo scorso dicembre, abbiamo lavorato a stretto contatto con un gruppo di tester fidati per raccogliere feedback e migliorare le sue funzionalità sperimentali.
Project Mariner include ora un sistema di agenti in grado di svolgere fino a dieci attività contemporaneamente. Questi agenti possono aiutarvi a cercare informazioni, effettuare prenotazioni, fare acquisti, condurre ricerche e molto altro — tutto allo stesso tempo.
La versione aggiornata di Project Mariner è disponibile per gli abbonati a Google AI Ultra negli Stati Uniti. Stiamo integrando le sue capacità di utilizzo del computer nel Gemini API e abbiamo in programma di portare ulteriori sue funzionalità in altri prodotti Google nel corso dell’anno.
Scopri di più sulle nostre capacità agentiche in Ricerca Google e nell’app di Gemini.
Grazie a questo, e a tutto il nostro lavoro rivoluzionario, stiamo costruendo un AI più personale, proattiva e potente — capace di arricchire le nostre vite, accelerare il progresso scientifico e inaugurare una nuova età dell’oro fatta di scoperte e di meraviglia.