Ecco Gemini 2.0: il nostro nuovo modello di AI per l'era agenziale

11 Dic, 2024

Koray Kavukcuoglu

CTO of Google DeepMind

Demis Hassabis

CEO and Co-Founder, DeepMind

Una nota da Sundar Pichai, CEO di Google e Alphabet:

L’informazione è alla base del progresso umano. Per questo, da oltre 26 anni, lavoriamo per organizzare le informazioni del mondo, rendendole accessibili e utili. Oggi spingiamo i limiti dell’AI per organizzare queste informazioni da ogni input e renderle disponibili su qualsiasi piattaforma, offrendo un reale valore per tutti.

Questa visione ci ha guidati nel lancio di Gemini 1.0 lo scorso dicembre. Pensato come il primo modello nativamente multimodale, Gemini 1.0 e 1.5 hanno innovato nel campo della multimodalità e del contesto esteso, permettendo di elaborare e comprendere informazioni da testo, immagini, video, audio e codice in modo più efficace.

Milioni di sviluppatori stanno già creando con Gemini, aiutandoci a ripensare i nostri prodotti — tra cui i 7 che contano 2 miliardi di utenti — e a immaginarne di nuovi. Un esempio di ciò che la multimodalità e il contesto esteso possono fare è NotebookLM, amato da tantissime persone.

Nell’ultimo anno, abbiamo investito nello sviluppo di modelli più agentici, cioè in grado di comprendere meglio il mondo intorno a te, anticipare più passaggi e agire per tuo conto, sotto la tua supervisione.

Oggi siamo felici di lanciare Gemini 2.0, la nostra tecnologia più evoluta, pronta per un’era di AI ancora più versatile. Con output nativi per immagini e audio e strumenti integrati, Gemini 2.0 apre la strada verso l’assistente universale del futuro.

Gemini 2.0 è ora nelle mani di sviluppatori e tester fidati, mentre lavoriamo per integrarla rapidamente nei nostri prodotti, a partire da Gemini e dalla Ricerca Google. A partire da oggi, tutti gli utenti di Gemini potranno accedere al modello sperimentale Gemini 2.0 Flash. Inoltre, presentiamo Deep Research, una funzionalità progettata per aiutarti nelle ricerche complesse, sfruttando capacità di ragionamento avanzate e contesti lunghi per produrre report dettagliati per te. Questa funzionalità è ora attiva in Gemini Advanced.

Nessun prodotto è stato trasformato dall’AI più della Ricerca. AI Overview ora raggiunge 1 miliardo di persone, consentendo di porre domande completamente nuove — diventando in poco tempo una delle funzionalità della Ricerca più popolari di sempre. Come prossimo passo, porteremo le capacità di ragionamento avanzato di Gemini 2.0 in AI Overview per affrontare argomenti più complessi e domande multi-step, incluse equazioni matematiche avanzate, query multimodali e scrittura di codice. Abbiamo iniziato test limitati questa settimana e prevediamo un’implementazione più ampia all’inizio del prossimo anno. Continueremo inoltre a portare AI Overview in più paesi e lingue nel corso dell’anno successivo.

I progressi di Gemini 2.0 si basano su oltre un decennio di investimenti nel nostro esclusivo approccio full-stack all’innovazione nell’AI. Il modello è supportato da hardware su misura come Trillium, la nostra sesta generazione di TPU. Queste TPU hanno gestito interamente l’addestramento e l’inferenza di Gemini 2.0. A partire da oggi, Trillium è disponibile per tutti i clienti, permettendo loro di sfruttarne il potenziale.

Gemini 1.0 ci ha aiutato a organizzare e comprendere le informazioni, ma con Gemini 2.0 l’obiettivo è trasformarle in strumenti più utili. Non vedo l’ora di vedere il futuro che ci aspetta.

-Sundar

Nell'ultimo anno abbiamo continuato a compiere incredibili progressi nel campo dell'intelligenza artificiale. Oggi rilasciamo il primo modello della famiglia di modelli Gemini 2.0, una versione sperimentale di Gemini 2.0 Flash. È il nostro modello di riferimento con bassa latenza e prestazioni migliorate all'avanguardia della nostra tecnologia, su scala.

Stiamo anche condividendo i contorni della nostra ricerca sugli agenti mostrando prototipi basati sulle capacità multimodali native di Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash si basa sul successo di 1.5 Flash, il nostro modello più popolare per gli sviluppatori, con prestazioni migliorate e tempi di risposta altrettanto rapidi. Nello specifico, 2.0 Flash supera addirittura 1.5 Pro nei principali benchmark, con una velocità raddoppiata. Flash 2.0 è dotato anche di nuove funzionalità. Oltre a supportare input multimodali come immagini, video e audio, Flash 2.0 adesso supporta output multimodali come immagini generate in modo nativo mescolate con testo e audio multilingue di sintesi vocale (TTS) orientabile. Può inoltre richiamare in modo nativo strumenti come la Ricerca Google, l'esecuzione di codice e funzioni di terze parti definite dall'utente.

Il nostro obiettivo è fornire i nostri modelli alle persone in modo sicuro e veloce. Nell'ultimo mese abbiamo condiviso le prime versioni sperimentali di Gemini 2.0, ottenendo un ottimo feedback dagli sviluppatori.

Gemini 2.0 Flash è ora disponibile come modello sperimentale per gli sviluppatori tramite l'API Gemini in Google AI Studio e Vertex AI con input multimodale, output testuale e sintesi vocale e generazione nativa di immagini disponibile per i partner con accesso in anteprima. La disponibilità generale seguirà a gennaio, insieme ad altre dimensioni del modello.

Per aiutare gli sviluppatori a creare applicazioni dinamiche e interattive, stiamo rilasciando anche una nuova API Multimodal Live che offre audio in tempo reale, input di streaming video e la possibilità di utilizzare più strumenti combinati. Ulteriori informazioni su Flash 2.0 e sull'API Multimodal Live sono disponibili nel nostro blog per gli sviluppatori.

Gemini 2.0 disponibile nell’app Gemini, il nostro assistente AI

Inoltre, a partire da oggi, gli utenti Gemini di tutto il mondo possono accedere a una versione ottimizzata della chat di 2.0 Flash Experimental selezionandola nel menu a tendina dei modelli su desktop e web mobile e sarà presto disponibile nell'app mobile Gemini. Con questo nuovo modello, gli utenti potranno sperimentare un assistente Gemini ancora più utile.

All'inizio del prossimo anno, espanderemo Gemini 2.0 ad altri prodotti Google.

Sblocca le esperienze agenziali con Gemini 2.0

Le funzionalità dell'interfaccia utente nativa di Gemini 2.0 Flash, insieme ad altri miglioramenti come il ragionamento multimodale, la comprensione di un contesto lungo, la pianificazione e il controllo di istruzioni complesse, la chiamata di funzioni compositive, l'uso di strumenti nativi e la latenza migliorata, lavorano contestualmente per consentire una nuova classe di esperienze agenziali.

L'applicazione pratica degli agenti AI è un'area di ricerca ricca dalle possibilità interessanti. Stiamo esplorando questa nuova frontiera con una serie di prototipi che possono aiutare le persone a svolgere i propri compiti e a portarli termine. Tra questi, l'aggiornamento di Project Astra, il nostro prototipo di ricerca che esplora le capacità future di un assistente AI universale; il nuovo Project Mariner, che esplora il futuro dell'interazione essere umano-agente, a partire dal browser; e Jules, un agente con codice basato sull’AI che può aiutare gli sviluppatori.

Siamo ancora nelle prime fasi di sviluppo, ma non vediamo l'ora di scoprire come i tester di fiducia utilizzano queste nuove funzionalità e quali insegnamenti possiamo trarne, in modo da poterle rendere più ampiamente disponibili nei prodotti in futuro.

Project Astra: agenti che utilizzano la comprensione multimodale nel mondo reale

Da quando abbiamo presentato Project Astra all'I/O, abbiamo imparato da tester di fiducia che lo utilizzano su smartphone Android. Il loro prezioso feedback ci ha aiutati a capire meglio come potrebbe funzionare in pratica un’assistente AI universale, comprese le implicazioni per la sicurezza e l'etica. I miglioramenti dell'ultima versione realizzata con Gemini 2.0 includono:

Dialoghi migliori: Project Astra è ora in grado di conversare in più lingue e in lingue miste, con una migliore comprensione degli accenti e delle parole non comuni.
Utilizzo di nuovi strumenti: Con Gemini 2.0, Project Astra può utilizzare la Ricerca Google, Google Lens e Google Maps, diventando più utile come assistente nella vita quotidiana.
Memoria migliore: Abbiamo migliorato la capacità di Project Astra di ricordare le cose, pur lasciando il controllo all'utente. Ora ha fino a 10 minuti di memoria in sessione e può ricordare un numero maggiore di conversazioni avute in passato, in modo da essere più personalizzato per l'utente.
Latenza migliorata: Grazie alle nuove funzionalità di streaming e alla comprensione audio nativa, l'agente è in grado di comprendere il linguaggio con una latenza pari a quella di una conversazione umana.

Stiamo lavorando per portare questo tipo di funzionalità nei prodotti Google come l'app Gemini, il nostro assistente AI, e in altri fattori di forma come gli occhiali. Stiamo inoltre iniziando a espandere il nostro programma di tester di fiducia a un numero maggiore di persone, compreso un piccolo gruppo che presto inizierà a testare Project Astra su occhiali prototipo.

Project Mariner: strumenti per semplificare attività complesse

Project Mariner, un prototipo avanzato di ricerca costruito con Gemini 2.0, getta le basi per nuove modalità di interazione tra persone e agenti, partendo direttamente dal browser. Con un'estensione sperimentale per Chrome, è capace di leggere e interpretare ogni elemento sullo schermo, dalle immagini ai moduli, per aiutarti a portare a termine le tue attività.

Misurato rispetto al benchmark WebVoyager e pensato per valutare la capacità degli agenti di completare attività web reali, Project Mariner ha raggiunto un eccezionale 83,5% in modalità a singolo agente.

È ancora presto, ma Project Mariner dimostra che sta diventando tecnicamente possibile navigare in un browser, anche se al momento non è sempre preciso e richiede tempo per completare le attività; ciò migliorerà rapidamente col tempo.

Per garantire uno sviluppo sicuro e responsabile, stiamo esplorando nuovi rischi e soluzioni, mantenendo sempre il controllo umano. Ad esempio, Project Mariner opera solo sulla scheda attiva del browser e richiede la tua conferma finale per azioni delicate, come fare un acquisto..

Tester fidati stanno iniziando a provare Project Mariner tramite un'estensione sperimentale di Chrome, e parallelamente stiamo avviando conversazioni con l'ecosistema web.

Jules: agenti per sviluppatori

Con Jules, stiamo esplorando come gli agenti basati sull'AI possano diventare alleati preziosi per gli sviluppatori. Jules è un agente sperimentale che si integra direttamente nel flusso di lavoro su GitHub. Può prendere in carico un problema, proporre un piano e realizzarlo, sempre con la supervisione dello sviluppatore. Questo progetto si inserisce nel nostro obiettivo di lungo termine di sviluppare agenti basati sull'AI utili in ogni ambito, incluso quello della programmazione.

Per ulteriori dettagli su questo esperimento in corso, consulta il nostro post del blog per gli sviluppatori.

Agenti nei giochi e in altri domini Google

DeepMind ha una lunga storia di utilizzo dei giochi per aiutare i modelli di AI a migliorare nel seguire regole, pianificare e usare la logica. Solo la scorsa settimana, ad esempio, abbiamo introdotto Genie 2, il nostro modello di AI in grado di creare un’infinita varietà di mondi 3D giocabili — tutto a partire da una singola immagine. Basandoci su questa tradizione, abbiamo creato agenti usando Gemini 2.0 che possono aiutarti a navigare nel mondo virtuale dei videogiochi. Possono ragionare sul gioco basandosi esclusivamente sulle azioni visibili sullo schermo e offrire suggerimenti in tempo reale su cosa fare dopo attraverso una conversazione.

Collaboriamo con aziende produttrici di videogiochi leader come Supercell per studiare il funzionamento di questi agenti, verificandone le capacità nel gestire regole e sfide in giochi diversi, dai titoli strategici come "Clash of Clans" ai simulatori di fattoria come "Hay Day".

Questi agenti non si limitano a essere assistenti virtuali nei giochi: grazie alla Ricerca Google, ti connettono con tutta la conoscenza videoludica disponibile online.

Oltre a esplorare le capacità agentive nel mondo virtuale, stiamo sperimentando agenti che possono aiutare nel mondo fisico applicando le capacità di ragionamento spaziale di Gemini 2.0 alla robotica. Sebbene sia ancora presto, siamo felici del potenziale degli agenti che possono avere nell'ambiente fisico.

Scopri di più su questi esperimenti e prototipi di ricerca su labs.google.

Creare responsabilmente nell'era degli agenti

Con Gemini 2.0 Flash e i nostri prototipi di ricerca, possiamo esplorare le frontiere dell’AI per rendere i prodotti Google ancora più efficaci.

Mentre sviluppiamo queste tecnologie innovative, siamo ben consapevoli delle responsabilità e delle sfide di sicurezza che comportano. Per questo motivo stiamo seguendo un percorso di sviluppo graduale, testando prototipi, collaborando con tester fidati ed esperti esterni, e realizzando analisi di rischio e verifiche approfondite.

Ecco un esempio:

Nel contesto del nostro impegno per la sicurezza, lavoriamo insieme al Responsibility and Safety Committee (RSC), il nostro gruppo interno di revisione, per analizzare e prevenire potenziali rischi.
Grazie al ragionamento avanzato di Gemini 2.0, abbiamo fatto passi avanti significativi nel red teaming assistito dall'AI, passando dalla semplice identificazione dei rischi al supporto attivo di soluzioni mirate. Ciò ci consente di ottimizzare il modello in modo più efficiente per garantirne la sicurezza su larga scala.
Con l’espansione della multimodalità di Gemini 2.0 e la crescente complessità dei suoi risultati, proseguiremo con valutazioni rigorose di sicurezza su immagini e audio per garantire un modello sempre più sicuro.
Con Project Astra, stiamo esplorando potenziali misure per mitigare il rischio che gli utenti condividano involontariamente informazioni sensibili con l'agente e abbiamo già integrato controlli per la privacy che consentono agli utenti di eliminare facilmente le sessioni. Stiamo inoltre continuando a ricercare modi per garantire che gli agenti AI agiscano come fonti affidabili di informazioni e non intraprendano azioni indesiderate per conto degli utenti.
Project Mariner si concentra sull’insegnare al modello a privilegiare le istruzioni degli utenti rispetto a tentativi di manipolazione esterna, come il prompt injection. Il modello è progettato per individuare comandi dannosi da fonti esterne, proteggendo gli utenti da frodi e phishing, anche quando questi sono nascosti in email, file o siti.

Crediamo fermamente che l'unico modo per sviluppare l'AI sia agire responsabilmente fin dall'inizio e continueremo a dare priorità alla sicurezza e alla responsabilità come elementi chiave del nostro processo di sviluppo dei modelli man mano che avanziamo con i nostri modelli e agenti.

Gemini 2.0, agenti intelligenti e nuove frontiere

Gli annunci di oggi aprono un nuovo capitolo per il modello Gemini. Con l’introduzione di Gemini 2.0 Flash e una serie di prototipi di ricerca che esplorano il potenziale degli agenti, celebriamo un momento chiave nell’evoluzione di Gemini. Inoltre, non vediamo l’ora di proseguire in sicurezza l’esplorazione delle possibilità che ci porteranno sempre più vicini all’AGI.

Etichette: