Torna al menu principale

Blog di Google Italy

Google I/O 2024: un I/O per una nuova generazione

Google I/O 2024: un I/O per una nuova generazione

14 Mag, 2024

Di seguito è riportata una trascrizione modificata delle considerazioni di Sundar Pichai ad I/O 2024, adattata in modo da includere maggiori informazioni su quanto annunciato sul palco.

Sundar Pichai

CEO of Google and Alphabet

Google è nel pieno dell’era di Gemini.

Prima di approfondire questo aspetto, voglio riflettere sul momento che stiamo vivendo. Investiamo nell’IA da oltre un decennio, innovando tutti i livelli che la compongono: ricerca, prodotto, infrastruttura. Oggi parleremo di tutti questi aspetti.

Siamo comunque solo agli inizi del passaggio alla piattaforma IA, e siamo certi che offrirà molte opportunità a creator, sviluppatori, startup e chiunque altro. L’obiettivo dell’era di Gemini è proprio aiutare a far nascere queste opportunità. Cominciamo, dunque.

L’era di Gemini

Un anno fa, sul palco di I/O, abbiamo condiviso per la prima volta i nostri piani per Gemini: un modello innovativo progettato per essere fin dall’inizio multimodale e che potesse ragionare su testi, immagini, video, codice e non solo. Un grosso passo avanti per poter trasformare qualsiasi input in qualsiasi output: un “I/O” per una nuova generazione.

Abbiamo poi presentato i primi modelli Gemini, i più capaci mai realizzati. Hanno evidenziato prestazioni all’avanguardia per quanto riguarda tutti i benchmark multimodali. Due mesi più tardi abbiamo presentato Gemini 1.5 Pro, che offre un’innovazione importante per quanto riguarda la comprensione del contesto lungo. Può utilizzare stabilmente un milione di token in produzione, ottenendo la finestra di contesto più lunga di qualsiasi modello di fondazione su larga scala mai realizzato.

Vogliamo che i vantaggi di quello che può fare Gemini siano a disposizione di tutti, per questo ci siamo impegnati per condividere velocemente questi progressi con voi. Oggi più di 1,5 milioni di sviluppatori usa i modelli Gemini nei nostri strumenti. Vengono utilizzati per il debug del codice, per ottenere nuove informazioni e per realizzare la prossima generazione di applicazioni basate sull’IA.

Abbiamo anche integrato le innovative capacità di Gemini nei nostri prodotti con risultati stupefacenti. Oggi vi mostreremo esempi nella Ricerca Google, in Foto, Workspace, Android e non solo.

I progressi del prodotto

Oggi tutti i nostri prodotti che contano due miliardi di utenti usano Gemini.

Abbiamo anche introdotto nuove esperienze, tra cui quella su dispositivi mobili, che permette alle persone di interagire con Gemini direttamente nell’app, ora disponibile per Android e iOS. Inoltre, con Gemini Advanced è possibile accedere ai nostri modelli più capaci. Oltre un milione di persone si sono registrate in soli tre mesi, e lo slancio non si è ancora esaurito.

AI Overview nella Ricerca Google

La Ricerca Google è uno dei prodotti che ha presentato le trasformazioni più entusiasmanti grazie a Gemini.

Nel corso dell’ultimo anno abbiamo risposto a miliardi di query nell’ambito della nostra Search Generative Experience. Le persone fanno ricerche in modi completamente nuovi, ponendo nuovi tipi di domande e inserendo query più lunghe e complesse, addirittura basate sulle foto, e ogni risposta offre loro il meglio del web.

Dimostrazione dei resoconti AI

Abbiamo testato questa esperienza al di fuori di Labs e i risultati sono stati incoraggianti: non solo si è verificato un aumento nell’utilizzo della Ricerca Google, ma è cresciuta anche la soddisfazione delle persone.

Ho il piacere di annunciare che questa settimana inizieremo a mettere a disposizione di tutti gli utenti negli Stati Uniti AI Overview, una nuova esperienza completamente rinnovata. E presto arriverà anche in altri paesi.

La Ricerca Google sta attraversando una fase di intensa innovazione: grazie a Gemini possiamo realizzare esperienze di ricerca molto più avanzate, anche all’interno dei nostri prodotti.

Chiedi a Foto

Un esempio è Google Foto, che abbiamo lanciato quasi nove anni fa. Da allora le persone l’hanno usato per organizzare i propri ricordi più importanti. Oggi vengono caricati più di 6 miliardi di foto e video ogni giorno.

E le persone amano usare Foto per fare ricerche che riguardano la propria vita, cosa che con Gemini sta diventando decisamente più semplice.

Facciamo un esempio: dovete pagare un parcheggio ma non vi ricordate il numero di targa della vostra auto. Finora, era possibile fare una ricerca in Foto in base a parole chiave e scorrere anni di foto in cerca delle targhe. Ora potete semplicemente chiedere a Foto. Riconoscerà le auto che compaiono spesso, e a dedurre qual è la vostra per fornirvi il numero di targa.

Chiedi a Foto può anche aiutarvi a fare ricerche più approfondite tra i vostri ricordi. Ad esempio, se state ripensando ai traguardi raggiunti da vostra figlia Lucia durante la crescita, potete chiedere a Foto “Quando ha imparato a nuotare Lucia?”.

Potete anche proseguire con qualcosa di ancora più complesso: “Mostrami i progressi di Lucia nel nuoto”.

In questo caso Gemini non si limita a fare una semplice ricerca, bensì riconosce diversi contesti, dalle vasche in piscina allo snorkeling nell’oceano, fino al testo e alle date sugli attestati di nuoto. A quel punto Foto organizza tutte le informazioni in un riassunto, in modo da mostrarvele per farvi rivivere i vostri ricordi migliori. Chiedi a Foto sarà disponibile da quest’estate, e sono in arrivo anche altre funzionalità.

Più informazioni con la multimodalità e il contesto lungo

Fare leva sulle informazioni in più formati è il motivo per cui abbiamo voluto fin dall’inizio che Gemini fosse multimodale. Tutte le modalità sono integrate in un solo modello, in modo che non solo comprenda ogni tipo di input, ma che riesca anche a connetterli tra loro.

La multimodalità amplia in modo radicale le domande che possiamo porre e le risposte che riceveremo. Il contesto lungo si spinge ancora più in là, permettendoci di inserire ancora più informazioni: centinaia di pagine di testo, ore di audio o di video, interi repository di codice… o, se preferite, all’incirca 96 menù della Cheesecake Factory.

Per questa quantità di menù è necessaria una finestra contestuale da un milione di token, e con Gemini 1.5 Pro ora è possibile. Gli sviluppatori hanno già cominciato a usare questa capacità in modi davvero interessanti.

Nell’arco degli ultimi mesi abbiamo iniziato a rendere disponibile in anteprima Gemini 1.5 Pro con il contesto lungo. Abbiamo apportato una serie di miglioramenti qualitativi a traduzione, programmazione e ragionamento e da oggi potete vedere questi aggiornamenti nel modello.

Ora sono lieto di annunciare che questa versione migliorata di Gemini 1.5 Pro sarà disponibile per tutti gli sviluppatori a livello mondiale. Inoltre, oggi Gemini 1.5 Pro con contesto di 1 milione di token è disponibile per i consumatori in Gemini Advanced e può essere utilizzato in 35 lingue.

Espansione a 2 milioni di token nell’anteprima privata

Ci sono moltissime nuove opportunità offerte dall’utilizzo di un milione di token, e la prospettiva è emozionante, ma penso che possiamo spingerci ancora oltre.

Per questo oggi amplieremo la finestra contestuale a 2 milioni di token e la renderemo disponibile agli sviluppatori in un'anteprima privata.

È impressionante guardare indietro e osservare quanti progressi sono stati fatti nell’arco di pochi mesi, e tutto questo rappresenta il passo successivo nel nostro percorso verso l’obiettivo finale del contesto infinito.

Gemini 1.5 Pro in Workspace

Finora abbiamo parlato di due progressi tecnici: la multimodalità e il contesto lungo. Entrambi sono notevoli se considerati singolarmente, ma insieme danno accesso a capacità più approfondite e ulteriore intelligenza.

Ed è quello che succede in Google Workspace.

Le persone ricercano costantemente tra i propri messaggi su Gmail, e ci stiamo impegnando per potenziare questa esperienza grazie a Gemini. Ad esempio, ogni genitore vuole rimanere al passo con tutto quello che riguarda la scuola dei propri figli. Gemini può aiutare in questo senso.

Ora possiamo chiedere a Gemini di riepilogare tutte le email recenti ricevute dalla scuola. In background, Gemini identifica le email pertinenti e analizza gli allegati come i PDF. Quello che voi vedrete è un riassunto dei punti fondamentali e delle cose da fare. Ad esempio: non avete potuto partecipare a una riunione con gli insegnanti a causa di un viaggio di lavoro, e la registrazione della riunione dura un’ora. Se si è svolta in Google Meet, potete chiedere a Gemini di riassumere i punti principali. C’è un’associazione di genitori che cerca volontari e quel giorno non avete impegni. Ovviamente Gemini può aiutarvi a scrivere una bozza di risposta.

Sono innumerevoli gli esempi di come queste funzionalità possono rendervi la vita più semplice. Gemini 1.5 Pro è disponibile oggi in Workspace Labs. Aparna può darvi ulteriori dettagli.

Output audio in NotebookLM

Abbiamo visto un esempio con un output testuale, ma con un modello multimodale possiamo fare molto di più.

Stiamo facendo progressi, e il meglio deve ancora venire. Un esempio di questi progressi sono i Riepiloghi audio in NotebookLM, che usano Gemini per analizzare i materiali forniti e generare una conversazione audio personalizzata e interattiva.

È questo il potenziale della multimodalità: presto potrete abbinare a vostro piacimento input e output, e questo è quello che intendiamo quando diciamo che questo è “un I/O per una nuova generazione”. Ma se potessimo fare ancora di più?

Fare di più con gli agenti AI

Una delle opportunità che vediamo negli agenti AI è proprio quella di fare di più. Io li considero sistemi intelligenti che possono ragionare, pianificare e ricordare, che sanno “pensare” in anticipo a vari passaggi successivi e che funzionano con diversi software e sistemi. Il tutto per fare cose al posto vostro, sempre sotto la vostra supervisione.

Siamo ancora agli inizi, ma vi voglio illustrare alcuni tipi di casi d’uso a cui stiamo lavorando.

Iniziamo con lo shopping. Comprare scarpe online è molto divertente, ma restituirle se non vanno bene lo è molto meno.

Pensate se Gemini potesse fare per voi tutte queste cose:

Cercare la ricevuta nella posta…

Identificare il numero d’ordine nell’email…

Compilare un modulo di reso…

E addirittura programmare un ritiro da parte del corriere.

Sarebbe molto più facile, vero?

Vediamo un altro esempio, un po’ più complesso.

Diciamo che vi siete appena trasferiti a Chicago. Potete immaginare Gemini e Chrome che collaborano per aiutarvi a fare una serie di cose per prepararvi: organizzare, ragionare, riassumere per voi.

Ad esempio, sicuramente vorrete esplorare la città e trovare servizi nelle vicinanze, dalle lavanderie ai dog sitter. Dovrete anche aggiornare il vostro indirizzo in decine di siti web.

Gemini può occuparsi di queste cose e vi chiederà maggiori informazioni in caso di bisogno, in modo che abbiate sempre voi il controllo.

Questo è un aspetto molto importante: man mano che realizziamo prototipi di queste esperienze, ci impegniamo a farlo in modi che siano privati, sicuri e utili per tutti.

Questi sono casi d’uso semplici, ma sono ottimi esempi dei tipi di problemi che vogliamo risolvere realizzando sistemi intelligenti che possano fare previsioni, ragionare e pianificare per voi.

L’impatto sulla nostra missione

La potenza di Gemini con la multimodalità, il contesto lungo e gli agenti ci avvicina al nostro obiettivo finale, ossia rendere l’IA utile per tutti.

Crediamo che sia questo il modo giusto per progredire nella nostra missione: organizzare le informazioni mondiali di ogni tipo di input, renderle accessibili in ogni tipo di output e combinare le informazioni di tutto il mondo con le informazioni del VOSTRO mondo, in un modo che sia davvero utile per voi.

Percorrere nuove strade

Per concretizzare il vero potenziale dell’AI, dovremo cominciare a percorrere nuove strade. Il team di Google DeepMind sta lavorando molto intensamente in questo senso.

L'entusiasmo per 1.5 Pro e la sua finestra contestuale lunga è stato davvero tanto, ma gli sviluppatori ci hanno anche chiesto qualcosa di più rapido ed efficiente in termini di costo. Per questo, domani presenteremo Gemini 1.5 Flash, un modello più leggero pensato per la scalabilità. È ottimizzato per le operazioni in cui contano soprattutto latenza e costi bassi. 1.5 Flash sarà disponibile in AI Studio e Vertex AI da martedì.

Se pensiamo ancora più a lungo termine, abbiamo sempre voluto realizzare un agente universale che possa essere utile nella vita di tutti i giorni. Project Astra ha capacità di comprensione multimodale e conversazione in tempo reale.

Abbiamo fatto progressi anche nella generazione di video e immagini con Veo e Imagen 3, e abbiamo presentato Gemma 2.0, la nostra nuova generazione di modelli aperti per un’innovazione responsabile dell’AI. Questo è il post di Demis Hassabis per approfondire.

L’infrastruttura nell’era dell’AI: ecco Trillium

Addestrare modelli all’avanguardia richiede una notevole potenza di calcolo. Nel settore, la domanda di calcolo per il machine learning si è moltiplicata di 1 milione negli ultimi sei anni. E ogni anno cresce di dieci volte.

Google è pronta. Per 25 anni abbiamo investito in infrastrutture tecniche di massimo livello, dall’hardware all’avanguardia che è alla base della Ricerca Google fino alle unità di elaborazione Tensor Processing Unit che rendono possibili i progressi della nostra IA.

Gemini è stato addestrato e rilasciato interamente con le nostre TPU di quarta e quinta generazione. Anche altre società leader che si occupano di IA, come Anthropic, hanno addestrato i propri modelli con le nostre TPU.

Oggi siamo lieti di annunciare la nostra sesta generazione di TPU, chiamata Trillium. Trillium offre le TPU più efficienti e performanti mai viste ad oggi, con un miglioramento di 4,7 volte nelle prestazioni di calcolo per ogni chip rispetto alla generazione precedente, TPU v5e.

Trillium sarà disponibile per i nostri clienti Cloud verso la fine del 2024.

Oltre alle TPU, siamo orgogliosi di offrire CPU e GPU che supportano qualsiasi carico di lavoro.

Ne sono un esempio i nuovi processori Axion annunciati il mese scorso, la nostra prima CPU personalizzata basata su ARM che offre prestazioni ed efficienza energetica senza pari.

Siamo anche orgogliosi di essere uno dei primi provider cloud a offrire le innovative GPU Blackwell di NVIDIA, che saranno disponibili all’inizio del 2025. Abbiamo la fortuna di avere instaurato da tempo una partnership con NVIDIA e non vediamo l’ora di offrire ai nostri clienti le capacità all’avanguardia di Blackwell.

I chip sono una componente fondamentale del nostro sistema end-to-end integrato. Dall’hardware ottimizzato per le prestazioni e dall’open software fino ai modelli flessibili basati sul consumo, tutto si riunisce in AI Hypercomputer, un’architettura di supercomputer innovativa.

Le aziende e gli sviluppatori la stanno usando per affrontare sfide più complesse, con un’efficienza più che doppia rispetto al semplice acquisto di hardware e chip non elaborati. I nostri progressi con AI Hypercomputer sono possibili in parte grazie al nostro approccio al raffreddamento a liquido nei nostri data center.

Da quasi dieci anni utilizziamo questo approccio, molto prima che diventasse lo standard nel settore. E oggi la capacità di tutto il nostro parco risorse implementato per il raffreddamento a liquido è di quasi 1 gigawatt ed è destinata a crescere. È pari a quasi 70 volte la capacità di qualsiasi altro parco risorse.

Alla base di tutto questo ci sono le dimensioni della nostra rete, che connette la nostra infrastruttura a livello globale e supera i 3,2 milioni di chilometri di fibra terrestre e sottomarina: oltre 10 volte (!) la copertura del provider cloud più diffuso dopo di noi.

Continueremo a fare gli investimenti necessari per portare avanti l’innovazione dell’IA e fornire capacità all’avanguardia.

Il capitolo più entusiasmante nella storia della Ricerca Google

Una delle aree in cui investiamo e innoviamo maggiormente è il nostro primo prodotto, la Ricerca Google. 25 anni fa abbiamo creato la Ricerca per aiutare le persone a orientarsi nella marea di informazioni che sono disponibili online.

Ogni volta che c’è stato un cambiamento di piattaforma, abbiamo offerto innovazioni per aiutare le persone a ottenere risposte migliori alle loro domande.

Sui dispositivi mobili abbiamo introdotto nuovi tipi di domande e risposte: con contesto migliore, uso della posizione e informazioni in tempo reale. Grazie ai progressi nella comprensione del linguaggio naturale e nella computer vision, abbiamo fornito nuovi modi di fare ricerche: con la voce o canticchiando per riconoscere la vostra nuova canzone preferita, o con un’immagine di quel fiore che avete visto mentre passeggiavate. Ora potete addirittura usare Cerchia e Cerca per fare una ricerca su quelle scarpe favolose che vorreste comprare. Fatelo, potete sempre restituirle!

Ovviamente la Ricerca Google nell’era di Gemini rende possibile un’evoluzione completamente nuova, che combina la solidità della nostra infrastruttura, le capacità più recenti dell’AI, il nostro standard elevato per la qualità delle informazioni e i nostri decenni di esperienza nel mettervi in contatto con tutta la ricchezza del web. Il risultato è un prodotto che fa il lavoro al posto vostro.

La Ricerca Google è IA generativa su misura per la curiosità umana, ed è il capitolo più entusiasmante che abbiamo affrontato finora con la Ricerca. Scoprite di più sulla Ricerca nell'era di Gemini con Liz Reid.

Esperienze con Gemini più intelligenti

Gemini non è un semplice chatbot: è pensato per essere il vostro utile assistente personale, che vi aiuta ad affrontare attività complesse e agisce per vostro conto.

Interagire con Gemini dovrebbe essere intuitivo e semplice come conversare. Per questo vogliamo annunciare una nuova esperienza con Gemini, Live, che ci permette di conversare a livello approfondito con Gemini usando la voce. Introdurremo anche i 2 milioni di token in Gemini Advanced più avanti quest’anno, in modo da rendere possibile caricare e analizzare file con moltissime informazioni come video e codici lunghi. Sissie Hsiao può darvi maggiori dettagli.

Gemini per Android

Con miliardi di utenti Android in tutto il mondo, siamo entusiasti di presentare un’esperienza con Gemini ancora più integrata a livello di sistema operativo. In qualità di vostro nuovo assistente AI, Gemini è pronto ad aiutarvi ovunque e in qualsiasi momento. Abbiamo incorporato i modelli Gemini in Android, incluso il nostro ultimo modello on-device: Gemini Nano con la multimodalità, che elabora testo, immagini, audio e voce per offrire nuove esperienze mantenendo al tempo stesso private le informazioni sul vostro dispositivo. Qui potete trovare tutte le novità su Android.

Il nostro approccio responsabile all’IA

Continuiamo ad approcciare le opportunità offerte dall’AI in modo audace, e ne siamo entusiasti. Ma allo stesso tempo ci assicuriamo anche di farlo responsabilmente. Stiamo sviluppando una tecnica all’avanguardia che chiamiamo Red Teaming assistito dall’AI, che attinge alle scoperte di Google DeepMind nell’ambito dei giochi come AlphaGo. Inoltre, abbiamo espanso le nostre innovazioni tecniche in merito all’applicazione di filigrane, come SynthID, in due nuove modalità per testo e video, così i contenuti generati con l’AI saranno più facili da identificare. James Manyika può dirvi di più in merito.

Creare il futuro insieme

Tutto questo mostra i significativi progressi ottenuti mantenendo un approccio audace e responsabile con l’obiettivo di rendere l’IA utile per tutti.

Prima di concludere, sono sicuro che qualcuno tra voi starà contando quante volte ho nominato l’IA oggi. E penso che se ne aggiungeranno altre prima di salutarci.

Non si tratta solo di una battuta conclusiva: questo conteggio rappresenta qualcosa di molto più profondo. Da tempo ormai mettiamo l’IA al primo posto nel nostro approccio. I nostri decenni di leadership nella ricerca hanno aperto la strada a molte delle innovazioni moderne alla base del progresso dell’IA, per noi e per tutto il settore. Inoltre, possiamo contare su:

Un’infrastruttura senza pari realizzata per l’era dell’IA
L’innovazione all’avanguardia della Ricerca Google, ora con la tecnologia di Gemini
Prodotti utili su una scala vastissima, inclusi 15 prodotti con mezzo miliardo di utenti
Piattaforme che permettono a chiunque (partner, clienti, creator e tutti voi) di inventare il futuro

Questo progresso è possibile solo grazie alla nostra incredibile community di sviluppatori. Siete voi a rendere tutto questo reale, attraverso le esperienze e le applicazioni che realizzate tutti i giorni. Quindi, a tutti voi qui a Shoreline e agli altri milioni che guardano da tutto il mondo, dico: non vedo l’ora di scoprire le possibilità che abbiamo di fronte, e di crearle insieme.

Etichette: