Ecco Gemini: il nostro modello IA più grande e capace
Una nota da Sundar Pichai, CEO di Google e Alphabet
Ogni cambiamento tecnologico è un’opportunità per far avanzare le scoperte scientifiche, accelerare il progresso umano e migliorare la vita delle persone. Credo che la transizione a cui stiamo assistendo con l’intelligenza artificiale sarà la più profonda della nostra vita, molto più grande del passaggio allo smartphone o al web che lo ha preceduto. L’intelligenza artificiale ha il potenziale per creare opportunità a ogni livello in tutto il mondo – nel quotidiano così come per le grandi sfide sociali. Porterà nuove ondate di innovazione e progresso economico e stimolerà la conoscenza, l’apprendimento, la creatività e la produttività su una scala mai vista prima.
Questo è ciò che mi entusiasma: la possibilità di rendere l’intelligenza artificiale utile per tutti, ovunque nel mondo.
A quasi otto anni dall'inizio del nostro percorso come azienda AI-first, il ritmo del progresso non fa che accelerare: milioni di persone utilizzano ora l'intelligenza artificiale generativa nei nostri prodotti per fare cose che solo un anno fa non avrebbero potuto fare, da trovare risposte a domande sempre più complesse, all'uso di nuovi strumenti per collaborare e creare. Allo stesso tempo, gli sviluppatori utilizzano i nostri modelli e la nostra infrastruttura per creare nuove applicazioni di IA generativa, mentre startup e imprese in tutto il mondo stanno crescendo con i nostri strumenti IA.
Si tratta di uno slancio incredibile, eppure stiamo solo iniziando a scalfire la superficie di ciò che è possibile.
Siamo impegnati in questo lavoro con coraggio e responsabilità. Questo significa essere ambiziosi nella nostra ricerca e perseguire le opportunità che porteranno enormi benefici alle persone e alla società, sviluppando al contempo misure di salvaguardia e lavorando in collaborazione con governi ed esperti per affrontare i rischi che emergono mentre l’IA diventa più capace. Continuiamo a investire nei migliori strumenti, in modelli all'avanguardia e infrastrutture, e a portarli nei nostri prodotti e renderli disponibili agli altri, guidati dai nostri principi di intelligenza artificiale.
Ora stiamo facendo il prossimo passo lungo questo percorso con Gemini, il nostro modello più capace e generale fino a oggi, con prestazioni all’avanguardia rispetto a molti benchmark leader di settore. La nostra prima versione, Gemini 1.0, è ottimizzata per diverse dimensioni: Ultra, Pro e Nano. Questi sono i primi modelli dell'era di Gemini, e la prima realizzazione della visione che ci ha portato a creare Google DeepMind all'inizio di quest'anno. Questa nuova era rappresenta uno dei più grandi sforzi scientifici e ingegneristici che abbiamo intrapreso come azienda. Sono sinceramente entusiasta di ciò che ci aspetta e delle opportunità che Gemini sbloccherà per le persone in tutto il mondo.
-Sundar
Ecco Gemini
Demis Hassabis, CEO e Co-Founder di Google DeepMind, da parte del team Gemini
L'intelligenza artificiale è stata al centro della mia vita di ricercatore, così come per tanti dei miei colleghi. Da quando ancora a scuola programmavo IA per videogiochi, e durante i miei anni da ricercatore di neuroscienze passati a studiare il funzionamento del cervello, ho sempre creduto che se riuscissimo a costruire macchine più intelligenti, potremmo utilizzarle a beneficio dell'umanità in modi incredibili.
Questa promessa di un mondo potenziato in modo responsabile dall'intelligenza artificiale continua a guidare il nostro lavoro in Google DeepMind. Per molto tempo abbiamo cercato di costruire una nuova generazione di modelli IA, ispirati al modo in cui le persone comprendono e interagiscono con il mondo. Un’IA che sembri meno un software e sia ancora più utile e intuitiva: un collaboratore esperto o un assistente.
Oggi ci avviciniamo a questa visione e annunciamo Gemini, il modello IA più capace e generale che abbiamo mai costruito. È il risultato di una collaborazione su larga scala che ha coinvolto molti team di Google, compresi i nostri colleghi di Google Research. Gemini è stato costruito fin dalle sue fondamenta per essere multimodale, il che significa che può generalizzare, comprendere, operare e combinare senza discontinuità diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice informatico.
Gemini è anche il nostro modello più flessibile fino a oggi, in grado di funzionare in modo efficiente ovunque, dagli smartphone ai data center. Le sue funzionalità all’avanguardia miglioreranno in modo significativo il modo in cui gli sviluppatori e le aziende costruiscono e scalano i loro progetti con l’intelligenza artificiale.
Abbiamo ottimizzato Gemini 1.0, la nostra prima versione, per tre dimensioni diverse:
- Gemini Ultra - il nostro modello più grande e potente, per compiti altamente complessi
- Gemini Pro - il nostro modello migliore per essere applicato su scala a un'ampia gamma di attività
- Gemini Nano - il nostro modello più efficiente per attività da svolgere su un singolo dispositivo (on-device)
Prestazioni all'avanguardia
Abbiamo testato rigorosamente i nostri modelli di Gemini e valutato le loro prestazioni su una grande varietà di compiti. Dalla comprensione naturale delle immagini, dell’audio e dei video, al ragionamento matematico, le prestazioni di Gemini Ultra superano i migliori modelli oggi disponibili in 30 dei 32 benchmark accademici di settore utilizzati più comunemente nella ricerca e sviluppo dei grandi modelli linguistici (LLM).
Con un punteggio del 90%, Gemini Ultra è il primo modello a ottenere risultati migliori delle prestazioni umane in ambito MMLU (massive multitask language understanding; comprensione linguistica multitasking su larga scala), che utilizza una combinazione di 57 materie tra cui matematica, fisica, storia, diritto, medicina ed etica, per valutare sia le conoscenze che le capacità di risoluzione dei problemi.
Il nostro nuovo approccio in MMLU permette a Gemini di utilizzare le sue capacità di ragionamento per valutare più attentamente prima di rispondere a domande difficili, con miglioramenti notevoli rispetto a una risposta più immediata.
Gemini supera le performance dei migliori modelli disponibili su una serie di benchmark, inclusi testo e programmazione.
Gemini Ultra ha ottenuto anche un punteggio all’avanguardia del 59,4% sul nuovo benchmark MMMU, che consiste in compiti multimodali che spaziano tra differenti ambiti che richiedono capacità di elaborazione complesse.
Con i benchmark per le immagini che abbiamo utilizzato, Gemini ha superato i precedenti modelli più avanzati, senza l’assistenza di sistemi di riconoscimento ottico dei caratteri (OCR) che estraggono il testo da un’immagine per successive analisi. Questi benchmark evidenziano la multimodalità nativa di Gemini e indicano i primi segni delle complesse capacità di ragionamento di Gemini.
Vedi maggiori dettagli nel report tecnico di Gemini.
Gemini supera le prestazioni dei migliori modelli disponibili su una serie di benchmark multimodali.
Capacità di prossima generazione
Fino ad ora, l’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento separato di componenti dedicate a ciascuna modalità, e un loro successivo raccordo per imitare approssimativamente alcune forme di multimodalità. Questi modelli a volte possono essere efficaci nello svolgimento di determinati compiti come la descrizione delle immagini, ma hanno difficoltà con ragionamenti più concettuali e complessi.
Abbiamo progettato Gemini per essere nativamente multimodale, pre-addestrato fin dall'inizio su diverse modalità. Successivamente, abbiamo affinato il modello con dati multimodali aggiuntivi per perfezionare ulteriormente la sua efficacia. Questo permette a Gemini di comprendere e ragionare su ogni tipo di input in modo strutturale e senza discontinuità, un sistema di gran lunga migliore rispetto ai modelli multimodali esistenti – le sue capacità sono all’avanguardia in quasi tutti gli ambiti.
Scopri di più sulle capacità di Gemini e sul suo funzionamento.
Sofisticate capacità di ragionamento
Le sofisticate capacità di ragionamento multimodale di Gemini possono aiutare a dare senso a complesse informazioni scritte e visive. Questo rende Gemini particolarmente abile nel fare emergere conoscenze che possono essere difficili da individuare all’interno di una grande quantità di dati.
La sua straordinaria capacità di estrarre informazioni rilevanti da centinaia di migliaia di documenti attraverso la lettura, il filtraggio e la comprensione dei contenuti contribuirà a realizzare nuove scoperte ad alta velocità in molti campi, dalla scienza alla finanza.
Comprendere testo, immagini, audio e altro ancora
Gemini 1.0 è stato addestrato per riconoscere e comprendere testo, immagini, audio e altro contemporaneamente, e di conseguenza comprende meglio le sfumature tra le informazioni e può rispondere a domande relative ad argomenti complicati. Questo lo rende particolarmente utile per spiegare ragionamenti complessi, per esempio in matematica e fisica.
Programmazione avanzata
La nostra prima versione di Gemini è in grado di comprendere, spiegare e generare codice di alta qualità nei linguaggi di programmazione più diffusi al mondo, come Python, Java, C++ e Go. La sua capacità di lavorare su diversi linguaggi e di ragionare su informazioni complesse lo rende uno dei principali foundation model per la programmazione al mondo.
Gemini Ultra eccelle in molti benchmark di coding, tra cui HumanEval, un importante benchmark di riferimento per le attività di programmazione, e Natural2Code, il nostro set interno di dati hold-out, che utilizza fonti generate da autori invece di informazioni basate sul web.
Gemini può anche essere utilizzato come motore per sistemi di programmazione più avanzati. Due anni fa abbiamo introdotto AlphaCode, il primo sistema di generazione di codice IA a raggiungere un livello competitivo di prestazioni nelle competizioni di programmazione. Utilizzando una versione specializzata di Gemini, abbiamo creato un sistema di generazione di codice più avanzato, AlphaCode 2, che eccelle nel risolvere problemi di programmazione che vanno oltre il coding per includere matematica e teoria informatica a un alto grado di complessità.
Valutato sulla stessa piattaforma della versione precedente di AlphaCode, AlphaCode 2 mostra enormi miglioramenti, risolvendo quasi il doppio dei problemi. Prevediamo che avrà prestazioni migliori dell'85% dei partecipanti alla prossima competizione, un risultato che supera il precedente 50% di AlphaCode. Quando i programmatori collaborano con Gemini definendo determinate proprietà per gli esempi di codice da seguire, le prestazioni sono ancora migliori.
La nostra speranza è che in futuro i programmatori utilizzino modelli IA altamente capaci come strumenti collaborativi che li aiutino a ragionare sui problemi, proponendo progetti di programmazione e assistendoli nell'implementazione, in modo che possano rilasciare app e progettare servizi migliori, più velocemente.
Vedi maggiori dettagli nel nostro report tecnico di AlphaCode 2.
Più affidabile, scalabile ed efficiente
Abbiamo addestrato Gemini 1.0 sulla nostra infrastruttura ottimizzata per l'intelligenza artificiale utilizzando le Tensor Processing Unit (TPU) v4 e v5e progettate internamente da Google. E lo abbiamo progettatto per essere il nostro modello più affidabile e scalabile per l'addestramento, e anche il piu efficiente.
Su TPU, Gemini funziona molto più velocemente rispetto ai modelli precedenti, pur esendo questi più piccoli e meno capaci. Questi acceleratori d’intelligenza artificiale progettati su misura hanno potenziato il funzionamento dei prodotti di Google basati sull’IA come la Ricerca, YouTube, Gmail, Google Maps, Google Play e Android, utilizzati da miliardi di persone. Hanno inoltre consentito ad aziende di tutto il mondo di addestrare modelli IA su larga scala a costi contenuti.
Oggi annunciamo il sistema TPU più potente e scalabile mai realizzato, CloudTPU v5p, progettato per addestrare modelli IA di punta. Questa TPU di prossima generazione accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e le aziende ad addestrare modelli di IA generativa su larga scala più velocemente, permettendo di raggiungere più rapidamente i loro clienti con nuovi prodotti e funzionalità.
Una fila di supercomputer con acceleratore IA Cloud TPU v5p in un data center di Google.
Responsabilità e sicurezza al centro
Come Google, siamo impegnati a promuovere un'intelligenza artificiale audace e responsabile in ogni progetto che realizziamo. Basandosi sui nostri Principi per l'IA e le solide norme per la sicurezza dei nostri prodotti, stiamo aggiungendo nuove protezioni per tenere conto delle capacità multimodali di Gemini. In ogni fase del suo sviluppo, prendiamo in considerazione i rischi potenziali e lavoriamo per testarli e mitigarli.
Gemini dispone delle valutazioni di sicurezza più complete di qualsiasi modello di intelligenza artificiale di Google fino ad oggi, anche per quanto riguarda pregiudizi impliciti (bias) e tossicità. Abbiamo condotto nuove ricerche su potenziali aree di rischio come i reati informatici, la manipolazione e l'autonomia di scelta, e stiamo applicando le migliori tecniche di adversarial testing di Google Research per identificare i problemi critici di sicurezza prima di rendere Gemini disponibile.
Per identificare eventuali problemi che potrebbero sfuggire alla nostra valutazione interna, stiamo anche collaborando con una serie di esperti e partner esterni per sottoporre a stress test i nostri modelli su una serie di aspetti.
Per diagnosticare i problemi legati ai contenuti durante le fasi di preparazione di Gemini e garantire che i risultati aderiscano alle nostre norme, utilizziamo una serie di benchmark, tra cui Real Toxicity Prompts, un insieme di 100.000 prompt con vari gradi di tossicità estratti dal web, sviluppati dagli esperti dell'Allen Institute of AI. Maggiori dettagli su questo lavoro arriveranno a breve.
Per limitare i potenziali danni, abbiamo creato classificatori di sicurezza dedicati per identificare, etichettare e ordinare contenuti che coinvolgono, ad esempio, violenza o stereotipi negativi. Questo approccio a più livelli, una volta combinato con dei filtri robusti, è progettato per rendere Gemini più sicuro e più inclusivo per tutti. Continuiamo anche ad affrontare problematiche note per i modelli linguistici, quali fattualità, fondatezza, attribuzione e validazione.
Responsabilità e sicurezza saranno sempre al centro dello sviluppo e dell’implementazione dei nostri modelli. Si tratta di un impegno a lungo termine che richiede uno sviluppo collaborativo, e per questo stiamo collaborando in senso ampio per definire parametri di riferimento e migliori pratiche in materia di sicurezza, insieme a organizzazioni come MLCommons, il Frontier Model Forum e il suo Fondo per la sicurezza dell'IA, oltre al nostro Secure AI Framework (SAIF), progettato per contribuire a mitigare i rischi per la sicurezza specifici dei sistemi di intelligenza artificiale nei settori pubblico e privato.
Disponibilità di Gemini
Gemini 1.0 entrerà in funzione su una varietà di prodotti e piattaforme.
Gemini Pro nei prodotti Google
Gemini sarà disponibile a miliardi di persone attraverso i prodotti Google.
A cominciare da oggi, Bard utilizzerà una versione dedicata di Gemini Pro per ragionamenti avanzati, pianificazione, comprensione e altro. Questo è l’aggiornamento più importante di Bard da quando è stato annunciato. Sarà disponibile in inglese in più di 170 paesi e territori, e prevediamo di aggiungere ulteriori modalità e supportare nuove lingue e aree geografiche nei prossimi mesi.
Stiamo anche portando Gemini su Pixel. Pixel 8 Pro è il primo smartphone progettato per incorporare Gemini Nano, che potenzierà nuove funzionalità come Riassumi sull’app Registratore ed entrerà in Smart Reply su Gboard, a cominciare da WhatsApp – con altre app di messaggistica nell’arco del prossimo anno.
Nei prossimi mesi, Gemini sarà disponibile su più prodotti e servizi Google come la RIcerca, Ads, Chrome e Duet AI.
Costruire con Gemini
A partire dal 13 dicembre, sviluppatori e clienti aziendali potranno accedere a Gemini Pro tramite l’API di Gemini su Google AI Studio o su Google Cloud Vertex AI.
Google AI Studio è uno strumento web gratuito pensato per gli sviluppatori che permetterà di fare prototipazione e lanciare app velocemente con una chiave API. Nel momento in cui serve una piattaforma IA fully-managed, Vertex AI permette la personalizzazione di Gemini con pieno controllo sui dati e i benefici di Google Cloud su sicurezza, privacy, data governance e compliance.
Gli sviluppatori Android potranno anche utilizzare Gemini Nano, il nostro modello più efficiente per attività on-device, attraverso AICore, una nuova funzionalità di sistema per Android 14, a cominciare dai dispositivi Pixel 8 Pro. Registrati per un’anteprima di AICore.
Gemini Ultra presto a disposizione
Per Gemini Ultra, stiamo completando un’estesa fase di test su affidabilità e sicurezza, inclusa un’attività di red-teaming da parte di soggetti esterni fidati, e stiamo perfezionando ulteriormente il modello utilizzando fine-tuning e training di rinforzo da feedback umano (RLHF) prima di renderlo disponibile a livello più ampio.
Come parte di questo processo, renderemo Gemini Ultra disponibile a clienti, sviluppatori e partner selezionati, per una sperimentazione iniziale, prima di distribuirlo agli sviluppatori e alle imprese clienti all'inizio del prossimo anno.
All’inizio del prossimo anno, lanceremo anche Bard Advanced, una nuova esperienza di punta basata sull’IA che permetterà di accedere ai modelli migliori e alle migliori capacità, a cominciare da Gemini Ultra.
L’era di Gemini: un futuro di innovazioni
Quello di oggi è un traguardo significativo per lo sviluppo dell’IA, e l’inizio di una nuova era per noi a Google. Continueremo a innovare rapidamente e a far avanzare responsabilmente le capacità dei nostri modelli.
Abbiamo fatto grandi progressi su Gemini e ci stiamo dando da fare per estendere ulteriormente le sue capacità nelle versioni future, inclusi progressi su pianificazione e memoria, e aumentando l’ampiezza di contesto per elaborare ancora più informazioni e dare risposte migliori.
Siamo entusiasti delle straordinarie opportunità rese possibili dallo sviluppo responsabile dell’IA: un futuro di innovazione che migliorerà la creatività, estenderà la conoscenza, farà avanzare la scienza e trasformerà il modo in cui miliardi di persone vivono e lavorano in tutto il mondo.