Il nostro modello di prossima generazione: Gemini 1.5

15 Feb, 2024

Il modello offre prestazioni notevolmente migliorate, con una svolta nella comprensione del contesto lungo attraverso varie modalità.

Demis Hassabis

CEO and Co-Founder, DeepMind

Sundar Pichai

CEO of Google and Alphabet

Una nota del CEO di Google e Alphabet, Sundar Pichai:

La settimana scorsa abbiamo lanciato il nostro modello più potente, Gemini 1.0 Ultra, e abbiamo compiuto un significativo passo avanti nel rendere i prodotti Google più utili, a partire da Gemini Advanced . Oggi, gli sviluppatori e i clienti Cloud possono iniziare a creare anche con 1.0 Ultra, con la nostra API Gemini in AI Studio e in Vertex AI .

I nostri team continuano a spingersi oltre i confini dei nostri ultimi modelli mettendo al centro la sicurezza. Stanno facendo rapidi progressi. Infatti, siamo pronti a presentare la prossima generazione: Gemini 1.5. Mostra notevoli miglioramenti in una serie di dimensioni e 1.5 Pro raggiunge una qualità paragonabile a 1.0 Ultra, utilizzando meno risorse di elaborazione.

Questa nuova generazione offre anche una svolta nella comprensione del contesto lungo. Siamo stati in grado di aumentare in modo significativo la quantità di informazioni che i nostri modelli possono elaborare, eseguendo fino a 1 milione di token in modo coerente, ottenendo la finestra di contesto più lunga di qualsiasi modello di fondazione su larga scala mai realizzato.

Finestre di contesto più lunghe ci mostrano la promessa di ciò che è possibile. Consentiranno funzionalità completamente nuove e aiuteranno gli sviluppatori a creare modelli e applicazioni molto più utili. Siamo entusiasti di offrire un'anteprima limitata di questa funzionalità sperimentale a sviluppatori e clienti aziendali. Demis condivide ulteriori informazioni su capacità, sicurezza e disponibilità di seguito.

Presentazione di Gemini 1.5

Questo è un momento entusiasmante per l’intelligenza artificiale. I nuovi progressi nel campo hanno il potenziale per rendere l’intelligenza artificiale più utile per miliardi di persone nei prossimi anni. Dall'introduzione di Gemini 1.0 , abbiamo testato, perfezionato e migliorato le sue capacità.

Oggi annunciamo il nostro modello di prossima generazione: Gemini 1.5.

Gemini 1.5 offre prestazioni notevolmente migliorate. Rappresenta un cambiamento radicale nel nostro approccio, basandosi sulla ricerca e sulle innovazioni ingegneristiche in quasi ogni parte del nostro modello di sviluppo e infrastruttura di base. Ciò include rendere Gemini 1.5 più efficiente per la formazione e il servizio, con una nuova architettura Mixture-of-Experts (MoE).

Il primo modello Gemini 1.5 che rilasceremo per i primi test è Gemini 1.5 Pro. È un modello multimodale di medie dimensioni, ottimizzato per adattarsi a un'ampia gamma di attività e funziona a un livello simile a 1.0 Ultra , il nostro modello più grande fino ad oggi. Introduce inoltre una caratteristica sperimentale rivoluzionaria nella comprensione del contesto lungo.

Gemini 1.5 Pro viene fornito con una finestra di contesto standard da 128.000 token. Ma a partire da oggi, un gruppo limitato di sviluppatori e clienti aziendali può provarlo con una finestra di contesto fino a 1 milione di token tramite AI Studio e Vertex AI in anteprima privata.

Mentre implementiamo l'intera finestra di contesto di 1 milione di token, stiamo lavorando attivamente alle ottimizzazioni per migliorare la latenza, ridurre i requisiti computazionali e migliorare l'esperienza dell'utente. Siamo entusiasti che le persone provino questa funzionalità rivoluzionaria e condividano maggiori dettagli sulla disponibilità futura di seguito.

Questi continui progressi nei nostri modelli di prossima generazione apriranno nuove possibilità a persone, sviluppatori e imprese di creare, scoprire e costruire utilizzando l’intelligenza artificiale.

Dimostrazione della dimensione del nuovo modello

Architettura altamente efficiente

Gemini 1.5 si basa sulla nostra ricerca leader sull'architettura Transformer e MoE . Mentre un trasformatore tradizionale funziona come un’unica grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole.

A seconda del tipo di input fornito, i modelli MoE imparano ad attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione migliora enormemente l'efficienza del modello. Google è stato uno dei primi ad adottare e pioniere della tecnica MoE per il deep learning attraverso ricerche come Sparsely-Gated MoE , GShard-Transformer , Switch-Transformer, M4 e molte altre.

Le nostre ultime innovazioni nell'architettura del modello consentono a Gemini 1.5 di apprendere attività complesse più rapidamente e di mantenere la qualità, pur essendo più efficiente nell'addestramento e nel servizio. Queste efficienze stanno aiutando i nostri team a iterare, addestrare e fornire versioni più avanzate di Gemini più velocemente che mai e stiamo lavorando su ulteriori ottimizzazioni.

Maggiore contesto, funzionalità più utili

La “finestra di contesto” di un modello di intelligenza artificiale è costituita da token, che sono gli elementi costitutivi utilizzati per l'elaborazione delle informazioni. I token possono essere intere parti o sottosezioni di parole, immagini, video, audio o codice. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.

Attraverso una serie di innovazioni di apprendimento automatico, abbiamo aumentato la capacità della finestra di contesto di 1.5 Pro ben oltre i 32.000 token originali per Gemini 1.0. Ora possiamo gestire fino a 1 milione di token in produzione.

Ciò significa che 1.5 Pro può elaborare grandi quantità di informazioni in una volta sola, tra cui 1 ora di video, 11 ore di audio, basi di codice con oltre 30.000 righe di codice o oltre 700.000 parole. Nella nostra ricerca, abbiamo anche testato con successo fino a 10 milioni di token.

Ragionamento complesso su grandi quantità di informazioni

1.5 Pro può analizzare, classificare e riassumere senza problemi grandi quantità di contenuti all'interno di un determinato prompt. Ad esempio, quando vengono fornite le trascrizioni di 402 pagine della missione Apollo 11 sulla Luna, è possibile ragionare su conversazioni, eventi e dettagli trovati nel documento.

Migliore comprensione e ragionamento attraverso le modalità

1.5 Pro può eseguire attività di comprensione e ragionamento altamente sofisticate per diverse modalità, inclusi i video. Ad esempio, quando viene visto un film muto di 44 minuti di Buster Keaton, il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire.

Risoluzione di problemi rilevanti con blocchi di codice più lunghi

1.5 Pro può eseguire attività di risoluzione dei problemi più rilevanti su blocchi di codice più lunghi. Quando viene ricevuto un prompt con più di 100.000 righe di codice, può ragionare meglio tra esempi, suggerire modifiche utili e fornire spiegazioni su come funzionano le diverse parti del codice.

Prestazioni migliorate

Se testato su un panel completo di valutazioni di testo, codice, immagini, audio e video, 1.5 Pro supera 1.0 Pro nell'87% dei benchmark utilizzati per lo sviluppo dei nostri modelli linguistici di grandi dimensioni (LLM). E se confrontato con 1.0 Ultra sugli stessi benchmark, funziona a un livello sostanzialmente simile.

Gemini 1.5 Pro mantiene alti livelli di prestazioni anche quando la finestra di contesto aumenta. Nella valutazione Needle In A Haystack (NIAH), in cui un piccolo pezzo di testo contenente un particolare fatto o affermazione è appositamente inserito all'interno di un lungo blocco di testo, 1.5 Pro ha trovato il testo incorporato il 99% delle volte, in blocchi di dati come fino a 1 milione di token.

Gemini 1.5 Pro mostra anche impressionanti capacità di "apprendimento nel contesto", il che significa che può apprendere una nuova abilità dalle informazioni fornite in un lungo messaggio, senza bisogno di ulteriori perfezionamenti. Abbiamo testato questa abilità sul benchmark Machine Translation from One Book (MTOB), che mostra quanto bene il modello apprende da informazioni mai viste prima. Quando gli viene dato un manuale di grammatica per Kalamang , una lingua con meno di 200 parlanti in tutto il mondo, il modello impara a tradurre l'inglese in Kalamang a un livello simile a quello di una persona che apprende dallo stesso contenuto.

Poiché la finestra contestuale lunga di 1.5 Pro è la prima del suo genere tra i modelli su larga scala, sviluppiamo continuamente nuove valutazioni e parametri di riferimento per testare le sue nuove capacità. Per maggiori dettagli, consulta il nostro rapporto tecnico Gemini 1.5 Pro .

Test approfonditi di etica e sicurezza

In linea con i nostri principi sull'intelligenza artificiale e le solide politiche di sicurezza, stiamo garantendo che i nostri modelli siano sottoposti a test etici e di sicurezza approfonditi. Integriamo quindi questi insegnamenti della ricerca nei nostri processi di governance e modelliamo lo sviluppo e le valutazioni per migliorare continuamente i nostri sistemi di intelligenza artificiale.

Dall'introduzione della versione 1.0 Ultra a dicembre, i nostri team hanno continuato a perfezionare il modello, rendendolo più sicuro per un rilascio più ampio. Abbiamo anche condotto nuove ricerche sui rischi per la sicurezza e sviluppato tecniche di red-teaming per testare una serie di potenziali danni.

Prima del rilascio della versione 1.5 Pro, abbiamo adottato lo stesso approccio all'implementazione responsabile dei nostri modelli Gemini 1.0, conducendo valutazioni approfondite in aree tra cui la sicurezza dei contenuti e i danni rappresentativi, e continueremo ad espandere questi test. Oltre a ciò, stiamo sviluppando ulteriori test che tengano conto delle nuove capacità di contesto lungo di 1.5 Pro.

Costruisci e sperimenta con i modelli Gemini

Ci impegniamo a portare ogni nuova generazione di modelli Gemini a miliardi di persone, sviluppatori e aziende in tutto il mondo in modo responsabile.

A partire da oggi, offriamo un'anteprima limitata di 1.5 Pro a sviluppatori e clienti aziendali tramite AI Studio e Vertex AI . Scopri di più sull'argomento nel nostro blog Google for Developers e nel blog Google Cloud .

Introdurremo anche la versione 1.5 Pro con una finestra di contesto standard da 128.000 token quando il modello sarà pronto per una versione più ampia. A breve prevediamo di introdurre livelli di prezzo che partono dalla finestra di contesto standard di 128.000 e si espandono fino a 1 milione di token, man mano che miglioriamo il modello.

I primi tester possono provare gratuitamente la finestra di contesto da 1 milione di token durante il periodo di test, anche se dovrebbero aspettarsi tempi di latenza più lunghi con questa funzionalità sperimentale. All’orizzonte si profilano anche miglioramenti significativi in termini di velocità.

Gli sviluppatori interessati a testare 1.5 Pro possono registrarsi ora in AI Studio, mentre i clienti aziendali possono contattare il proprio team account Vertex AI.

Etichette: