Gemini 2.5: i nostri modelli più intelligenti stanno diventando ancora migliori

A marzo abbiamo annunciato Gemini 2.5 Pro, il nostro modello più intelligente fino ad oggi, e due settimane fa abbiamo presentato l'aggiornamento I/O in anteprima che consente agli sviluppatori di creare incredibili app web. Oggi condividiamo tanti altri aggiornamenti della nostra serie di modelli Gemini 2.5:
- Oltre alle incredibili prestazioni dimostrate in ambito accademico, ora 2.5 Pro è il modello leader a livello mondiale nelle classifiche di WebDev Arena e LMArena, anche come strumento per aiutare le persone a imparare.
- Stiamo aggiungendo nuove funzionalità a 2.5 Pro e 2.5 Flash: output audio nativo per un'esperienza di conversazione più naturale, misure di sicurezza avanzate e le capacità di utilizzo del computer di Project Mariner. 2.5 Pro verrà perfezionato ulteriormente con Deep Think, una modalità sperimentale di ragionamento avanzato per operazioni matematiche e di programmazione molto complesse.
- Continuiamo a investire nell'esperienza degli sviluppatori, introducendo i riassunti del ragionamento nell'API di Gemini e in Vertex AI per una maggiore trasparenza, estendendo i budget di ragionamento in 2.5 Pro per un maggiore controllo e aggiungendo il supporto per gli strumenti MCP in Gemini SDK per accedere a più strumenti open source.
- 2.5 Flash è ora disponibile per tutti nell'app Gemini, mentre la nostra versione aggiornata sarà generalmente disponibile in Google AI Studio per gli sviluppatori e in Vertex AI per le aziende all'inizio di giugno, e presto sarà seguita da 2.5 Pro.
Questo notevole progresso è il risultato dell'impegno incessante dei nostri team in Google per migliorare le nostre tecnologie e per svilupparle e rilasciarle in modo sicuro e responsabile. Entriamo nel dettaglio.
2.5 Pro offre prestazioni migliori che mai
Di recente abbiamo aggiornato 2.5 Pro per aiutare gli sviluppatori a creare app web più ricche e interattive. È fantastico vedere la reazione positiva da parte di utenti e sviluppatori mentre continuiamo ad apportare miglioramenti basati sul loro feedback.
Oltre alle sue solide prestazioni nei benchmark accademici, il nuovo 2.5 Pro è ora leader nella popolare classifica di programmazione di WebDev Arena, con un punteggio ELO di 1420. È anche in testa in tutte le categorie della classifica di LMArena, che valuta le preferenze in varie dimensioni. E con la sua finestra contestuale da un milione di token, 2.5 Pro offre prestazioni all'avanguardia nella comprensione di contesti lunghi e di video.
Da quando ha incorporato LearnLM, la nostra famiglia di modelli realizzata con il contributo di esperti nel campo dell'educazione, 2.5 Pro ora è anche il modello leader per l'apprendimento. Nei confronti diretti che ne valutano la pedagogia e l'efficacia, educatori ed esperti hanno preferito Gemini 2.5 Pro rispetto ad altri modelli in una vasta gamma di scenari. Inoltre, ha superato ampiamente i modelli di punta [link to published tech report] in ognuno dei cinque principi della scienza dell'apprendimento usati per costruire i sistemi AI per l'apprendimento.
Potete trovare altre informazioni nella scheda del modello Gemini 2.5 Pro aggiornata e nella pagina sulla tecnologia di Gemini.
Deep Think
Mentre esploriamo le frontiere delle capacità di ragionamento di Gemini, stiamo iniziando a testare una modalità di ragionamento avanzata chiamata Deep Think che utilizza nuove tecniche di ricerca, consentendo al modello di considerare molteplici ipotesi prima di rispondere.
2.5 Pro Deep Think ottiene un punteggio impressionante su USAMO 2025, che attualmente è uno dei benchmark di matematica più difficili. Raggiunge prestazioni elevate anche nei benchmark di ragionamento, inclusa una valutazione di [xx] su Humanity’s Last Exam, che valuta il ragionamento e la conoscenza, e l'84,0% su MMMU, che testa il ragionamento multimodale.
Per raccogliere ulteriore feedback mentre continuiamo la ricerca in questa entusiasmante direzione, abbiamo messo 2.5 Pro Deep Think a disposizione di un gruppo di esperti di sicurezza e nelle prossime settimane lo condivideremo con tester fidati tramite l'API di Gemini.
Continueremo a migliorare Deep Think sulla base delle nostre valutazioni di sicurezza all'avanguardia e del feedback degli utenti prima di rilasciarlo in modo più esteso.
2.5 Flash ancora migliore
2.5 Flash è il nostro modello più affidabile ed efficiente, progettato per velocità e basso costo, che ora è stato perfezionato sotto quasi ogni aspetto. È migliorato nei principali benchmark per ragionamento, multimodalità, programmazione e contesto lungo diventando al contempo ancora più efficiente, in quanto utilizza il 20-30% di token in meno nelle nostre valutazioni.
Il nuovo 2.5 Flash è ora disponibile in anteprima in Google AI Studio per gli sviluppatori, in Vertex AI per le aziende e nell'app Gemini per tutti. Nei primi di giugno sarà generalmente disponibile in produzione.
Per altre informazioni, leggete la scheda del modello Gemini 2.5 Flash aggiornata e la pagina sulla tecnologia di Gemini.
Nuove funzionalità di Gemini 2.5
Output audio nativo e miglioramenti dell'API Live
Oggi, l'API Live introduce una versione in anteprima del dialogo con input audio-visivo e output audio nativo, per offrire esperienze di conversazione con Gemini più naturali ed espressive. Consente anche di definire il tono, l'accento e lo stile del parlato. Ad esempio, potete dire al modello di usare una voce drammatica per raccontare una storia. Il modello ora supporta l'uso di strumenti per poter fare ricerche per voi.
Potete anche sperimentare una serie di nuove funzionalità, come:
- Dialogo empatico, in cui il modello rileva l'emozione nella voce dell'utente e risponde in modo appropriato.
- Audio proattivo, in cui il modello ignora le conversazioni di sottofondo e sa quando rispondere.
- Ragionamento nell'API Live, in cui il modello sfrutta le capacità di ragionamento di Gemini per supportare attività più complesse.
Stiamo anche rilasciando nuove anteprime per la sintesi vocale in 2.5 Pro e 2.5 Flash. Queste includono un supporto inedito per più interlocutori, abilitando la sintesi vocale con due voci attraverso l'output audio nativo. Come il dialogo con audio nativo, la sintesi vocale è espressiva e può catturare sfumature davvero sottili, come i sussurri. Funziona in oltre 24 lingue e può passare da una all'altra con facilità.
Questa funzionalità di sintesi vocale è ora disponibile nell'API di Gemini.
Utilizzo del computer
Stiamo integrando le capacità di utilizzo del computer di Project Mariner nell'API di Gemini e in Vertex AI. Aziende come Automation Anywhere, UI Path, Browserbase, Autotab, The Interaction Company e Cartwheel stanno esplorando il suo potenziale e siamo lieti di annunciare che anche gli sviluppatori potranno sperimentarlo durante l'estate.
Sicurezza migliorata
Abbiamo anche aumentato significativamente le protezioni contro le minacce alla sicurezza, come le prompt injection indirette, ovvero l'incorporamento di istruzioni dannose nei dati recuperati da un modello di AI. Il nostro nuovo approccio alla sicurezza ha contribuito ad aumentare significativamente il tasso di protezione di Gemini contro gli attacchi di prompt injection indirette durante l'uso di strumenti, facendo di Gemini 2.5 la nostra famiglia di modelli più sicura fino ad oggi.
Potete trovare maggiori informazioni sul nostro lavoro in merito a protezione, responsabilità e sicurezza e su come stiamo rafforzando le difese della sicurezza di Gemini sul blog di Google DeepMind.
Esperienza migliorata per gli sviluppatori
Riassunti del ragionamento
2.5 Pro e Flash ora includeranno i riassunti del ragionamento nell'API di Gemini e in Vertex AI. I riassunti del ragionamento prendono i processi di ragionamento grezzi del modello e li organizzano in un formato chiaro con intestazioni, dettagli chiave e informazioni sulle azioni del modello, ad esempio quando utilizza gli strumenti.
Speriamo che con un formato più strutturato e semplificato del processo di ragionamento del modello, gli sviluppatori e gli utenti trovino le interazioni con i modelli Gemini più facili da comprendere e da sottoporre a debug.
Budget di ragionamento
Abbiamo lanciato 2.5 Flash con i budget di ragionamento per offrire agli sviluppatori un maggiore controllo sui costi, bilanciando latenza e qualità, e stiamo estendendo questa funzionalità a 2.5 Pro. Ciò consente di controllare il numero di token che un modello utilizza per "pensare" prima di rispondere o persino di disattivare le sue capacità di ragionamento.
Gemini 2.5 Pro con i budget sarà disponibile per l'uso stabile in produzione nelle prossime settimane, insieme al nostro modello generalmente disponibile.
Supporto MCP
Abbiamo aggiunto il supporto SDK nativo per le definizioni del Model Context Protocol (MCP) nell'API di Gemini per una più facile integrazione con strumenti open source. Stiamo anche esplorando modi per distribuire server MCP e altri strumenti ospitati e semplificare la creazione di applicazioni agentiche.
Siamo alla costante ricerca di nuovi approcci per migliorare i nostri modelli e l'esperienza degli sviluppatori, allo scopo di renderli più efficienti e performanti, e continuiamo a rispondere al vostro feedback, quindi continuate a inviarcelo! Prosegue anche il nostro impegno per ampliare e approfondire la nostra ricerca di base, estendendo le frontiere delle capacità di Gemini. Presto ci saranno altre novità!
Scoprite di più su Gemini e le sue capacità sul nostro sito web.