Torna al menu principale

Blog di Google Italy

Nuovi modelli e strumenti generativi, realizzati con e per i creator

Nuovi modelli e strumenti generativi, realizzati con e per i creator

14 Mag, 2024

Presentiamo Veo, il nostro modello più avanzato per la generazione di video ad alta definizione, e Imagen 3, il nostro modello di altissima qualità per la generazione di immagini text-to-image. Condividiamo anche nuove registrazioni demo create con Music AI Sandbox.

DouglasEck7351WhiteBkg-lo

Douglas Eck

Senior Research Director

EliCollins1637

Eli Collins

VP, Product Management

Immagine di un costumista al lavoro nel suo studio, con la scritta “Bring creative ideas to life”.

Durante quest’ultimo anno abbiamo fatto progressi incredibili nel miglioramento della qualità delle nostre tecnologie di generazione di contenuti multimediali. Abbiamo lavorato a stretto contatto con la community creativa per esplorare i modi in cui l’IA generativa può supportare meglio il processo creativo e per assicurarci che i nostri strumenti di IA siano utili in ogni fase di questo processo.

Oggi presentiamo Veo, il nostro modello di generazione di video più avanzato, e Imagen 3, il nostro modello di altissima qualità per la generazione di immagini.

Condivideremo anche alcune delle nostre collaborazioni recenti con il filmmaker Donald Glover e il suo studio creativo Gilga e pubblicheremo nuove registrazioni demo realizzate dagli artisti Wyclef Jean, Marc Rebillet, e dal cantautore Justin Tranter con l’aiuto di Music AI Sandbox.

Veo: il nostro modello più avanzato per la generazione di video

Veo genera video di alta qualità con una risoluzione di 1080p che possono superare il minuto, con molti stili visivi e cinematografici diversi. Con una comprensione avanzata del linguaggio naturale e della semantica visiva, Veo può generare video che rappresentino con precisione la visione creativa dell’utente - cogliendo il tono dei prompt e interpretando i dettagli dei prompt più lunghi in modo accurato.

Il modello comprende anche termini cinematografici come “timelapse” o “riprese aeree di paesaggi” fornendo così un livello di controllo creativo senza precedenti. E crea filmati coerenti: persone, animali e oggetti si muovono in modo realistico attraverso le inquadrature.

Esempi delle capacità di generazione di video di alta qualità di Veo. Tutti i video sono stati generati da Veo e non sono stati modificati.

Per scoprire i modi in cui Veo può supportare al meglio il processo creativo di chi realizza i contenuti, abbiamo invitato vari filmmaker e creator a sperimentare con il modello. Queste collaborazioni ci aiutano anche a migliorare il modo in cui progettiamo, realizziamo e implementiamo le nostre tecnologie per assicurarsi che i creator abbiano voce in capitolo nel modo in cui vengono sviluppati.

Ecco un’anteprima del nostro lavoro con l’artista Donald Glover e il suo studio creativo Gilga che si è cimentato con Veo per il progetto di un film.

Veo è basato su anni del nostro lavoro con i modelli di generazione di video, tra cui Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, e offre una combinazione di architettura, leggi di scala e altre tecniche innovative per migliorare la latenza e la risoluzione dell’output.

Con Veo, abbiamo migliorato le tecniche con cui il modello impara a comprendere cosa c’è in un video, esegue un rendering di suono e immagine ad alta definizione, simula la fisica del nostro mondo e non solo. Tutto questo ci permetterà di progredire nella ricerca sull’AI e di realizzare prodotti ancora più utili che aiutino le persone a interagire e comunicare in modi nuovi.

Da oggi Veo è disponibile in anteprima privata con VideoFX. In futuro alcune delle capacità di Veo saranno rese disponibili anche in YouTube Shorts e altri prodotti.

Scoprite di più sulle potenzialità di Veo.

Imagen 3: il nostro modello di altissima qualità per la generazione di immagini

Durante quest’ultimo anno abbiamo fatto progressi incredibili nel miglioramento della qualità e della precisione dei nostri strumenti e modelli di generazione di immagini.

Imagen 3 è il nostro modello text-to-image di altissima qualità. Genera un livello di dettaglio incredibile, creando immagini realistiche e naturali, in cui artefatti visivi sono molto meno numerosi rispetto ai nostri modelli precedenti.

Imagen 3 comprende meglio il linguaggio naturale e l’intenzione alla base del prompt, e incorpora piccoli dettagli dei prompt più lunghi. La comprensione avanzata del modello lo aiuta a padroneggiare una gamma di stili.

Inoltre, è il nostro modello migliore mai realizzato per il rendering del testo, una vera sfida per i modelli per la generazione di immagini. Questa capacità offre nuove opportunità per la generazione di messaggi di compleanno personalizzati, slide con i titoli delle presentazioni e altro.

Prompt: Una fotografia dell'imponente ingresso di una biblioteca con la scritta “Central Library” scolpita nella pietra.

Prompt: Un gufo origami di carta marrone è appollaiato su un ramo di un albero sempreverde. Il gufo è rivolto in avanti con gli occhi chiusi, ha un aspetto pacifico. Lo sfondo è una macchia di fogliame verde che crea un'ambientazione naturale e serena.

Prompt: Foto di un diorama di marionette in feltro di una tranquilla scena naturale di una radura isolata con un grande robot amichevole e arrotondato. Un gufo siede sulle spalle del robot e una volpe ai suoi piedi. Morbide pennellate di colore, 5 colori e una tavolozza piena di luce creano un senso di pace e serenità, invitando alla contemplazione e all'apprezzamento della bellezza naturale.

Prompt: Pixel art di una navetta spaziale in partenza. Cape Canaveral sullo sfondo, cielo azzurro e pennacchi di fumo. Sotto la scritta “STS-1”.

Prompt: Parola “light” composta da varie piume colorate, sfondo nero.

Prompt: Scena di claymation. Un'inquadratura mediamente ampia di una donna anziana. Indossa abiti fluidi. È in piedi in un giardino lussureggiante e innaffia le piante con un annaffiatoio arancione.

Da oggi Imagen 3 è disponibile per alcuni creatori selezionati come anteprima privata all'interno di ImageFX, ed è possibile iscrivervi alla lista d'attesa perché sarà presto disponibile su Vertex AI.

Scoprite di più su Imagen 3.

Le nostre collaborazioni con la community musicale

Nell'ambito della nostra continua esplorazione del ruolo dell'IA nella creazione di arte e musica, stiamo collaborando in partnership con YouTube, con alcuni straordinari musicisti, autori e produttori.

Queste collaborazioni ci forniscono anche informazioni per lo sviluppo delle nostre tecnologie di generazione musicale, tra cui Lyria, la nostra famiglia di modelli più avanzata per la generazione di musica con l’IA.

Nell’ambito di questo lavoro, stiamo progettando e realizzando la suite di strumenti per la musica Music AI Sandbox. Questi strumenti sono pensati per offrire nuove possibilità creative, permettendo alle persone di creare da zero nuove sezioni strumentali, trasformare il suono in nuovi modi e molto altro ancora.

Oggi portiamo avanti questa sperimentazione nel campo musicale con il vincitore di Grammy Wyclef Jean, l’artista di musica elettronica e nominato ai Grammy Marc Rebillet, e il compositore Justin Tranter, che hanno pubblicato sui loro canali YouTube delle demo di registrazioni create con l’aiuto dei nostri strumenti di IA per la musica.

Progettazione, sviluppo e implementazione responsabili

Il nostro interesse non è solo far progredire la tecnologia, ma è anche farlo in modo responsabile. Per questo adottiamo misure per affrontare le sfide presentate dalle tecnologie generative e aiutiamo le persone e le organizzazioni a lavorare responsabilmente con i contenuti generati con l’IA.

Per ciascuna di queste tecnologie, abbiamo lavorato con la community creativa e con altri stakeholder, raccogliendo informazioni e ascoltando i feedback per poter migliorare e implementare le nostre tecnologie in modi sicuri e responsabili.

Abbiamo condotto test sulla sicurezza, applicato filtri, impostato protezioni e messo i nostri team di sicurezza al centro dello sviluppo. I nostri team stanno anche aprendo la strada a strumenti all’avanguardia, come SynthID, che può incorporare filigrane digitali impercettibili in immagini, audio, testi e video generati con l’IA. E a partire da oggi, tutti i video generati da Veo su VideoFX saranno filigranati con SynthID.

Il potenziale creativo dell’IA generativa è immenso e non vediamo l’ora di scoprire come le persone di tutto il mondo daranno vita alle proprie idee con i nostri nuovi strumenti e modelli.

Etichette: