Accéder au menu principal

Blog Google France

Nouveaux modèles et outils de génération de médias, créés avec et pour les créateurs

[]

Nouveaux modèles et outils de génération de médias, créés avec et pour les créateurs

14 Mai, 2024

Nous présentons Veo, notre modèle le plus performant pour la génération de vidéos haute définition, et Imagen 3, notre modèle texte-image de la plus haute qualité. Nous partageons également de nouveaux enregistrements de démonstration créés avec notre Music AI Sandbox.

DouglasEck7351WhiteBkg-lo

Douglas Eck

Senior Research Director

EliCollins1637

Eli Collins

VP, Product Management

Image montrant un créateur de costumes travaillant dans son atelier, avec les mots "Donnez vie à vos idées créatives" écrits sur l'image

Au cours de l'année écoulée, nous avons réalisé des progrès incroyables dans l'amélioration de la qualité de nos technologies de multimédia génératives. Nous avons travaillé en étroite collaboration avec la communauté créative pour explorer comment l'IA générative peut soutenir au mieux le processus créatif et pour nous assurer que nos outils d'IA soient aussi utiles que possible à chaque étape.

Aujourd'hui, nous présentons Veo, notre dernier modèle de génération vidéo le plus avancé, et Imagen 3, notre modèle texte-image de la plus haute qualité à ce jour.

Nous présentons aussi certaines de nos récentes collaborations avec le cinéaste Donald Glover et son studio de création, Gilga, ainsi que de nouveaux enregistrements de Wyclef Jean [Marc Rebillet, et l'auteur-compositeur Justin Tranter, réalisés avec l'aide de notre Music AI Sandbox.

Veo : notre modèle de génération vidéo le plus performant

Veo génère des vidéos de haute qualité à une résolution de 1080p qui peuvent dépasser une minute, dans une grande variété de styles cinématographiques et visuels. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il peut générer des vidéos qui représentent fidèlement la vision créative de l'utilisateur, en captant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle comprend également les termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage", offrant un niveau de contrôle créatif sans précédent. Et il crée des séquences cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans.

Exemples des capacités de génération vidéo de haute qualité de Veo. Toutes les vidéos ont été générées par Veo et n'ont pas été modifiées.

Afin de découvrir comment Veo peut soutenir au mieux le processus créatif du narrateur, nous invitons une variété de cinéastes et de créateurs à expérimenter avec le modèle. Ces collaborations nous aident également à améliorer la façon dont nous concevons, construisons et déployons nos technologies pour nous assurer que les créateurs ont leur mot à dire sur la façon dont elles sont développées.

Voici un aperçu de notre travail avec le cinéaste Donald Glover et son studio créatif, Gilga, qui ont expérimenté avec Veo pour un projet de film.

Veo s'appuie sur des années de travail sur notre modèle de vidéo générative, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere - combinant architecture, lois de mise à l'échelle et autres techniques innovantes pour améliorer la qualité et la résolution de sortie.

Avec Veo, nous avons amélioré les techniques permettant au modèle d'apprendre à comprendre le contenu d'une vidéo, à rendre des images haute définition, à simuler la physique de notre monde et plus encore. Ces apprentissages alimenteront les avancées dans l'ensemble de notre recherche sur l'IA et nous permettront de créer des produits encore plus utiles qui aideront les gens à interagir et à communiquer de nouvelles façons.

À partir d'aujourd'hui, Veo est disponible pour certains créateurs en avant-première privée dans VideoFX, et vous pouvez vous inscrire sur la liste d'attente. À l'avenir, nous apporterons également certaines des capacités de Veo à YouTube Shorts et à d'autres produits.

Rendez-vous ici pour en savoir plus sur les capacités de Veo.

Imagen 3 : notre modèle texte-image de la plus haute qualité

Au cours de l'année dernière, nous avons réalisé des progrès majeurs dans l'amélioration de la qualité et de la fidélité de nos modèles et outils de génération d'images.

Imagen 3 est notre modèle texte-image de la plus haute qualité. Il génère un niveau de détail incroyable, produisant des images photoréalistes et réalistes, avec beaucoup moins d'artefacts visuels gênants que nos modèles précédents.

Un portrait en gros plan d'un loup gris aux yeux jaune intense. Le loup a un épais manteau de fourrure gris et brun et un nez noir. Il regarde directement le spectateur avec une expression calme mais alerte. L’arrière-plan est un ciel bleu et gris flou.

Prompt : un gros plan d'un loup élégant posant devant un fond gris, dans une photographie haute résolution avec des détails fins, isolé sur une image ordinaire avec un étalonnage des couleurs dans le style d'un style hyperréaliste

Une grande méduse aux longs tentacules flottants dérive dans l’océan. La méduse a une cloche ronde et translucide avec des rayures brunes et un groupe de bras buccaux à froufrous en dessous. Il est entouré d’eau bleue et une barrière de corail est visible en arrière-plan.

Prompt: Gros plan d'une méduse dans une eau cristalline, tentacules traînants, sur fond de récif de corail vibrant, macrophotographie, photo de stock, haute résolution, très détaillée, éclairage doux, étalonnage professionnel des couleurs, faible profondeur de champ, mise au point nette, prise avec un appareil photo reflex numérique dans le style des photographes professionnels

Une large rivière serpente à travers une gorge profonde creusée dans une chaîne de montagnes verdoyante et luxuriante sous un ciel bleu clair. La rivière est calme et reflète le paysage environnant. Le soleil brille de mille feux, projetant des ombres sur les pentes et mettant en valeur les textures des rochers.

Prompt : Vue plongeante sur un magnifique canyon fluvial bordé d'arbres, mettant en valeur sa beauté naturelle époustouflante avec des montagnes verdoyantes et des eaux bleues. La photo capture l'immensité de la création de la nature dans le style de sa création.

Trois montgolfières flottent dans le ciel au-dessus d’un paysage accidenté de formations rocheuses. Les ballons sont colorés et ont un panier suspendu en dessous. Le soleil brille et le ciel est bleu.

Prompt : prise de vue dans le style d'un appareil photo reflex numérique avec un filtre polarisant. Une photo de deux montgolfières flottant au-dessus des formations rocheuses uniques de Cappadoce, en Turquie. Les couleurs et les motifs de ces ballons contrastent magnifiquement avec les tons terreux du paysage en contrebas. Cette photo capture le sentiment d’aventure qui accompagne une telle expérience.

Un écureuil curieux sort d’une chaussure de randonnée boueuse, sur un arrière-plan flou de montagnes.

Prompt : une paire de chaussures de randonnée bien usées, recouvertes de boue et reposant sur un sentier rocheux. La tête d'un écureuil sort d'une des bottes, et il regarde paresseusement la caméra, un petit roi de sa chaussure. Les lacets des deux bottes tombent lâchement jusqu'au sol. Il y a un paysage montagneux en arrière-plan. Film cinématographique, photo reflex numérique de haute qualité.

Trois jeunes femmes forment un cercle et rient joyeusement. Derrière eux, le soleil se couche, créant une lumière parasite et imprégnant l’image d’une lueur chaleureuse.

Prompt : Trois femmes rient ensemble, l'une d'elle est légèrement floue au premier plan. Le soleil se couche derrière, créant une lumière parasite et une lueur chaleureuse qui met en valeur leurs cheveux et crée un effet bokeh en arrière-plan. Le style photographique est franc et capture un véritable moment de connexion et de bonheur entre amies. La lumière chaude de la golden hour confère une atmosphère nostalgique et intime à l’image.

Imagen 3 comprend mieux le langage naturel, l'intention derrière votre prompt et intègre les petits détails des prompt plus longues. La compréhension avancée du modèle l’aide à maîtriser une gamme de styles.

Une photo d'un homme noir aux cheveux courts et à la barbe souriant. En arrière-plan, des arbres et des bâtiments sont flous.

Prompt : une photo d'un homme aux cheveux courts et à la barbe souriant à la caméra. L'arrière-plan est flou et montre des arbres et des bâtiments dans des couleurs claires

La main d’une personne qui tient une petite figurine d’oiseau en argile dans une main et la sculpte avec un outil de modelage dans l’autre. Leurs mains sont couvertes de poussière d'argile. Le sculpteur porte une veste polaire grise et une écharpe marron et bordeaux.

Vue de la main d'une personne alors qu'elle tient une petite figurine d'oiseau en argile et la sculpte avec un outil de modelage de son autre main. On peut voir le foulard de la personne. Ses mains sont couvertes de poussière d'argile. Une image macro DSLR mettant en valeur la texture et le savoir-faire.

Un croquis au fusain d'une danseuse la capturant au milieu d'un mouvement dynamique. Le croquis est réalisé sur du papier parchemin vieilli.

Prompt : Croquis abstrait : Un flou de lignes expressives et d’énergie capture le mouvement dynamique d’un danseur dans un dessin gestuel au fusain. Esquisse sur papier parchemin vieilli.

Un petit jouet éléphant gris au crochet se trouve sur un chemin de terre dans un champ herbeux. L'éléphant a des défenses et des ongles blancs et des yeux noirs. L’arrière-plan est un flou de feuillage vert et brun, avec le soleil se couchant au loin.

Prompt : éléphant en Amigurumi marchant dans la savane, photographie professionnelle, arrière-plan flou

Une image dans le style d'un anime montrant une fille vêtue d'une robe blanche debout au bord d'un vaste lac, tenant des fleurs et regardant le ciel plein de nuages roses. Le ciel se reflète sur la surface de l'eau. Autour d'elle se trouvent de petites collines couvertes de fleurs sauvages.

Prompt : Jeune fille en robe blanche se tenant au bord d'un lac infini tenant des fleurs et regardant le ciel plein de nuages roses. Le ciel se reflète sur la surface de l'eau, créant une magnifique scène animée. Il y avait de petites collines couvertes de fleurs sauvages autour d’elle, ajoutant à sa beauté. Fond de style anime, ton bleu violet, lumière douce, couleurs chaudes, atmosphère de rêve et émotions romantiques.

Un robot en bois couvert de mousse se tient dans un champ de fleurs sauvages et tend la main à un petit oiseau bleu perché dessus. Une cascade coule sur une falaise en arrière-plan.

Un robot mécanique en bois patiné recouvert de vignes en fleurs se tient paisiblement dans un champ de grandes fleurs sauvages, avec un petit oiseau bleu posé sur sa main tendue. Dessin animé numérique, aux couleurs chaudes et aux lignes douces. Une grande falaise avec une cascade se profile derrière.

C’est aussi notre meilleur modèle à ce jour pour le rendu de texte, ce qui constitue un défi pour les modèles de génération d’images. Cette fonctionnalité ouvre la possibilité de générer des messages d'anniversaire personnalisés, des diapositives de titre dans des présentations et bien plus encore.

L'entrée d'un grand bâtiment en pierre avec les mots « Bibliothèque centrale » gravés au-dessus de la porte. La porte est encadrée par deux colonnes et comporte un ensemble de grandes portes en bois avec vitres.

Prompt : une photographie de l'entrée d'une bibliothèque majestueuse avec les mots « Bibliothèque centrale » gravés dans la pierre

Un hibou en origami détaillé, en papier brun, est perché sur une branche de pin, les yeux fermés. Ses plumes sont finement pliées et il a une expression sereine. L’arrière-plan est un flou de feuillage vert.

Prompt : Un hibou en origami en papier brun est perché sur une branche d'un arbre à feuilles persistantes. La chouette est tournée vers l’avant, les yeux fermés, ce qui lui donne une apparence paisible. L’arrière-plan est un flou de feuillage vert, créant un décor naturel et serein.

Un robot en feutre se tient dans une clairière ensoleillée, avec un hibou en feutre perché sur son épaule et un renard en feutre assis à ses pieds. Le robot est gris, avec de grands yeux ronds et une expression légèrement inquiète. Le hibou a de grands yeux orange et des plumes brunes. Le renard a une fourrure rouge et une queue touffue. Le sol forestier est couvert de mousse verte et de feuilles mortes.

Prompt : Photo d'une scène de diorama de marionnettes en feutre représentant une scène de nature tranquille d'une clairière isolée avec un grand robot sympathique et rond, avec un rendu dans un style risographique. Un hibou est assis sur les épaules du robot et un renard est à ses pieds. Des lavis de couleurs doux, 5 couleurs et une palette remplie de lumière créent un sentiment de paix et de sérénité, invitant à la contemplation et à l'appréciation de la beauté naturelle.

Une illustration en pixel art de la navette spatiale STS-1 se lançant dans un ciel bleu, laissant une traînée de fumée et de flammes. Le texte « STS-1 » se trouve en bas de l'image.

Prompt : Pixel art d'une navette spatiale qui prend son envol. Cap Canaveral en arrière-plan, ciel bleu, avec des panaches de fumée qui s'échappent. "STS-1" est écrit en dessous

Le mot « lumière » est formé de plumes colorées disposées sur un fond noir.

Prompt : Mot « lumière » composé de diverses plumes colorées, fond noir

Une scène entièrement réalisée en argile représentant une femme âgée portant un haut rouge fluide et une jupe taupe. Elle marche sur un chemin droit dans un jardin, avec des plantes luxuriantes poussant de chaque côté du chemin. Elle tient un grand arrosoir orange dans sa main droite et l'utilise pour arroser les plantes.

Prompt : Scène en Claymation. Plan moyen large d'une femme âgée. Elle porte des vêtements fluides. Elle se tient dans un jardin luxuriant et arrose les plantes avec un arrosoir orange.

À partir d'aujourd'hui, Imagen 3 est disponible pour certains créateurs en aperçu privé dans ImageFX, et vous pouvez vous inscrire pour rejoindre la liste d'attente. Imagen 3 sera bientôt disponible sur Vertex AI.

En savoir plus sur les capacités d’Imagen 3.

Nos collaborations avec la communauté musicale

Dans le cadre de notre exploration continue du rôle que l'IA peut jouer dans la création artistique et musicale, nous travaillons en partenariat avec YouTube, des musiciens, auteurs-compositeurs et producteurs extraordinaires.

Ces collaborations éclairent aussi le développement de nos technologies musicales génératives, notamment Lyria, notre modèle le plus avancé pour la génération musicale fondée sur l'IA.

Dans le cadre de ce travail, nous avons développé une suite d’outils d’IA musicale appelée Music AI Sandbox. Ces outils sont conçus pour offrir un nouveau terrain de jeu à la créativité, permettant aux utilisateurs de créer de nouvelles sections instrumentales à partir de zéro, de transformer le son de nouvelles manières et bien plus encore.

Aujourd'hui, nous poursuivons cette expérimentation musicale avec le musicien Wyclef Jean, lauréat d'un Grammy, le musicien électronique Marc Rebillet et l'auteur-compositeur nominé aux Grammy Justin Tranter, qui ont publié de nouvelles démos sur leurs chaînes YouTube, créés avec l'aide de nos outils d'IA musicale.

Découvrez les démos du musicien récompensé aux Grammys Wyclef Jean, du musicien électronique Marc Rebillet et de l'auteur-compositeur nominé aux Grammy Awards Justin Tranter

Responsable de la conception au déploiement

Nous sommes conscients de l'importance non seulement de faire progresser l'état de l'art, mais aussi de le faire de manière responsable. C'est pourquoi nous prenons des mesures pour relever les défis posés par les technologies génératives et aider les individus et les organisations à travailler de manière responsable avec le contenu généré par l'IA.

Pour chacune de ces technologies, nous collaborons avec la communauté créative et d'autres parties prenantes externes, recueillant des informations et écoutant les commentaires pour nous aider à améliorer et à déployer nos technologies de manière sûre et responsable.

Nous menons des tests de sécurité, appliquons des filtres, mettons en place des garde-fous et plaçons nos équipes de sécurité au cœur du développement. Nos équipes sont également pionnières en matière d'outils, tels que SynthID, qui peut intégrer des filigranes numériques imperceptibles dans les images, l'audio, le texte et la vidéo générés par l'IA. Et à partir d'aujourd'hui, toutes les vidéos générées par Veo sur VideoFX seront marquées par SynthID.

Le potentiel créatif de l'IA générative est immense et nous sommes impatients de voir comment les gens du monde entier donneront vie à leurs idées grâce à nos nouveaux modèles et outils.

Publié dans: