Google I/O 2023 : Rendre l’IA plus utile à tous
Note de l'éditeur : cet article de blog est un résumé de ce que nous avons annoncé lors de notre conférence Google I/O 2023. Cliquez ici pour retrouver l'ensemble des annonces.
Sept ans après le début de notre aventure en tant qu'entreprise pionnière de l'IA, nous sommes à un point d'inflexion passionnant. Nous avons l'opportunité de rendre l'IA encore plus utile aux gens, aux entreprises, aux communautés, pour tout le monde.
Depuis longtemps déjà, nous utilisons l'IA pour rendre nos produits bien plus utiles. Avec l'IA générative, nous passons à la prochaine étape. A travers notre approche audacieuse et responsable, nous repensons tous nos produits phares, y compris le moteur de recherche Google.
L’IA dans nos produits
“Aide-moi à écrire” dans Gmail
IL existe plusieurs exemples illustrant la manière dont l'IA générative fait évoluer nos produits, à commencer par Gmail.
En 2017, nous avons lancé la fonctionnalité "Réponse Suggérée", des suggestions de réponses courtes que vous pouvez sélectionner en un clic. Suivie par la "Rédaction Intelligente", qui propose des suggestions d'écriture au fur et à mesure que vous tapez votre texte. La "Rédaction Intelligente" a ensuite conduit à des fonctionnalités d'écriture encore plus avancées, fondées sur l’IA. Durant l’année écoulée, ces fonctionnalités ont été utilisées dans Workspace plus de 180 milliards de fois. Aujourd’hui, avec un modèle génératif beaucoup plus puissant, nous passons à l'étape suivante dans Gmail avec "Aide-moi à écrire".
Imaginez : vous avez reçu un e-mail indiquant que votre vol a été annulé. La compagnie aérienne vous a envoyé un avoir, mais ce que vous voulez vraiment, c'est un remboursement complet. Vous pouvez répondre et utiliser "Aide-moi à écrire".
Tapez simplement ce que vous voulez - un e-mail qui demande un remboursement complet - cliquez sur “Créer” et une première version apparaît. Ce brouillon intègre les détails du vol indiqués dans l'e-mail précédent. Et cela ressemble plutôt bien à ce que vous souhaitez envoyer. Mais peut-être voulez-vous l'affiner davantage. Un e-mail plus élaboré pourrait augmenter vos chances d'obtenir le remboursement. "Aide-moi à écrire" sera déployé dans le cadre de nos mises à jour Workspace. Et tout comme avec la "Rédaction intelligente", vous le verrez s'améliorer avec le temps.
Nouvelle vue immersive pour les itinéraires dans Google Maps
Depuis les premiers jours de Google Street View, l'IA a assemblé des milliards d'images panoramiques afin que les gens puissent explorer le monde depuis leur appareil. Lors de Google I/O 2022, nous avons présenté la "Vue Immersive", qui utilise l'IA pour créer une représentation en haute définition d'un lieu, afin que vous puissiez le découvrir avant votre visite.
Aujourd'hui, nous développons cette même technologie pour faire ce que Google Maps fait le mieux : vous aider à vous rendre là où vous voulez aller. Chaque jour, Google Maps affiche 20 milliards de kilomètres d'itinéraires. Cela fait beaucoup de trajets. Imaginez si vous pouviez voir votre itinéraire complet à l'avance. Avec la "Vue Immersive pour les itinéraires", c'est désormais possible, que vous soyez à pied, à vélo ou en voiture.
Supposons que vous soyez à New York et que vous vouliez faire une promenade à vélo. Google Maps vous donne plusieurs options à proximité. Le trajet passant par le front de mer semble tentant, mais vous voulez d'abord vous en faire une idée précise avant de choisir. Vous cliquez alors sur "Vue Immersive pour les itinéraires". C'est une toute nouvelle façon d'envisager votre voyage. Vous pouvez zoomer et obtenir une incroyable vue à vol d'oiseau de tout le trajet.
Et ce n'est pas tout. Il y a d'autres informations disponibles. Vous pouvez désormais vérifier la qualité de l'air, le trafic et la météo, et voir comment ces paramètres peuvent évoluer. La "Vue Immersive pour les itinéraires" sera déployée durant l'été et disponible dans 15 villes d'ici la fin de l'année, dont Paris, Londres, New York, Tokyo et San Francisco.
Une promenade à vélo dans New York avec "Vue Immersive pour les itinéraires"
Une nouvelle expérience "Magic Editor" dans Google Photos
Un autre produit amélioré par l'IA est Google Photos. Nous l'avions présenté à I/O 2015 et c'était l'un de nos premiers produits intégrant l’IA dès sa création. Ce sont les progrès du Machine Learning qui ont permis de rechercher des personnes, des couchers de soleil ou des cascades dans vos photos.
Bien sûr, nous voulons que vous puissiez faire davantage que chercher des photos. Nous souhaitons aussi vous aider à les améliorer. Chaque mois, 1.7 milliard d'images sont modifiées dans Google Photos. Les dernières percées dans le domaine de l'IA nous donnent des moyens plus puissants de le faire. Par exemple, la Gomme Magique, lancée pour la première fois sur Pixel, utilise la photographie computationnelle alimentée par l'IA pour supprimer les éléments indésirables de l’image. Cette année, grâce à une combinaison de compréhension sémantique et d'IA générative, vous pourrez faire bien plus, avec une nouvelle expérience appelée Magic Editor.
Prenons l'exemple ci-dessous. C'est une superbe photo, mais en tant que parent, vous voulez probablement que votre enfant soit plus visible. Sur l’image, on dirait que les ballons ont été coupés. Vous pouvez modifier la position de l’enfant sans problème. Magic Editor recrée automatiquement des parties de l’image qui n’ont pas été capturées dans le plan d'origine. Et comme touche finale, vous pouvez améliorer la couleur du ciel. Cela change aussi l'éclairage dans le reste de la photo, afin que la modification soit cohérente et harmonieuse. C'est vraiment magique ! Nous sommes ravis de déployer Magic Editor dans Google Photos plus tard cette année.
Une photo modifiée dans Google Photos grâce à Magic Editor
Rendre l'IA plus utile pour tous
Les exemples tirés de Gmail, Google Photos et Google Maps ne sont que quelques illustrations de la manière dont l'IA peut vous aider dans les moments qui comptent. Nous pouvons faire tellement plus pour partager le potentiel de l'IA à travers les produits que vous connaissez et aimez.
Aujourd'hui, 15 produits Google servent chacun plus d'un demi-milliard de personnes et d'entreprises. Et 6 de ces produits servent chacun plus de deux milliards d'utilisateurs. Cela nous donne de nombreuses opportunités d'accomplir notre mission : organiser les informations à l’échelle mondiale pour les rendre accessibles et utiles à tous.
C'est une mission intemporelle qui devient plus pertinente année après année. Et si nous regardons l'avenir, c'est en rendant l'IA utile à tous que nous pourrons avancer dans notre mission. Nous faisons cela à travers 4 axes :
- En améliorant les connaissances et l’apprentissage, et en approfondissant la compréhension du monde.
- En stimulant la créativité et la productivité, afin que chacun puisse s’exprimer et faire avancer les choses.
- En permettant aux développeurs et aux entreprises de créer leurs propres produits et services innovants.
- En construisant et en déployant l'IA de manière responsable, afin que chacun puisse en bénéficier de manière égale.
PaLM 2 et Gemini
Nous sommes particulièrement enthousiastes face aux opportunités à venir ! Notre capacité à rendre l'IA utile pour tous repose sur l'amélioration continue de nos modèles de fondation. Je veux donc prendre un moment pour partager la façon dont nous les abordons.
L'année dernière, nous avons évoqué PaLM, qui a conduit à de nombreuses améliorations dans nos produits. Aujourd'hui, nous annonçons notre dernier modèle PaLM en production : PaLM 2.
PaLM 2 s'appuie sur notre recherche fondamentale et notre infrastructure la plus récente. Il est très performant dans un large éventail de tâches et facile à déployer. Aujourd’hui, nous annonçons plus de 25 produits et fonctionnalités alimentés par PaLM 2 !
Les modèles PaLM 2 offrent d'excellentes capacités de base dans une large gamme de tailles. Nous les avons affectueusement nommés Gecko, Otter, Bison et Unicorn. Gecko est si léger qu'il peut fonctionner sur des appareils mobiles et il est suffisamment rapide pour soutenir de superbes applications interactives on-device, même hors ligne. Les modèles PaLM 2 sont plus forts en logique et en raisonnement grâce à leur entraînement étendu sur des sujets scientifiques et mathématiques. PaLM est aussi formé sur du texte multilingue - plus de 100 langues intégrées - afin qu'il comprenne et génère des résultats nuancés.
Combiné à de puissantes capacités de codage, PaLM 2 peut aussi aider les développeurs à collaborer dans le monde entier. Prenons un exemple. Vous travaillez avec un collègue à Séoul et vous corrigez du code informatique. Vous pouvez demander à PaLM de corriger un bug et d'aider votre coéquipier, en ajoutant des commentaires en coréen. PaLM 2 reconnaît que le code est récursif, puis suggère un correctif. Il explique ensuite le raisonnement sur lequel repose le correctif et ajoute des commentaires en coréen, comme vous l'avez demandé.
Bien que PaLM 2 soit très performant, il excelle particulièrement lorsqu'il est appliqué à un domaine spécifique.
Nous avons récemment annoncé Sec-PaLM, optimisé pour un usage appliqué à la cybersécurité. Il utilise l'IA pour mieux détecter les scripts malveillants et peut aider les experts en sécurité à comprendre et à résoudre les menaces.
Un autre exemple est Med-PaLM 2. Ce modèle est focalisé sur les connaissances médicales. Face à un même ensemble de questions, il se rapproche des performances d’experts cliniciens. Un réglage fin a permis de réduire de 9 fois les risques de raisonnements inexacts.
Med-PaLM 2 est le premier modèle de langage à atteindre un niveau "expert" dans une épreuve de niveau équivalent à un examen de licence de médecine. Il est à la pointe de la technologie actuelle. Nous travaillons aussi pour que Med-PaLM 2 soit capable de synthétiser les informations issues de l'imagerie médicale, comme les radios et les mammographies. L’IA devient alors un collaborateur, qui aide les radiologues à interpréter les images et à communiquer les résultats.
Il ne s’agit que de 2 usages de PaLM 2 dans des domaines spécialisés. Nous avons hâte de le voir utilisé dans d’autres. C'est pourquoi je suis particulièrement heureux d'annoncer que PaLM 2 est désormais disponible en avant-première.
PaLM 2 constitue la dernière percée à date dans notre aventure de plus d’une décennie pour rendre l'IA accessible de manière responsable à des milliards de personnes. Il s'appuie sur les progrès réalisés par deux équipes de recherche de classe mondiale : Google Brain et DeepMind.
Si l'on se penche sur les percées déterminantes de l'IA au cours de la dernière décennie, ces équipes ont contribué à un nombre important d'entre elles : AlphaGo, Transformers, modèles de séquence à séquence, etc. Tout cela a aidé à préparer le terrain pour le point d'inflexion auquel nous sommes aujourd'hui.
Nous avons récemment réuni ces deux équipes en une seule : Google DeepMind. En utilisant la puissance de calcul de Google, cette équipe se concentre sur la construction de systèmes plus performants, de manière sûre et responsable.
Cela inclut notre modèle de base de prochaine génération, Gemini, qui est toujours en cours d’entraînement. Gemini a été créé dès le départ pour être multimodal, très efficace pour les intégrations d'outils et d'API, et conçu pour permettre de futures innovations, comme la mémoire et la planification. Bien qu'il soit encore tôt, nous voyons déjà des capacités multimodales impressionnantes et inédites dans les modèles précédents.
Une fois affiné et soumis à de rigoureux tests de sécurité, Gemini sera disponible en différentes tailles et capacités, tout comme PaLM 2.
IA responsable : des outils pour identifier le contenu généré
A mesure que nous investissons dans des modèles plus performants, nous investissons aussi dans de l’IA responsable. Cela inclut le fait d'avoir les outils capables d’identifier le contenu généré par l’IA à chaque fois que vous le rencontrez.
Deux approches importantes sont le filigrane et les métadonnées. Le filigrane intègre des informations directement dans le contenu de manière systématique, même quand il s’agit d’une simple retouche. Nous construisons nos modèles pour inclure ce filigrane par défaut. Si vous regardez une image générée, c'est impressionnant à quel point elle semble réelle. Il est donc simple d’imaginer à quel point ce sujet est important.
Les métadonnées permettent aux créateurs de contenu d'associer un contexte supplémentaire aux fichiers originaux, vous donnant plus d'informations chaque fois que vous faites face à une image. Nous veillerons à ce que chacune des images générées par notre IA contienne ces métadonnées. En savoir plus sur notre approche audacieuse et responsable.
Mises à jour de Bard et Workspace
Alors que les modèles s'améliorent et deviennent plus performants, l'une des perspectives les plus enthousiasmantes est de les rendre accessibles pour que chacun puisse s’en saisir.
C'est tout le sens de Bard, notre expérience d'IA conversationnelle lancée en mars.
Nous faisons rapidement évoluer Bard. Il prend désormais en charge un large éventail de capacités de programmation, et il est devenu beaucoup plus intelligent pour le raisonnement et les mathématiques. Il fonctionne désormais entièrement sur PaLM 2. En savoir plus sur les dernières mises à jour de Bard.
Nous intégrons aussi de nouvelles fonctionnalités à Workspace. En plus de la fonctionnalité "Aide-moi à écrire" dans Gmail et Docs, Duet AI dans Workspace fournit des outils pour générer des images à partir de descriptions textuelles dans Slides et Meet, créer des plans personnalisés dans Sheets, et plus encore. En savoir plus sur les dernières mises à jour de Workspace.
Labs et notre nouvelle expérience de recherche générative
Alors que l'IA continue de s'améliorer rapidement, nous sommes mobilisés pour proposer des fonctionnalités utiles à nos utilisateurs. A partir d'aujourd'hui, nous proposons une nouvelle façon de prévisualiser certaines des expériences de Workspace et d'autres produits : les Labs. Je dis une “nouvelle façon”, mais Google utilise depuis longtemps les Labs pour donner un accès anticipé à certaines fonctionnalités et obtenir des retours d'expérience.
Outre les fonctionnalités de Workspace que vous venez de voir, l'une des premières expériences que vous pourrez tester dans Labs implique notre produit fondateur : le moteur de recherche Google. En effet, si nous avons commencé à investir massivement dans l'IA il y a de nombreuses années, c’est parce que nous avons vu l'opportunité d'améliorer la recherche Google. Et à chaque étape nous l'avons rendue plus utile et intuitive.
Mieux comprendre le langage nous permet de poser des questions plus naturellement et d'accéder au contenu le plus pertinent sur le Web. Les progrès de la vision par ordinateur ont aussi introduit de nouvelles façons de rechercher. Aujourd’hui, même si vous n'avez pas les mots pour décrire ce que vous cherchez, vous pouvez rechercher tout ce que vous voyez avec Google Lens. En fait, Lens est utilisé pour plus de 12 milliards de recherches visuelles par mois, soit une multiplication par 4 en seulement deux ans. La combinaison de Lens et du multimodal a permis de créer Multisearch, qui permet d'effectuer une recherche en utilisant à la fois une image et du texte.
À l'avenir, la profonde compréhension de l'information par Google associée aux capacités uniques de l'IA générative peuvent une nouvelle fois transformer la recherche Google, qui pourra répondre à de nouvelles questions et proposer des expériences toujours plus utiles pour bénéficier de toute la richesse du Web.
Bien sûr, l'intégration de l'IA générative au moteur de recherche Google en est encore à ses débuts. Partout dans le monde, les utilisateurs font confiance à la recherche Google dans les moments importants. Nous savons donc à quel point il est essentiel de bien faire les choses et de continuer à mériter leur confiance. Tel est toujours notre cap.
Nous abordons donc l'innovation de manière responsable, en nous efforçant d'atteindre la barre la plus élevée en matière de qualité de l'information, comme nous l'avons toujours fait depuis le tout début. C'est pourquoi nous proposons notre nouvelle expérience de recherche générative d’abord dans le cadre des Labs, avant de la déployer plus largement.
Rendre l'innovation plus accessible
L'IA n'est pas seulement un puissant catalyseur, c'est aussi un grand changement de plateforme. Chaque entreprise et organisation réfléchit à la manière de conduire cette transformation. C'est pourquoi nous nous efforçons de rendre l'innovation avec l’IA facile et évolutive.
Cela signifie fournir l'infrastructure informatique la plus avancée, y compris des TPU et des GPU de pointe, et étendre l'accès aux derniers modèles de base de Google qui ont été rigoureusement testés dans nos propres produits. Nous nous efforçons aussi de fournir des outils de classe mondiale afin que nos clients puissent former, affiner et exécuter leurs propres modèles - en garantissant un niveau de sécurité et de confidentialité adapté aux entreprises. En savoir plus avec le PDG de Google Cloud, Thomas Kurian.
Progresser avec Android
Comme vous l'avez entendu aujourd'hui, notre approche audacieuse et responsable de l'IA peut libérer la créativité et le potentiel des gens. Nous voulons aussi être utiles au plus grand nombre. Nous le faisons avec nos plateformes comme Android, et aujourd'hui, nous avons expliqué comment les progrès de l'IA peuvent rendre votre téléphone encore plus personnel, notamment Creative Compose, Cinematic Wallpapers et Generative AI Wallpapers.
Découvrez les nouveaux appareils Pixel pour votre poche et votre maison
Nous présentons aujourd’hui le Pixel 7a, le Pixel Fold et la Pixel Tablet pour un écosystème complet d'appareils alimentés par l'IA conçus par Google. Le Pixel 7a est disponible à l'achat à partir d'aujourd'hui, et les précommandes sont maintenant ouvertes pour Pixel Fold et Pixel Tablet.
Construire l'avenir ensemble
J’ai réfléchi aux grands changements technologiques fondamentaux que nous avons vécus. L'IA en fait certainement partie. C'est pourquoi il est si important que nous rendions l’IA utile pour tous.
Nous abordons l’IA avec audace et enthousiasme. Et nous le faisons de manière responsable, fidèles à notre engagement profond et à notre volonté de bien faire les choses.
Aucune entreprise ne peut y parvenir seule. Notre communauté de développeurs sera essentielle pour atteindre les importantes opportunités à venir. Nous sommes impatients de travailler ensemble et de bâtir ensemble.