Google I/O 2024 : I/O pour une nouvelle génération
Note de l’éditeur : Vous trouverez ci-dessous une transcription éditée et adaptée tirée de l’allocution de Sundar Pichai lors de la conférence I/O 2024, afin d’inclure davantage d’informations que ce qui a été annoncé sur scène. Consultez toutes les annonces dans notre collection.
Google est pleinement entré dans l’ère Gemini.
Avant d’entrer dans le vif du sujet, j’aimerais revenir sur ce moment que nous vivons. Nous investissons dans l’IA depuis plus de dix ans et innovons à chaque niveau de son développement : recherche, produits, infrastructure, et nous allons parler de tout cela aujourd’hui.
Toutefois, nous sommes encore aux débuts de l’évolution de la plateforme d’IA. Il y a tant de possibilités à venir, pour les créateurs, pour les développeurs, pour les entreprises en démarrage, pour tout le monde. L’ère Gemini a pour but d’aider à saisir ces opportunités. Alors, commençons.
L’ère Gemini
Il y a un an, sur la scène de Google I/O, nous avons dévoilé pour la première fois nos plans pour Gemini : un modèle révolutionnaire, intrinsèquement multimodal, capable de raisonner sur du texte, des images, des vidéos, du code, et bien plus encore. Une étape importante vers la transformation de n’importe quelle « entrée » en n’importe quelle « sortie » – une « I/O » pour une nouvelle ère.
Depuis, nous avons lancé les premiers modèles Gemini, nos plus performants à ce jour. Ils ont atteint des performances de pointe sur tous les critères de référence multimodaux. Deux mois plus tard, nous avons présenté Gemini 1.5 Pro, une avancée majeure dans le contexte long. Ce modèle peut exécuter 1 million de jetons en production, de manière constante, soit plus que n’importe quel autre modèle de fondation à grande échelle à ce jour.
Nous voulons que chacun puisse bénéficier du potentiel de Gemini. Nous avons donc partagé rapidement ces avancées avec vous. Aujourd’hui, plus de 1,5 million de développeurs utilisent les modèles Gemini dans nos différents outils. Ceux-ci vous permettent de déboguer le code, d’obtenir de nouvelles informations et de créer la prochaine génération d’applications d’intelligence artificielle.
Nous avons également intégré les capacités révolutionnaires de Gemini dans nos produits, de manière significative. Nous vous présenterons aujourd’hui des exemples concrets dans Recherche, Photos, Workspace, Android et bien plus encore.
Avancée dans les produits
Aujourd’hui, Gemini est utilisé dans tous nos produits qui comptent 2 milliards d’utilisateurs.
Nous avons également introduit de nouvelles expériences, notamment sur les mobiles, où les utilisateurs peuvent interagir avec Gemini directement via l’application, désormais disponible sur Android et iOS. Et grâce à Gemini Advanced, les utilisateurs ont accès à nos modèles les plus performants. Plus d’un million de personnes se sont inscrites pour l’essayer en l’espace de trois mois seulement, et l’initiative continue de prendre de l’ampleur.
Développer les AI Overviews dans Recherche
L’une des transformations les plus intéressantes de Gemini concerne Google Recherche.
Cette année, nous avons répondu à des milliards de requêtes dans le cadre de notre expérience de recherche générative (Search Generative Experience). Les utilisateurs utilisent ce programme pour effectuer des recherches de manière totalement inédite et profiter du meilleur du Web en posant de nouveaux types de questions, en soumettant des requêtes plus longues et plus complexes, et même en effectuant des recherches avec des photos.
Nous avons testé cette expérience hors des fonctionnalités Labs. Il est encourageant de constater non seulement une augmentation de l’utilisation de Recherche, mais aussi une augmentation de la satisfaction des utilisateurs.
Je suis ravi d’annoncer que nous lancerons cette semaine cette expérience entièrement repensée d’AI Overviews, pour tout le monde aux États-Unis. Et nous la déploierons bientôt dans d’autres pays.
De nombreuses innovations trouvent leur origine dans Recherche. Grâce à Gemini, nous pouvons créer des expériences de recherche beaucoup plus puissantes, y compris dans nos produits.
Découvrez la fonctionnalité Ask Photos
Nous avons lancé Google Photos il y a près de neuf ans. Depuis, les utilisateurs s’en servent pour organiser leurs souvenirs les plus importants. Aujourd’hui, plus de 6 milliards de photos et de vidéos sont téléchargées chaque jour.
Et les gens adorent utiliser Photos pour effectuer des recherches sur certains moments de leur vie. Grâce à Gemini, nous simplifions considérablement ces recherches.
Imaginons que vous deviez payer votre stationnement, mais que vous ne vous souveniez pas du numéro de votre plaque d’immatriculation. Avant, vous deviez rechercher des mots clés dans Photos, puis faire défiler des années de photos à la recherche de plaques d’immatriculation. Désormais, vous pouvez simplement demander à Photos. Il reconnaît les voitures qui apparaissent souvent, déduit laquelle est la vôtre et vous indique le numéro de plaque d’immatriculation.
La fonctionnalité Ask Photos peut également vous aider à rechercher vos souvenirs de façon plus précise. Par exemple, vous repensez peut-être aux premiers jalons de votre fille Lucia. Vous pouvez maintenant demander à Photos : « Quand Lucia a-t-elle appris à nager ? »
Et il est possible de poursuivre avec une requête encore plus complexe : « Montre-moi les progrès de Lucia en natation ».
Gemini va au-delà d’une simple recherche, en reconnaissant différents contextes - des longueurs dans la piscine à la plongée en apnée dans l’océan, en passant par le texte et les dates figurant sur les certificats de natation de Lucia. Et Photos regroupe le tout dans un résumé, pour que vous puissiez vraiment vous en imprégner et revivre des souvenirs extraordinaires. Nous lancerons Ask Photos cet été, et bien d’autres fonctionnalités sont à venir.
Avec Ask Photos, vous pouvez effectuer des recherches plus approfondies dans vos photos et vidéos.
Plus d’informations grâce à la multimodalité et au contexte long
Nous avons conçu Gemini pour être multimodal dès le départ afin de favoriser l’accès aux informations dans tous les formats. Il s’agit d’un modèle unique, avec toutes les modalités intégrées. Il ne se contente donc pas de comprendre chaque type d’entrée ; il trouve des connexions entre elles.
La multimodalité élargit considérablement les questions que nous pouvons poser et les réponses que nous pouvons obtenir. Le contexte long va encore plus loin, en nous permettant d’apporter encore plus d’informations : des centaines de pages de texte, des heures d’audio ou une heure de vidéo, des dépôts de code entiers... et, si vous le souhaitez, jusqu’à 96 menus de la chaîne Cheesecake Factory.
Pour un nombre aussi important de menus, vous auriez besoin d’une fenêtre contextuelle d’un million de jetons, ce qui est désormais possible avec Gemini 1.5 Pro. Les développeurs l’utilisent de plusieurs manières intéressantes.
Nous avons déployé en prévisualisation Gemini 1.5 Pro avec un contexte long au cours des derniers mois. Nous avons apporté une série d’améliorations de la qualité au niveau de la traduction, du codage et du raisonnement. Vous verrez ces mises à jour dans le modèle à partir d’aujourd’hui.
Je suis ravi d’annoncer que cette version améliorée de Gemini 1.5 Pro est désormais disponible pour tous les développeurs du monde entier. De plus, Gemini 1.5 Pro avec une fenêtre de contexte d’un million de jetons est désormais directement disponible pour les utilisateurs de Gemini Advanced. Cette version peut être utilisée dans 35 langues.
Expansion jusqu’à 2 millions de jetons en prévisualisation privée
Un million de jetons ouvre la voie à de toutes nouvelles possibilités. C’est remarquable, mais je pense que nous pouvons aller encore plus loin.
Aujourd’hui, nous étendons donc la fenêtre contextuelle à 2 millions de jetons et lamettons à la disposition des développeurs en version prévisualisation privée.
Il est incroyable de constater les progrès que nous avons accomplis en quelques mois. Et c’est la prochaine étape de notre parcours vers l’objectif ultime d’un contexte infini.
L’intégration de Gemini 1.5 Pro dans Workspace
Jusqu’à présent, nous avons parlé de deux avancées techniques : la multimodalité et le contexte long. Chacune est importante en soi. Mais ensemble, elles débloquent des capacités plus approfondies et encore plus d’intelligence.
Google Workspace illustre bien cela.
Les utilisateurs recherchent souvent leurs courriels dans Gmail. Nous travaillons donc à rendre cette tâche plus facile avec Gemini. Par exemple, en tant que parent, vous souhaitez rester informé de tout ce qui se passe à l’école de votre enfant. Gemini peut vous y aider.
Vous pouvez maintenant demander à Gemini de résumer tous les courriels récents en lien avec l’école. En arrière-plan, il identifie les courriels pertinents et analyse même les pièces jointes, comme les PDF. Vous obtenez un résumé des points clés et des actions à entreprendre. Vous étiez peut-être en déplacement cette semaine et n’avez pas pu assister à la réunion de l’association des parents d’élèves. L’enregistrement de la réunion dure une heure. S’il se trouve dans Google Meet, vous pouvez demander à Gemini de vous en donner les grandes lignes. Un groupe de parents recherche des bénévoles et vous êtes libre ce jour-là. Bien sûr, Gemini peut rédiger une réponse.
Il existe d’innombrables autres exemples de la façon dont Gemini peut vous faciliter la vie. Gemini 1.5 Pro est disponible dès maintenant dans Workspace Labs. Découvrez-en plus sur ce sujet avec Aparna.
Sorties audio dans NotebookLM
Nous venons de voir un exemple avec des sorties de texte. Mais les modèles multimodaux permettent d’en faire bien plus.
Nous continuons à progresser dans ce domaine, comme le montrent les aperçus audio dans NotebookLM. Ce programme utilise Gemini pour générer une conversation audio personnalisée et interactive à partir de documents source.
C’est la possibilité de la multimodalité. Bientôt, vous pourrez combiner les entrées et les sorties. C’est ce que nous entendons lorsque nous parlons d’entrées-sorties nouvelle génération. Et si nous pouvions aller encore plus loin ?
Aller plus loin avec les agents d'IA
Les agents d'IA pourraient bien nous donner la possibilité d’aller encore plus loin. Je les considère comme des systèmes intelligents, capables de raisonner, de planifier, de mémoriser, d’anticiper plusieurs étapes à l’avance et de travailler avec des logiciels et des systèmes, tout cela pour accomplir quelque chose en votre nom et, surtout, sous votre supervision.
Nous n’en sommes qu’au début, mais permettez-moi de vous montrer les types de cas d’utilisation sur lesquels nous travaillons.
Commençons par le magasinage. Il est plutôt plaisant d’acheter des chaussures, et beaucoup moins plaisant de les retourner lorsqu’elles ne vous vont pas.
Imaginez si Gemini pouvait faire toutes les démarches à votre place :
Recherche du reçu dans votre boîte de réception…
Recherche du numéro de commande dans votre courriel…
Remplissage du formulaire de retour…
Et même planification du ramassage par UPS.
C’est beaucoup plus facile, non ?
Prenons un autre exemple un peu plus complexe.
Imaginons que vous veniez de déménager à Chicago. Vous pouvez considérer que Gemini et Chrome travaillent ensemble pour vous aider à faire un certain nombre de choses afin de vous préparer : organiser, raisonner, synthétiser en votre nom.
Par exemple, vous allez certainement explorer la ville et chercher les services à proximité, que ce soit des nettoyeurs à sec ou des promeneurs de chiens. Et vous allez devoir mettre à jour votre nouvelle adresse sur des dizaines de sites Web.
Gemini peut effectuer ces tâches, et vous demandera plus d’informations si nécessaire, afin que vous gardiez toujours le contrôle.
Cette partie est vraiment importante : à mesure que nous créons des prototypes de ces expériences, nous réfléchissons sérieusement à la façon de le faire de manière privée, sécurisée et fonctionnelle pour tout le monde.
Il s’agit de cas d’utilisation simples, mais ils vous donnent une bonne idée des types de problèmes que nous voulons résoudre en créant des systèmes intelligents qui anticipent, raisonnent et planifient, le tout en votre nom.
Ce que cela signifie pour notre mission
La puissance de Gemini, avec la multimodalité, le contexte long et les agents d'IA,nous rapproche de notre objectif ultime : rendre l’IA utile à tous.
Nous considérons que c’est ainsi que nous progresserons le plus dans notre mission : organiser les informations du monde à chaque entrée, les rendre accessibles via n’importe quelle sortie et les combiner avec les informations de VOTRE monde, d’une façon qui vous soit vraiment utile.
De nouvelles avancées
Pour exploiter tout le potentiel de l’IA, nous devons innover. L’équipe Google DeepMind travaille sans relâche sur ce sujet.
La version 1.5 Pro et sa fenêtre de contexte long ont suscité beaucoup d’enthousiasme. Mais les commentaires des développeurs nous ont appris qu’ils avaient besoin d’un modèle plus rapide et plus rentable. C’est pourquoi nous présentons Gemini 1.5 Flash, un modèle plus léger conçu pour évoluer et optimisé pour les tâches nécessitant avant tout une faible latence et un faible coût. 1.5 Flash sera disponible dans AI Studio et Vertex AI dès mardi.
À plus long terme, nous avons toujours voulu créer un agent d'IA universel utile dans la vie de tous les jours. Le projet Astra illustre bien une compréhension multimodale et démontre des capacités de conversation en temps réel.
Nous avons également progressé dans la génération de vidéos et d’images avec Veo et Imagen 3, et avons introduit Gemma 2.0, notre prochaine génération de modèles ouverts pour une innovation responsable en matière d’IA. Découvrez-en plus avec Demis Hassabis.
Infrastructures à l’ère de l’IA : découvrez Trillium
L’entraînement de modèles de pointe nécessite une grande puissance de calcul. Au cours des six dernières années, la demande de l’industrie en matière de calcul ML a été multipliée par un million. Et chaque année, elle est multipliée par dix.
Google a été conçu pour cela. Depuis 25 ans, nous investissons dans une infrastructure technique de classe mondiale, du matériel de pointe qui alimente Recherche à nos TPU (Tensor Processing Units) sur mesure qui alimentent nos percées en IA.
Gemini a été entièrement formé et utilisé sur nos TPU de quatrième et cinquième génération. D’autres entreprises d’IA de premier plan, dont Anthropic, ont également entraîné leurs modèles sur des TPU.
Aujourd’hui, nous sommes ravis d’annoncer notre 6e génération de TPU, appelée Trillium. Trillium est notre TPU la plus performante et la plus efficace à ce jour, offrant une amélioration de 4,7 fois la performance de calcul par puce par rapport à la génération précédente, TPU v5e.
Nous mettrons Trillium à la disposition de nos clients Cloud vers la fin de l'année 2024.
En plus de nos TPU, nous sommes fiers de proposer des CPU et des GPU permettant de gérer n’importe quelle charge de travail. Cela inclut les nouveaux processeurs Axion que nous avons présentés le mois dernier, nos premiers processeurs sur mesure basés sur l’architecture ARM, qui offrent des performances et une efficacité énergétique de pointe.
Nous sommes également fiers d’être l’un des premiers fournisseurs Cloud à proposer les GPU Blackwell de pointe de Nvidia, disponibles début 2025. Nous avons la chance d’avoir un partenariat de longue date avec NVIDIA et sommes ravis de proposer les capacités révolutionnaires de Blackwell à nos clients.
Les puces constituent un élément fondamental de notre système intégré de bout en bout, depuis le matériel aux performances optimisées et les logiciels ouverts jusqu’aux modèles de consommation flexibles. Tous ces éléments sont réunis dans notre IA Hypercomputer, une architecture de superordinateur révolutionnaire.
Les entreprises et les développeurs l’utilisent pour relever des défis plus complexes, avec une efficacité plus que doublée par rapport à l’achat de matériel brut et de puces. Nos avancées dans l’infrastructure IA Hypercomputer sont rendues possibles en partie grâce à notre approche du refroidissement liquide dans nos centres de données.
Nous procédons ainsi depuis près d’une décennie, bien avant que cela ne devienne la norme dans le secteur. Aujourd’hui, la capacité totale de notre flotte déployée pour les systèmes de refroidissement liquide s’élève à près de 1 gigawatt et continue de croître. Cela représente près de 70 fois la capacité de n’importe quelle autre flotte.
Cela s’explique par l’ampleur de notre réseau, qui relie notre infrastructure à l’échelle mondiale. Notre réseau s’étend sur plus de 3 millions de kilomètres de fibre terrestre et sous-marine, ce qui est 10 fois (!) supérieur au 2e plus important fournisseur de services infonuagiques.
Nous continuerons à réaliser les investissements nécessaires pour faire progresser l’innovation en matière d’IA et offrir des capacités de pointe.
Le chapitre le plus passionnant de Recherche à ce jour
L’un de nos principaux domaines d’investissement et d’innovation est notre produit phare : Google Recherche. Il y a 25 ans, nous avons créé cet outil pour aider les gens à s’y retrouver dans le flot d’informations qui circulent en ligne.
À chaque évolution de la plateforme, nous avons réalisé des avancées qui nous ont permis de mieux répondre à vos questions.
Sur mobile, nous avons débloqué de nouveaux types de questions et de réponses en utilisant un meilleur contexte, la détection de la position et des informations en temps réel. Grâce aux progrès réalisés dans le domaine de la compréhension du langage naturel et de la vision par ordinateur, nous avons mis au point de nouvelles méthodes de recherche : avec votre voix ou en fredonnant pour trouver votre nouvelle chanson préférée, ou avec l’image de cette fleur que vous avez vue en vous promenant. Et maintenant, vous pouvez même utiliser la fonctionnalité Encercler pour chercher pour entourer ces nouvelles chaussures cool que vous avez envie d’acheter pour lancer une recherche à leur sujet. N’hésitez pas, vous pourrez toujours les retourner !
Bien entendu, Recherche dans l’ère Gemini permettra d’atteindre un tout autre niveau, en combinant nos forces en matière d’infrastructure, les dernières capacités d’IA, nos exigences élevées quant à la qualité de l’information et nos décennies d’expérience pour vous connecter à la richesse du Web. Le résultat de tout cela : un produit qui travaille pour vous.
Google Recherche, c’est l’IA générative à l’échelle de la curiosité humaine. Et c’est le chapitre le plus passionnant de la recherche à ce jour. Découvrez-en plus sur la recherche à l’ère Gemini avec Liz Reid.
Des expériences Gemini plus intelligentes
Gemini est plus qu’un agent conversationnel. Conçu comme un assistant personnel, il est pratique, vous aide à accomplir des tâches complexes et agit même en votre nom.
Interagir avec Gemini doit être intuitif, comme une conversation. Nous présentons donc une nouvelle expérience Gemini, appelée Gemini Live, qui nous rapproche de cette vision et vous permet d’avoir une conversation approfondie avec Gemini en utilisant votre voix. Nous apporterons également 2 millions de jetons à Gemini Advanced au cours de l’année, ce qui permettra de télécharger et d’analyser des fichiers très denses comme des vidéos et de longues séquences de code. Découvrez-en plus avec Sissie Hsiao.
Gemini pour Android
Avec des milliards d’utilisateurs Android dans le monde, nous sommes ravis de présenter une expérience Gemini encore plus intégrée au niveau du système d’exploitation. En tant que nouvel assistant IA, Gemini est là pour vous aider à tout moment et en tout lieu. Nous avons intégré les modèles Gemini dans Android, y compris notre dernier modèle sur appareil : Gemini Nano avec Multimodalité, qui traite le texte, les images, l’audio et la parole pour vous faire vivre de nouvelles expériences tout en préservant la confidentialité des informations sur votre appareil. Consultez toute l’actualité Android ici.
Notre approche responsable de l’IA
Nous abordons la possibilité de l’IA avec audace et enthousiasme, mais veillons également à agir de manière responsable. Nous développons pour cela une technique de pointe que nous appelons le Red Teaming assisté par l’IA. Cette technique s’appuie sur les avancées de Google DeepMind dans le domaine des jeux, comme AlphaGo. De plus, nous avons étendu nos innovations techniques en matière de filigrane, comme SynthID, à deux nouvelles modalités, le texte et la vidéo, afin que le contenu généré par l’IA soit plus facile à identifier. James Manyika vous en dit plus à ce sujet.
Créer l’avenir ensemble
Tout cela témoigne des progrès importants que nous réalisons, à travers notre approche audacieuse et responsable pour rendre l’IA utile à tous.
Avant de conclure, je pense que quelqu’un doit être en train de compter le nombre de fois où nous avons mentionné l’IA aujourd’hui. Et je suppose que nous en ajouterons encore quelques-unes avant la fin.
Mais peu importe le nombre de fois que nous avons mentionné l’IA, ce qui compte, c’est que cela reflète quelque chose de beaucoup plus profond. Cela fait longtemps que notre approche est axée sur l’IA. Nos décennies de leadership en matière de recherche ont été à l’origine de nombreuses percées modernes qui favorisent les progrès de l’IA, pour nous et pour l’industrie.
En plus de cela, nous avons :
- Une infrastructure de renommée mondiale conçue pour l’ère de l’IA
- Une innovation de pointe dans Google Recherche, désormais optimisée par Gemini
- Des produits utiles à une échelle extraordinaire, dont 15 produits comptant un demi-milliard d’utilisateurs
- Et des plateformes qui permettent à chacun – partenaires, clients, créateurs et vous tous – d’inventer l’avenir
Ces progrès ne sont possibles que grâce à notre incroyable communauté de développeurs. C’est vous qui rendez cela réel, grâce aux expériences et aux applications que vous créez chaque jour. C’est pourquoi, à tous ceux et celles qui sont ici à Shoreline, et aux millions d’autres qui nous regardent dans le monde entier, je vous invite à découvrir les possibilités qui s’offrent à nous et à les créer ensemble.