Accéder au menu principal
Blog Google France

IA

Google I/O 2024 : une I/O pour une nouvelle génération

Sundar Pichai sur la scène de Google I/O 2024

Note de l'éditeur : Le texte ci-dessous est une transcription tirée de l’intervention de Sundar Pichai à I/O 2024. Cette transcription a été modifiée et adaptée pour inclure davantage d’informations par rapport à ce qui a été annoncé sur scène. Voir toutes les annonces

Google est pleinement entré dans l’ère Gemini.

Avant d’entrer dans le vif du sujet, j’aimerais revenir sur le moment que nous vivons. Nous investissons dans l'IA depuis plus d'une décennie et innovons à tous les niveaux : recherche, produit, infrastructure… Nous allons parler de tout cela aujourd'hui.

Pourtant, nous n’en sommes qu’aux débuts de l’évolution des plateformes d’IA. Nous anticipons de nombreuses opportunités à venir, pour les créateurs, pour les développeurs, pour les startups, pour tout le monde. Contribuer à générer ces opportunités est la raison d’être de l’ère Gemini. Alors, allons-y !

Vidéo de présentation des dernières évolutions de Gemini lors de Google I/O 2024
10:25

L’ère Gemini

Il y a un an, sur la scène de Google I/O, nous avons dévoilé nos plans pour Gemini : un modèle révolutionnaire, nativement multimodal, capable de raisonner sur du texte, des images, des vidéos, du code, et bien plus encore. Un pas de géant vers la transformation de n'importe quel input ("entrée") en n'importe quel output ("sortie") – une I/O pour une nouvelle ère.

Depuis, nous avons lancé les premiers modèles Gemini, nos plus puissants à ce jour. Ils ont atteint des performances de pointe sur tous les benchmarks multimodaux. Deux mois plus tard, Gemini 1.5 Pro a été introduit, marquant une percée dans le contexte long. Ce modèle peut exécuter 1 million de jetons en production, de manière constante, soit plus que n’importe quel autre modèle de fondation à grande échelle à ce jour.

Nous voulons que chacun puisse bénéficier du potentiel de Gemini. Nous avons donc rapidement partagé ces avancées avec vous. Aujourd'hui, plus de 1,5 million de développeurs utilisent les modèles Gemini dans nos outils. Vous les utilisez pour débuguer du code, obtenir de nouvelles perspectives et construire la prochaine génération d'applications IA.

Nous avons aussi intégré les capacités révolutionnaires de Gemini dans nos produits de manière significative. Nous présenterons des exemples concrets aujourd'hui dans la Recherche, Photos, Workspace, Android, et plus encore.

Progression dans les produits

Aujourd’hui, tous nos produits comptant 2 milliards d'utilisateurs utilisent Gemini.

Nous avons aussi introduit de nouvelles expériences, notamment sur mobile. Les utilisateurs peuvent interagir avec Gemini directement via l'application, désormais disponible sur Android et iOS, mais aussi via Gemini Advanced, qui donne accès à nos modèles les plus performants. Plus d’un million de personnes se sont inscrites pour l’essayer en seulement trois mois, et cette dynamique ne semble pas près de ralentir.

Développer AI Overviews dans la recherche Google

L'une des transformations les plus intéressantes de Gemini concerne la recherche Google.

Au cours de l’année écoulée, nous avons répondu à des milliards de requêtes dans le cadre de Search Generative Experience (SGE). Les internautes utilisent ce programme pour effectuer des recherches de manière totalement inédite et profiter du meilleur du Web en posant de nouveaux types de questions, en soumettant des requêtes plus longues et plus complexes, et même en effectuant des recherches avec des photos.

Nous avons testé cette expérience en dehors des fonctionnalités Labs, et nous avons eu le plaisir de constater non seulement une augmentation de l’utilisation de la recherche, mais aussi une augmentation de la satisfaction des utilisateurs.

Je suis heureux de vous annoncer que nous lancerons cette semaine l’expérience entièrement repensée d'AI Overviews pour tout le monde aux États-Unis. D’autres pays seront aussi bientôt concernés.

De nombreuses innovations trouvent leur origine dans la Recherche Google. Grâce à Gemini, nous pouvons créer des expériences de recherche beaucoup plus puissantes, y compris au sein de nos produits.

Découvrez la fonctionnalité Ask Photos

Google Photos, que nous avons lancé il y a presque neuf ans, en est un excellent exemple. Les personnes l’utilisent pour organiser leurs souvenirs les plus importants. Aujourd’hui, plus de 6 milliards de photos et de vidéos sont uploadées chaque jour.

Les gens adorent utiliser Photos pour effectuer des recherches sur certains moments de leur vie. Avec Gemini, nous rendons cela encore plus facile.

Imaginons que vous deviez payer votre stationnement, mais que vous ne vous souveniez pas du numéro de votre plaque d'immatriculation. Avant, vous deviez rechercher des mots clés dans Photos, puis faire défiler des années de photos à la recherche de plaques d’immatriculation. Désormais, vous pouvez simplement demander à Photos. Il reconnaît les voitures qui apparaissent souvent, déduit laquelle est la vôtre et vous indique le numéro de plaque d'immatriculation.

Et la fonctionnalité Ask Photos peut vous aider à rechercher vos souvenirs de manière encore plus précise. Par exemple, vous repensez peut-être aux premiers succès de votre fille, Lucia. Vous pouvez maintenant demander à Photos : « Quand Lucia a-t-elle appris à nager ? »

Vous pouvez même poursuivre avec une requête encore plus complexe : « Montre-moi comment Lucia a progressé en natation. »

Ici, Gemini va au-delà d'une simple recherche, en reconnaissant différents contextes - des longueurs en piscine à la plongée en apnée dans l'océan, en passant par le texte et les dates figurant sur les certificats de natation. Et Photos regroupe le tout dans un résumé, pour vous permettre d’en prendre plein les yeux et de revivre des souvenirs extraordinaires. Nous lancerons Ask Photos cet été, avec d'autres fonctionnalités à venir.

Ask Photos

Encore plus d’informations grâce à la multimodalité et au contexte long

Nous avons conçu Gemini pour être multimodal dès le départ afin de favoriser l’accès aux informations dans tous les formats. Il s'agit d'un modèle unique, avec toutes les modalités intégrées. Il ne se contente donc pas de comprendre chaque type d'entrée - il trouve des connexions entre elles.

La multimodalité élargit radicalement les questions que nous pouvons poser et les réponses que nous pouvons obtenir. Et le contexte long va encore plus loin, en nous permettant d'apporter encore plus d'informations : des centaines de pages de texte, des heures d'audio ou une heure de vidéo, des dépôts de code entiers… et même, si vous voulez, jusqu'à 96 menus Cheesecake Factory.

Pour autant de menus, il faudrait une fenêtre de contexte d'un million de tokens : c’est désormais possible avec Gemini 1.5 Pro. Les développeurs l’utilisent d’ailleurs de mille et unes manières fascinantes.

Gemini
10:25

Nous avons déployé Gemini 1.5 Pro avec un contexte long en version Preview au cours des derniers mois. Nous avons apporté une série d’améliorations de la qualité au niveau de la traduction, du codage et du raisonnement. Vous observerez ces mises à jour dans le modèle à partir d’aujourd’hui.

Aujourd’hui, j’ai le plaisir de vous annoncer que nous proposons cette version améliorée de Gemini 1.5 Pro à tous les développeurs du monde entier. De plus, Gemini 1.5 Pro avec une fenêtre de contexte d'un million de jetons est désormais directement disponible pour les utilisateurs de Gemini Advanced. Cette version peut être utilisée dans 35 langues.

Élargissement à 2 millions de tokens en version Preview privée

Un million de tokens ouvrent de toutes nouvelles possibilités. C’est formidable, mais je pense que nous pouvons aller encore plus loin.

Aujourd’hui, nous élargissons donc la fenêtre de contexte à 2 millions de tokens et la mettons à la disposition des développeurs en version Preview privée.

C'est incroyable de regarder en arrière et de voir à quel point nous avons progressé en seulement quelques mois. Et cela représente la prochaine étape de notre voyage vers l’objectif ultime d’un contexte infini.

Gemini 1.5 Pro dans Workspace

Jusqu’à présent, nous avons parlé de deux avancées techniques : la multimodalité et le contexte long. Chacune est significative en soi. Mais ensemble, elles débloquent des capacités plus approfondies et encore davantage d’intelligence.

Google Workspace illustre très bien cela.

Les utilisateurs sont souvent à la recherche de leurs e-mails dans Gmail. Nous travaillons donc à rendre cette tâche bien plus efficace avec Gemini. Par exemple, en tant que parent, il est normal que vous souhaitiez rester informé de tout ce qui se passe à l’école de votre enfant. Et Gemini peut vous y aider.

Vous pouvez maintenant demander à Gemini de résumer tous les e-mails récents en lien avec l'école. En arrière-plan, il identifie les e-mails pertinents et analyse même les pièces jointes, comme les PDF. Vous obtenez un résumé des points clés et des actions à entreprendre. Vous étiez peut-être en déplacement cette semaine et n’avez pas pu assister à la réunion de l’association des parents d'élèves. L'enregistrement de la réunion dure une heure. S'il se trouve dans Google Meet, vous pouvez demander à Gemini de vous en donner les grandes lignes. Un groupe de parents recherche des bénévoles et vous êtes libre ce jour-là. Bien sûr, Gemini peut rédiger une réponse.

Il existe d’innombrables autres exemples de la manière dont Gemini peut vous faciliter la vie. Gemini 1.5 Pro est disponible dès à présent dans Workspace Labs. Découvrez-en plus sur ce sujet avec Aparna.

Sorties audio dans NotebookLM

Nous venons de voir un exemple avec des sorties de texte. Mais les modèles multimodaux permettent d’en faire bien plus.

Nous continuons à progresser dans ce domaine, comme le montrent les résumés audio dans NotebookLM. Ce programme utilise Gemini pour générer une conversation audio personnalisée et interactive à partir de documents source.

C'est l'opportunité de la multimodalité. Bientôt, vous pourrez combiner les inputs et les outputs. C’est ce que nous entendons lorsque nous parlons d’entrées/sorties nouvelle génération. Et si nous pouvions aller encore plus loin ?

Aller plus loin avec les agents IA

Les agents IA pourraient bien nous donner l’opportunité d’aller encore plus loin. Je les considère comme des systèmes intelligents, capables de raisonner, de planifier, de mémoriser, d’anticiper plusieurs étapes à l’avance et de travailler avec des logiciels et des systèmes, tout cela pour accomplir quelque chose en votre nom et, surtout, sous votre supervision.

Nous n’en sommes qu’au début, mais permettez-moi de vous montrer les types de cas d’utilisation sur lesquels nous travaillons.

Commençons par le shopping. Il est assez amusant d’acheter des chaussures, mais beaucoup moins amusant de devoir les rendre lorsqu’elles ne vous vont pas.

Imaginez si Gemini pouvait faire toutes les démarches à votre place :

Recherche du reçu dans votre boîte de réception…

Recherche du numéro de commande dans votre e-mail…

Remplissage du formulaire de retour…

Et même planification du ramassage par le transporteur.

Cela devient beaucoup plus facile, non ?

Prenons un autre exemple un peu plus complexe.

Imaginons que vous veniez de déménager à Chicago. Vous pouvez considérer que Gemini et Chrome travaillent ensemble pour vous aider à faire un certain nombre de choses afin de vous préparer : organiser, raisonner, synthétiser en votre nom. Par exemple, vous allez certainement explorer la ville et chercher les services à proximité, du pressing aux promeneurs de chiens. Et vous allez devoir mettre à jour votre nouvelle adresse sur des dizaines de sites Web.

Gemini peut effectuer ces tâches, et vous demandera plus d’informations si nécessaire – afin que vous gardiez toujours le contrôle.

Cette partie est vraiment importante : à mesure que nous créons des prototypes de ces expériences, nous réfléchissons sérieusement à la manière de le faire de manière privée, sécurisée et qui fonctionne pour tout le monde.

Il s’agit de cas d'utilisation simples, mais ils vous donnent une bonne idée des types de problèmes que nous voulons résoudre en créant des systèmes intelligents qui anticipent, raisonnent et planifient, le tout en votre nom.

Le lien avec notre mission

La puissance de Gemini – avec la multimodalité, le contexte long et les agents IA – nous rapproche de notre objectif ultime : rendre l’IA utile à tous.

Nous considérons que c'est ainsi que nous progresserons le plus dans notre mission : organiser les informations du monde à chaque inpnut, les rendre accessibles via n'importe quel output et les combiner avec les informations de VOTRE monde, d'une façon qui vous soit vraiment utile.

De nouvelles avancées

Pour exploiter tout le potentiel de l’IA, nous devons innover. L'équipe Google DeepMind travaille d'arrache-pied sur ce sujet.

La version 1.5 Pro et sa fenêtre de contexte étendue ont suscité beaucoup d’enthousiasme. Mais les commentaires des développeurs nous ont appris qu'ils avaient besoin d’un modèle plus rapide et plus rentable. C’est pourquoi nous présenton Gemini 1.5 Flash, un modèle plus léger conçu pour évoluer et optimisé pour les tâches nécessitant avant tout une faible latence et un faible coût. 1.5 Flash sera disponible dans AI Studio et Vertex AI.

À plus long terme, nous avons toujours voulu créer un agent IA universel qui serait utile au quotidien. Le Project Astra tend vers cet idéal avec une compréhension multimodale et des capacités conversationnelles en temps réel.

Project Astra
10:25

Nous avons également progressé dans la génération de vidéos et d'images avec Veo et Imagen 3, et introduit Gemma 2.0, notre prochaine génération de modèles ouverts pour une innovation responsable en matière d'IA. Découvrez-en plus avec Demis Hassabis.

Infrastructures à l’ère de l’IA : découvrez Trillium

L’entraînement de modèles de pointe nécessite beaucoup de puissance de calcul. Au cours des six dernières années, la demande de l’industrie en matière de calcul de Machine Learning (ML) a été multipliée par 1 million. Et chaque année, elle est multipliée par dix.

Google a été conçu pour cela. Depuis 25 ans, nous investissons dans une infrastructure technique de classe mondiale, du matériel de pointe qui alimente la Recherche Google à nos TPU (Tensor Processing Units) sur mesure qui alimentent nos percées en IA.

Gemini a été entièrement entraîné et utilisé sur nos TPU de quatrième et cinquième génération. D’autres grandes entreprises d’IA, dont Anthropic, ont aussi entraîné leurs modèles sur des TPU.

Aujourd’hui, nous sommes heureux d'annoncer l’arrivée de notre 6e génération de TPU, Trillium. Trillium est notre TPU le plus performant et le plus efficace à ce jour, avec une performance de calcul par puce 4,7 fois supérieure par rapport à la génération précédente, le TPU v5e.

Nous mettrons Trillium à la disposition de nos clients Cloud fin 2024.

Outre nos TPU, nous sommes fiers de proposer des CPU et des GPU permettant de gérer n'importe quelle charge de travail. Cela inclut les nouveaux processeurs Axion que nous avons présentés le mois dernier, nos premiers processeurs sur mesure basés sur l’architecture ARM qui offrent des performances et une efficacité énergétique de pointe.

Nous sommes également fiers d’être l’un des premiers fournisseurs Cloud à proposer les GPU Blackwell de pointe de Nvidia, disponibles début 2025. Nous avons la chance d’avoir un partenariat de longue date avec NVIDIA et sommes ravis de proposer les capacités révolutionnaires de Blackwell à nos clients.

Les puces constituent un élément fondamental de notre système intégré de bout en bout, depuis le matériel aux performances optimisées et les logiciels ouverts jusqu'aux modèles de consommation flexibles. Tous ces éléments sont réunis dans notre AI Hypercomputer, une architecture de superordinateur révolutionnaire.

Les entreprises et les développeurs l'utilisent pour relever des défis plus complexes, avec une efficacité plus que doublée par rapport à l'achat de matériel brut et de puces. Nos avancées dans l’infrastructure AI Hypercomputer sont rendues possibles en partie grâce à notre approche du refroidissement liquide dans nos centres de données.

Nous procédons ainsi depuis près d’une décennie, bien avant que cela ne devienne la norme dans le secteur. Aujourd’hui, la capacité totale de notre flotte déployée pour les systèmes de refroidissement liquide s’élève à près de 1 gigawatt et continue de croître. Cela représente près de 70 fois la capacité de n’importe quelle autre flotte.

Cela s'explique par l'ampleur de notre réseau, qui relie notre infrastructure à l'échelle mondiale. Notre réseau s'étend sur plus de 3 millions de kilomètres de fibre terrestre et sous-marine : cela est plus de 10 fois (!) supérieur à un autre leader dans le Cloud.

Nous continuerons à réaliser les investissements nécessaires pour faire progresser l’innovation en matière d’IA et offrir des capacités de pointe.

Le chapitre le plus passionnant de la recherche Google à ce jour

L’un de nos principaux domaines d’investissement et d’innovation est notre produit phare : la Recherche Google.

Il y a 25 ans, nous avons créé cet outil pour aider les gens à s’y retrouver dans le flot d'informations qui circulent en ligne.

À chaque évolution des plateformes, nous avons réalisé des avancées qui nous ont permis de mieux répondre à vos questions.

Sur mobile, nous avons débloqué de nouveaux types de questions et de réponses en utilisant un meilleur contexte, la détection de la position et des informations en temps réel.

Grâce aux progrès réalisés dans le domaine de la compréhension du langage naturel et de la vision par ordinateur, nous avons mis au point de nouvelles méthodes de recherche : avec votre voix ou en fredonnant pour trouver votre nouvelle chanson préférée, ou avec l'image de cette fleur que vous avez vue en vous promenant.

Et maintenant, vous pouvez même entourer avec vos doigts ces nouvelles chaussures cool que vous avez envie d’acheter pour lancer une recherche à leur sujet. N’hésitez pas, vous pourrez toujours les renvoyer !

Bien entendu, la recherche à l'ère Gemini permettra d’atteindre un tout autre niveau, en combinant nos forces en matière d'infrastructure, les dernières capacités d’IA, nos exigences élevées quant à la qualité de l'information et nos décennies d'expérience pour vous connecter à la richesse du Web. Le résultat de tout cela : un produit qui travaille pour vous.

La recherche Google, c’est l’IA générative à l’échelle de la curiosité humaine. Et c’est le chapitre le plus passionnant de la recherche à ce jour. Découvrez-en plus sur la recherche à l’ère Gemini avec Liz Reid.

Des expériences Gemini plus intelligentes

Gemini est plus qu'un chatbot. Conçu comme un assistant personnel, il est pratique, vous aide à accomplir des tâches complexes et agit même en votre nom.

Interagir avec Gemini doit être intuitif, comme une conversation. Nous présentons donc une nouvelle expérience Gemini, appelée Gemini Live, qui nous rapproche de cette vision et vous permet d'avoir une conversation approfondie directe avec Gemini. Nous apporterons également 2 millions de tokens à Gemini Advanced dans le courant de l’année, ce qui permettra de télécharger et d'analyser des fichiers très denses comme des vidéos et de longues séquences de code. Découvrez-en plus avec Sissie Hsiao.

Gemini pour Android

Avec des milliards d'utilisateurs Android dans le monde, nous sommes ravis de présenter une expérience Gemini encore plus intégrée au niveau du système d’exploitation. En tant que nouvel assistant IA, Gemini est là pour vous aider à tout moment et partout. Nous avons intégré les modèles Gemini dans Android, y compris notre dernier modèle sur l’appareil : Gemini Nano with Multimodality, qui traite le texte, les images, l'audio et la parole pour offrir de nouvelles expériences tout en gardant les informations privées sur votre appareil. En savoir plus sur les dernières annonces Android avec Sameer Samat.

Notre approche responsable de l’IA

Nous abordons l’opportunité de l’IA avec audace et enthousiasme, mais veillons également à agir de manière responsable. Nous développons pour cela une technique de pointe que nous appelons le Red Teaming assisté par l'IA. Cette technique s'appuie sur les avancées de Google DeepMind dans le domaine des jeux, comme AlphaGo. De plus, nous avons étendu nos innovations techniques en matière de filigrane, comme SynthID, à deux nouvelles modalités, le texte et la vidéo, afin que le contenu généré par l'IA soit plus facile à identifier. James Manyika vous en dit plus à ce sujet.

Créer l'avenir ensemble

Tout cela témoigne des progrès importants que nous réalisons, à travers notre approche audacieuse et responsable pour rendre l'IA utile à tous.

Nous sommes IA-first depuis longtemps. Nos décennies de leadership en recherche sont à l'origine de nombreuses avancées modernes qui alimentent les progrès de l'IA, pour nous et pour l'industrie dans son ensemble.

En plus de cela, nous avons :

  • Une infrastructure de renommée mondiale conçue pour l'ère de l'IA
  • Une innovation de pointe dans la Recherche Google, désormais optimisée par Gemini
  • Des produits utiles à une échelle extraordinaire, dont 15 produits comptant un demi-milliard d'utilisateurs
  • Et des plateformes qui permettent à chacun – partenaires, clients, créateurs et vous tous – d’inventer l’avenir

Ces progrès ne sont possibles que grâce à notre incroyable communauté de développeurs. C’est vous qui rendez cela réel, grâce aux expériences et aux applications que vous créez chaque jour. J’invite tous ceux qui sont ici à Shoreline et les millions d’autres personnes qui nous regardent dans le monde à célébrer avec moi les possibilités qui s’offrent à nous ainsi que notre capacité à les créer ensemble.