Gemini 2.0 : notre nouveau modèle pour l'ère des agents IA
Un mot de Sundar Pichai, PDG de Google et d'Alphabet :
L'information est au cœur du progrès humain. C'est la raison pour laquelle nous nous concentrons depuis plus de 26 ans sur notre mission, qui est d'organiser l'information mondiale et de la rendre accessible et utile. Et c'est pourquoi nous continuons à repousser les frontières de l'IA pour organiser cette information à travers chaque entrée et la rendre accessible par n'importe quelle sortie, afin qu'elle puisse vous être vraiment utile.
Telle était notre vision lorsque nous avons présenté Gemini 1.0 en décembre dernier. Premier modèle conçu pour être nativement multimodal, Gemini 1.0 et 1.5 ont permis de grandes avancées en matière de multimodalité et de long contexte pour comprendre les renseignements à travers le texte, la vidéo, les images, le son et le code, et en traiter beaucoup plus.
Aujourd'hui, des millions de développeurs construisent avec Gemini. Et cela nous aide à réimaginer tous nos produits, y compris les sept qui comptent deux milliards d'utilisateurs, et à en créer de nouveaux. NotebookLM est un excellent exemple de ce que la multimodalité et le long contexte peuvent permettre aux gens de faire, et c'est la raison pour laquelle il est aimé par tant d'entre eux.
L'année dernière, nous avons investi dans le développement de modèles plus agentifs, c'est-à-dire capables de mieux comprendre le monde qui vous entoure, d'anticiper plusieurs étapes et d'agir en votre nom, sous votre supervision.
Aujourd'hui, nous sommes ravis de lancer notre nouvelle ère de modèles conçus pour cette nouvelle ère agentive : nous présentons Gemini 2.0, notre modèle le plus performant à ce jour. Grâce à de nouvelles avancées dans le domaine de la multimodalité, comme la sortie native d'images et de sons et l'utilisation native d'outils, il nous permettra de créer de nouveaux agents d'IA qui nous rapprocheront de notre vision d'un assistant universel.
Nous mettons la version 2.0 à la disposition des développeurs et des testeurs de confiance dès aujourd'hui. Et nous travaillons rapidement pour l'intégrer dans nos produits, en commençant par Gemini et Recherche. À partir d'aujourd'hui, le modèle expérimental Gemini 2.0 Flash sera accessible pour tous les utilisateurs de Gemini. Nous lançons également une nouvelle fonctionnalité appelée Deep Research, qui utilise des capacités avancées de raisonnement et de long contexte pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports en votre nom. Elle est accessible dès aujourd'hui dans Gemini Advanced.
Aucun produit n'a été autant transformé par l'IA que Recherche. Nos Aperçus IA touchent maintenant un milliard de personnes, leur permettant de poser des types de questions entièrement nouveaux, et devenant rapidement l'une de nos fonctionnalités de recherche les plus populaires. Comme prochaine étape, nous apportons les capacités de raisonnement avancées de Gemini 2.0 aux Aperçus IA afin de traiter des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé des tests limités cette semaine et nous les déploierons plus largement au début de l'année prochaine. Nous continuerons à proposer les Aperçus IA dans d'autres pays et d'autres langues au cours de l'année prochaine.
Les avancées de la version 2.0 s'appuient sur des investissements réalisés au cours des 10 dernières années dans notre approche complète et différenciée de l'innovation en matière d'IA. Celle-ci s'appuie sur du matériel personnalisé tel que Trillium, notre TPU de sixième génération. Les TPU ont alimenté 100 % de l'entraînement et de l'inférence de Gemini 2.0, et aujourd'hui Trillium est généralement disponible pour les clients afin qu'ils puissent construire avec lui également.
Si Gemini 1.0 visait à organiser et à comprendre les renseignements, Gemini 2.0 vise à les rendre beaucoup plus utiles. J'ai hâte de voir ce que cette nouvelle ère nous apportera.
-Sundar
Présentation de Gemini 2.0 : notre nouveau modèle d'IA pour l'ère agentive
Par Demis Hassabis, PDG de Google DeepMind et Koray Kavukcuoglu, directeur technique de Google DeepMind, au nom de l'équipe Gemini
Au cours de l'année écoulée, nous avons continué à faire des progrès incroyables dans le domaine de l'intelligence artificielle. Aujourd'hui, nous annonçons Gemini 2.0, notre modèle d'intelligence artificielle le plus performant à ce jour. Le premier modèle de cette nouvelle ère est une version expérimentale de Gemini 2.0 Flash, notre modèle de base avec une faible latence et des performances améliorées à la pointe de notre technologie, à l'échelle.
Nous partageons également les frontières de notre recherche agentive en présentant des prototypes activés par les capacités multimodales natives de Gemini 2.0.
Gemini 2.0 Flash
Gemini 2.0 Flash s'appuie sur le succès de 1.5 Flash, notre modèle le plus populaire à ce jour pour les développeurs, avec des performances améliorées et des temps de réponse tout aussi rapides. Notamment, 2.0 Flash surpasse même 1.5 Pro sur des critères de référence clés, à une vitesse deux fois plus élevée. Flash 2.0 est également doté de nouvelles capacités. Outre la prise en charge des entrées multimodales telles que les images, la vidéo et le son, Flash 2.0 prend désormais en charge les sorties multimodales telles que les images générées en mode natif mélangées à du texte et à du son multilingue orientable de synthèse vocale. Il peut également appeler en mode natif des outils tels que Recherche Google, l'exécution de code ainsi que des fonctions tierces définies par l'utilisateur.
Notre objectif est de mettre nos modèles entre les mains des utilisateurs rapidement et en toute sécurité. Au cours du mois dernier, nous avons partagé les premières versions expérimentales de Gemini 2.0, ce qui nous a permis d'obtenir d'excellents commentaires de la part des développeurs.
Gemini 2.0 Flash est désormais disponible en tant que modèle expérimental pour les développeurs par l'API Gemini dans Google AI Studio etVertex AI, avec une entrée multimodale, une sortie texte et une synthèse vocale, ainsi qu'une génération d'image native proposée aux partenaires ayant bénéficié d'un accès anticipé. La disponibilité générale suivra en janvier, ainsi que d'autres tailles de modèles.
Pour aider les développeurs à créer des applications dynamiques et interactives, nous lançons également une nouvelle API Multimodal Live qui offre une entrée audio et vidéo en temps réel et la possibilité d'utiliser plusieurs outils combinés. Pour obtenir plus d'informations sur Flash 2.0 et sur l'API Multimodal Live, consultez notre blogue pour les développeurs.
Gemini 2.0 accessible dans l'appli Gemini, notre assistant IA
Également à partir d'aujourd'hui, les utilisateurs de Gemini dans le monde entier peuvent accéder à une version optimisée pour le clavardage de 2.0 Flash Experimental en la sélectionnant dans le menu déroulant du modèle sur le bureau et le Web mobile, et elle sera bientôt accessible dans l'appli mobile Gemini. Avec ce nouveau modèle, les utilisateurs peuvent bénéficier d'un assistant Gemini encore plus utile.
Au début de l'année prochaine, nous étendrons Gemini 2.0 à d'autres produits Google.
Débloquer des expériences agentives avec Gemini 2.0
Les capacités d'action de l'interface utilisateur native de Gemini 2.0 Flash, ainsi que d'autres améliorations telles que le raisonnement multimodal, la compréhension des longs contextes, le suivi et la planification d'instructions complexes, l'appel de fonctions compositionnelles, l'utilisation d'outils natifs et l'amélioration de la latence, fonctionnent toutes de concert pour permettre une nouvelle classe d'expériences agentives.
L'application pratique des agents d'IA est un domaine de recherche plein de possibilités passionnantes. Nous explorons cette nouvelle frontière avec une série de prototypes qui peuvent aider les gens à accomplir des tâches et à faire avancer les choses. Il s'agit notamment d'une mise à jour du projet Astra, notre prototype de recherche explorant les capacités futures d'un assistant IA universel, du nouveau projet Mariner, qui explore l'avenir de l'interaction humain-agent, en commençant par votre navigateur, et de Jules, un agent de code propulsé par l'IA qui peut aider les développeurs.
Nous n'en sommes qu'aux premiers stades du développement, mais nous sommes impatients de voir comment les testeurs de confiance utilisent ces nouvelles capacités et quels enseignements nous pouvons en tirer, afin de les rendre plus largement disponibles dans les produits à l'avenir.
Projet Astra : des agents utilisant la compréhension multimodale dans le monde réel
Depuis que nous avons présenté le projet Astra lors de la conférence I/O, nous avons appris des testeurs de confiance qui l'ont utilisé sur des téléphones Android. Leurs précieux commentaires nous ont aidés à mieux comprendre comment un assistant IA universel pourrait fonctionner dans la pratique, y compris les implications pour la sécurité et l'éthique. Les améliorations apportées à la dernière version développée avec Gemini 2.0 sont les suivantes :
- Un meilleur dialogue : le projet Astra est désormais capable de converser dans plusieurs langues et dans des langues mixtes, avec une meilleure compréhension des accents et des mots peu communs.
- Nouvelle utilisation des outils : avec Gemini 2.0, le projet Astra peut utiliser Recherche Google, Lentille et Maps, ce qui le rend plus utile en tant qu'assistant dans votre vie quotidienne.
- Meilleure mémoire : nous avons amélioré la capacité du projet Astra à se souvenir des choses tout en vous laissant le contrôle. Il dispose désormais de 10 minutes de mémoire en session et peut se souvenir d'un plus grand nombre de conversations que vous avez eues avec lui par le passé, ce qui lui permet de mieux s'adapter à vous.
- Amélioration de la latence : grâce aux nouvelles capacités de diffusion en continu et à la compréhension audio native, l'agent peut comprendre le langage avec une latence à peu près équivalente à celle d'une conversation humaine.
Nous nous efforçons d'apporter ce type de capacités aux produits Google comme l'appli Gemini, notre assistant IA, et à d'autres facteurs de forme comme les lunettes. Nous commençons à étendre notre programme de testeurs de confiance à un plus grand nombre de personnes, dont un petit groupe qui commencera bientôt à tester le projet Astra sur des lunettes prototypes.
Projet Mariner : des agents qui peuvent vous aider à accomplir des tâches complexes
Le projet Mariner est un prototype de recherche précoce construit avec Gemini 2.0 qui explore l'avenir de l'interaction humain-agent, en commençant par votre navigateur. En tant que prototype de recherche, il est capable de comprendre et de raisonner en utilisant les informations contenues dans l'écran de votre navigateur, y compris les pixels et les éléments Web tels que le texte, le code, les images et les formulaires, puis d'utiliser ces informations au moyen d'une extension Chrome expérimentale pour accomplir des tâches à votre place.
Évalué par rapport à l'indice de référence WebVoyager, qui teste les performances des agents sur des tâches Web réelles de bout en bout, le projet Mariner a obtenu un résultat de 83,5 % en tant qu'agent unique.
Il est encore tôt, mais le projet Mariner montre qu'il devient techniquement possible de naviguer dans un navigateur. Même s'il n'est pas toujours précis et qu'il est lent à accomplir des tâches aujourd'hui, cela s'améliorera rapidement avec le temps.
Pour construire ce système de manière sûre et responsable, nous menons des recherches actives sur de nouveaux types de risques et de mesures d'atténuation, tout en gardant les humains dans le coup. Par exemple, le projet Mariner ne peut taper, faire défiler ou cliquer que dans l'onglet actif de votre navigateur et il demande aux utilisateurs une confirmation finale avant d'entreprendre certaines actions sensibles, comme un achat.
Des testeurs de confiance commencent à tester le projet Mariner à l'aide d'une extension Chrome expérimentale, et nous entamons parallèlement des discussions avec l'écosystème du Web.
Jules : des agents pour les développeurs
Ensuite, nous explorons comment les agents d'IA peuvent aider les développeurs avec Jules, un agent de code expérimental propulsé par l'IA qui s'intègre directement dans un flux de travail GitHub. Il peut s'attaquer à un problème, élaborer un plan et l'exécuter, le tout sous la direction et la supervision d'un développeur. Cet effort s'inscrit dans notre objectif à long terme de créer des agents d'IA utiles dans tous les domaines, y compris le codage.
Vous trouverez plus d'informations sur cette expérience en cours dans notre blogue pour les développeurs.
Les agents dans les jeux et autres domaines
Google DeepMind utilise depuis longtemps des jeux pour aider les modèles d'IA à devenir meilleurs en matière de respect des règles, de planification et de logique. La semaine dernière, par exemple, nous avons présenté Genie 2, notre modèle d'IA capable de créer une variété infinie de mondes 3D jouables, le tout à partir d'une seule image. Dans le prolongement de cette tradition, nous avons créé, à l'aide de Gemini 2.0, des agents capables de vous aider à naviguer dans le monde virtuel des jeux vidéo. Ils peuvent raisonner sur le jeu en se basant uniquement sur l'action à l'écran, et proposer des suggestions sur ce qu'il faut faire ensuite dans le cadre d'une conversation en temps réel.
Nous collaborons avec des développeurs de jeux de premier plan comme Supercell pour étudier le fonctionnement de ces agents, en testant leur capacité à interpréter les règles et les défis dans une gamme variée de jeux, des titres de stratégie comme « Clash of Clans » aux simulateurs d'agriculture comme « Hay Day ».
Au-delà de leur rôle de compagnons de jeu virtuels, ces agents peuvent même utiliser la recherche Google pour vous mettre en relation avec la richesse des connaissances en matière de jeux sur le Web.
En plus d'explorer les capacités des agents dans le monde virtuel, nous faisons des expériences avec des agents qui peuvent aider dans le monde physique en appliquant les capacités de raisonnement spatial de Gemini 2.0 à la robotique. Bien que ces capacités n'en soient qu'aux balbutiements, nous sommes enthousiasmés par le potentiel des agents qui peuvent aider dans l'environnement physique.
Pour en savoir plus sur ces prototypes et expériences de recherche, rendez-vous sur labs.google.
Développer de manière responsable à l'ère de l'agentivité
Gemini 2.0 Flash et nos prototypes de recherche nous permettent de tester et d'itérer de nouvelles capacités à la pointe de la recherche en IA qui finiront par rendre les produits Google plus utiles.
En développant ces nouvelles technologies, nous sommes conscients de la responsabilité qu'elles impliquent et des nombreuses questions que les agents d'IA soulèvent en matière de sûreté et de sécurité. C'est pourquoi nous adoptons une approche exploratoire et progressive du développement, en menant des recherches sur plusieurs prototypes, en mettant en œuvre de manière itérative la formation à la sécurité, en travaillant avec des testeurs de confiance et des experts externes, et en procédant à des évaluations approfondies des risques, de la sécurité et de l'assurance.
En voici quelques exemples :
- Dans le cadre de notre processus de sécurité, nous avons travaillé avec notre comité de responsabilité et de sécurité (CRS), notre groupe d'examen interne de longue date, afin de relever et de comprendre les risques.
- Les capacités de raisonnement de Gemini 2.0 ont permis des avancées majeures dans notre approche de l'équipe rouge assistée par l'IA, y compris la capacité d'aller au-delà de la simple détection des risques et de générer automatiquement des évaluations et des données de formation pour les atténuer. Cela signifie que nous pouvons optimiser plus efficacement le modèle pour assurer la sécurité à l'échelle.
- La multimodalité de Gemini 2.0 augmentant la complexité des sorties potentielles, nous continuerons à évaluer et entraîner le modèle entrées et sorties d'images et de sons afin d'en améliorer la sécurité.
- Dans le cadre du projet Astra, nous étudions les moyens d'éviter que les utilisateurs partagent involontairement des informations sensibles avec l'agent, et nous avons déjà intégré des contrôles de confidentialité qui permettent aux utilisateurs de supprimer facilement des sessions. Nous continuons également à rechercher des moyens de garantir que les agents d'IA constituent des sources d'information fiables et n'entreprennent pas d'actions involontaires en votre nom.
- Dans le cadre du projet Mariner, nous veillons à ce que le modèle apprenne à donner la priorité aux instructions de l'utilisateur plutôt qu'aux tentatives d'injection de requêtes par des tiers, afin de pouvoir identifier les instructions potentiellement malveillantes provenant de sources externes et d'empêcher toute utilisation abusive. Cela permet d'éviter que les utilisateurs soient exposés à des tentatives de fraude et d'hameçonnage par le biais d'instructions malveillantes dissimulées dans des courriels, des documents ou des sites Web.
Nous croyons fermement que la seule façon de construire l'IA est d'agir de manière responsable dès le départ, et nous continuerons à faire de la sécurité et de la responsabilité un élément clé de notre processus de développement de modèles au fur et à mesure que nous ferons évoluer nos modèles et nos agents.
Gemini 2.0, les agents d'IA et au-delà
Les versions du site publiées aujourd'hui marquent un nouveau chapitre pour notre modèle Gemini. Avec la sortie de Gemini 2.0 Flash et la série de prototypes de recherche explorant les possibilités agentives, nous avons franchi une étape passionnante dans l'ère Gemini. Nous sommes impatients de continuer à explorer en toute sécurité toutes les nouvelles possibilités qui s'offrent à nous au fur et à mesure que nous avançons vers l'intelligence artificielle générale (IAG).