Découvrez Gemini 2.0, notre nouveau modèle d'IA pour l'ère agentive
Un mot de Sundar Pichai, PDG de Google et d'Alphabet
L'information est au cœur du progrès humain. C'est pourquoi nous nous concentrons depuis plus de 26 ans sur notre mission : organiser les informations à l'échelle mondiale, et les rendre accessibles et utiles à toutes et à tous. C'est pourquoi nous continuons de repousser les frontières de l'IA afin d'organiser ces informations à partir de différentes sources et les rendre accessibles sur différents supports, afin qu'elles puissent vous être véritablement utiles.
Telle était notre vision lorsque nous avons présenté Gemini 1.0 en décembre dernier. Premier modèle conçu pour être multimodal de manière native, Gemini 1.0 et 1.5 a permis de réaliser de grands progrès en matière de multimodalité et de contexte long de façon à comprendre des informations sous forme de texte, de vidéo, d'images, d'audio et de code, et à en traiter beaucoup plus.
Aujourd'hui, des millions de développeurs utilisent Gemini. Celui-ci nous permet aussi de réimaginer tous nos produits, y compris les sept produits comptant 2 milliards d'utilisateurs, et d'en créer de nouveaux. NotebookLM illustre à merveille tout ce que la multimodalité et le contexte long peuvent permettre de faire, et c'est la raison pour laquelle il est tant apprécié.
L'année dernière, nous avons investi dans le développement de modèles ayant des capacités d’agents, c'est-à-dire capables de mieux comprendre le monde qui vous entoure, d'anticiper en ayant plusieurs étapes d'avance et d'effectuer des tâches pour vous, sous votre supervision.
Aujourd'hui, nous sommes ravis de lancer une seconde génération de modèles conçus pour cette nouvelle ère agentive : Gemini 2.0, notre modèle le plus performant à ce jour. Grâce à de nouveaux progrès en matière de multimodalité, comme la production d'images et de sons natifs, et l'utilisation d'outils natifs, Gemini 2.0 va nous permettre de créer de nouveaux agents d'IA qui nous rapprochent de notre vision de l'assistant universel..
Nous mettons la version 2.0 à disposition de développeurs et de testeurs de confiance dès maintenant et nous travaillons à l'intégrer rapidement à nos produits, à commencer par Gemini et la recherche Google. À partir d'aujourd'hui, notre modèle Gemini 2.0 Flash Experimental sera disponible pour tous les utilisateurs de Gemini. Nous lançons également une nouvelle fonctionnalité appelée Deep Research, qui s'appuie sur des capacités avancées de raisonnement et de contexte long pour agir comme un assistant de recherche, en explorant des sujets complexes et en compilant des rapports pour vous. Elle est disponible dès maintenant dans Gemini Advanced.
Aucun produit n'a été autant transformé par l'IA que notre moteur de recherche. Nos Aperçus IA touchent désormais un milliard de personnes. En permettant de poser des questions d'un type entièrement inédit, ils sont en train de devenir l'une de nos fonctionnalités de recherche les plus populaires. Une prochaine étape consistera à doter les Aperçus IA des capacités de raisonnement avancées de Gemini 2.0. Ils pourront ainsi traiter des sujets plus complexes et des questions comprenant plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé à effectuer des tests limités cette semaine et nous les déploierons à plus grande échelle en début d'année prochaine. Nous proposerons aussi les Aperçus IA dans d'autres pays et langues l'an prochain.
Les avancées de Gemini 2.0 ont été rendues possibles par dix années d'investissements dans notre approche full-stack différenciée en matière d'innovation IA. Ce modèle repose sur du matériel sur mesure comme Trillium, nos TPU de sixième génération. Ces TPU ont intégralement alimenté l'entraînement et l'inférence de Gemini 2.0, et aujourd'hui, Trillium est disponible pour nos clients afin qu'ils puissent également l'utiliser pour développer.
Si Gemini 1.0 avait pour but d'organiser et de comprendre les informations, Gemini 2.0 vise à les rendre beaucoup plus utiles. J'ai hâte de voir ce que nous réserve cette nouvelle ère.
– Sundar
Découvrez Gemini 2.0, notre nouveau modèle d'IA pour l'ère agentive
Par Demis Hassabis, CEO de Google DeepMind et Koray Kavukcuoglu, CTO de Google DeepMind pour l'équipe Gemini.
Depuis l'année dernière, nous avons continué à faire d'incroyables progrès dans le domaine de l'intelligence artificielle. Aujourd'hui, nous annonçons Gemini 2.0, notre modèle d'IA le plus performant à ce jour. Le premier modèle de cette nouvelle ère est une version expérimentale de Gemini 2.0 Flash, notre modèle de référence avec une faible latence et des performances accrues à la pointe de notre technologie.
Nous partageons aussi nos avancées en matière de recherche agentive en présentant des prototypes qui utilisent les capacités multimodales de Gemini 2.0.
Gemini 2.0 Flash
Gemini 2.0 Flash s'appuie sur le succès de 1.5 Flash, notre modèle le plus apprécié des développeurs, avec des performances accrues pour des temps de réponse toujours aussi rapides. 2.0 Flash surpasse même 1.5 Pro dans les benchmarks clés, en allant deux fois plus vite. 2.0 Flash offre aussi de nouvelles fonctionnalités. En plus de la prise en charge des entrées multimodales telles que les images, la vidéo et l'audio, 2.0 Flash peut maintenant générer nativement des sorties multimodales, comme des images associées à du texte et à de l'audio multilingue par synthèse vocale (TTS) modulable. Il peut également appeler de manière native des outils comme la recherche Google, l'exécution de code ainsi que des fonctions tierces définies par l'utilisateur.
Notre objectif est de mettre rapidement nos modèles à disposition du plus grand nombre de personnes possible, de façon sécurisée. Le mois dernier, nous avons partagé les premières versions expérimentales de Gemini 2.0 et avons reçu d'excellents retours de la part des développeurs.
Gemini 2.0 Flash est disponible dès à présent en tant que modèle expérimental pour les développeurs via l'API Gemini dans Google AI Studio et Vertex AI, avec une entrée multimodale, une sortie texte et une synthèse vocale, ainsi qu'une génération d'images en mode natif pour les partenaires en accès anticipé. La disponibilité générale suivra en janvier, ainsi que d'autres tailles de modèles.
Pour aider les développeurs à créer des applications dynamiques et interactives, nous lançons également une nouvelle API Multimodale Live qui offre des capacités d'entrée audio et vidéo en temps réel et la possibilité d'utiliser plusieurs outils combinés. Pour plus d'informations sur Flash 2.0 et l'API Multimodal Live, consultez notre blog pour les développeurs.
Gemini 2.0 disponible dans l'application Gemini, notre assistant IA
À partir d'aujourd'hui, les utilisateurs de Gemini peuvent accéder à une version optimisée pour le chat du modèle 2.0 Flash expérimental via le menu déroulant des modèles Gemini sur le web (ordinateur et mobile). Il sera bientôt disponible dans l'application mobile Gemini. Avec ce nouveau modèle, les utilisateurs peuvent profiter d'un assistant Gemini encore plus utile.
Au début de l'année prochaine, nous étendrons Gemini 2.0 à d'autres produits Google.
Permettre les expériences agentives avec Gemini 2.0
Les capacités d'action natives de l'interface utilisateur de Gemini 2.0 Flash, ainsi que d'autres améliorations telles que le raisonnement multimodal, la compréhension du contexte long, le suivi et la planification d'instructions complexes, l'appel de fonctions compositionnelles, l'utilisation d'outils natifs et l'amélioration de la latence, fonctionnent de concert pour permettre une nouvelle classe d'expériences agentives.
L'application pratique des agents d'intelligence artificielle est un domaine de recherche qui ouvre de nombreuses possibilités. Nous explorons cette nouvelle frontière avec une série de prototypes qui peuvent aider les gens à accomplir des tâches. Il s'agit notamment d'une mise à jour de Project Astra, notre prototype de recherche explorant les capacités futures d'un assistant IA universel, du nouveau Project Mariner, qui explore l'avenir de l'interaction homme-agent, en commençant par votre navigateur, et de Jules, un agent de code doté d'une IA qui peut aider les développeurs.
Nous n'en sommes qu'aux premiers stades de développement, mais nous sommes impatients de voir comment les testeurs de confiance utilisent ces nouvelles capacités et quels enseignements nous pouvons en tirer, afin de les rendre plus largement disponibles dans les produits à l'avenir.
Project Astra : des agents utilisant la compréhension multimodale dans le monde réel
Depuis que nous avons présenté Project Astra lors de la conférence I/O, nous avons appris grâce aux testeurs de confiance qui l'ont utilisé sur des téléphones Android. Leurs précieux retours nous ont aidés à mieux comprendre comment un assistant IA universel pourrait fonctionner dans la pratique, y compris les implications en matière de sécurité et d'éthique. Voici quelques améliorations apportées à la dernière version créée avec Gemini 2.0 :
- Des dialogues améliorés : Project Astra est désormais capable de converser dans plusieurs langues et dans des langues mixtes, avec une meilleure compréhension des accents et des mots peu courants.
- Une nouvelle utilisation des outils : Avec Gemini 2.0, Project Astra peut utiliser la Recherche Google, Lens et Maps, ce qui le rend plus utile en tant qu'assistant dans votre vie quotidienne.
- Une meilleure mémoire : Nous avons amélioré la capacité de Project Astra à mémoriser des éléments tout en vous laissant le contrôle. Il peut désormais mémoriser jusqu'à 10 minutes pendant une session et se souvenir de d'autres conversations que vous avez eues avec lui dans le passé, ce qui lui permet de mieux vous personnaliser.
- Une latence améliorée : Grâce aux nouvelles capacités de diffusion en continu et à la compréhension audio native, l'agent peut comprendre le langage avec une latence à peu près équivalente à celle d'une conversation humaine.
Nous travaillons à intégrer ce type de fonctionnalités aux produits Google tels que l'application Gemini, notre assistant IA. Et nous commençons à élargir notre programme de testeurs de confiance à d'autres personnes, dont un petit groupe qui commencera bientôt à tester Project Astra sur des prototypes de lunettes.
Project Mariner : des agents pour vous aider à accomplir des tâches complexes
Project Mariner est un prototype de recherche précoce reposant sur Gemini 2.0 qui explore l'avenir de l'interaction homme-agent, en commençant par celle que vous avez votre navigateur. En tant que prototype de recherche, il est capable de comprendre les informations affichées sur l'écran de votre navigateur, y compris les pixels et les éléments Web tels que le texte, le code, les images et les formulaires, puis d'utiliser ces informations via une extension Chrome expérimentale pour effectuer des tâches à votre place.
Lors de l'évaluation par rapport à l'indice de référence WebVoyager, qui teste les performances des agents de bout en bout sur des tâches Web réelles, Project Mariner a obtenu un résultat de 83,5 % en tant que seul agent.
Il est encore tôt, mais Project Mariner montre qu'il devient techniquement possible de piloter un navigateur. Et s’il manque parfois de précision et que les tâches s'accomplissent aujourd'hui lentement, il s'améliorera rapidement avec le temps.
Pour y parvenir de manière sûre et responsable, nous menons des recherches actives sur de nouveaux types de risques et de mesures de prévention, tout en conservant l'intervention humaine. Par exemple, Project Mariner ne peut taper du texte, faire défiler l'écran ou cliquer que dans l'onglet actif de votre navigateur, et il demande aux utilisateurs une confirmation finale avant d'entreprendre certaines actions sensibles, comme un achat.
Des équipes de confiance commencent à tester Project Mariner à l'aide d'une extension Chrome expérimentale, et nous entamons parallèlement des discussions avec l'écosystème Web.
Jules : des agents pour les développeurs
Nous explorons également la manière dont les agents d'intelligence artificielle peuvent aider les développeurs, grâce à Jules, un agent de code expérimental alimenté par l'intelligence artificielle qui s'intègre directement dans un flux de travail GitHub. Il peut s'attaquer à un problème, élaborer un plan et l'exécuter, le tout sous la direction et la supervision d'un développeur. Cet effort s'inscrit dans notre objectif à long terme de construire des agents IA utiles dans tous les domaines, y compris l'écriture de code.
Vous trouverez plus d'informations sur cette expérience en cours dans notre blog pour les développeurs
Les agents dans les jeux et autres domaines
Google DeepMind utilise depuis longtemps des jeux pour aider les modèles d'IA à mieux suivre les règles, à planifier et à faire preuve de logique. La semaine dernière, par exemple, nous avons présenté Genie 2, notre modèle d'IA capable de créer une variété infinie de mondes 3D jouables, le tout à partir d'une seule image. À partir de cette expérience, nous avons créé des agents utilisant Gemini 2.0 capables de vous aider à naviguer dans le monde virtuel des jeux vidéo. Ils peuvent élaborer des raisonnements sur le jeu en se basant uniquement sur l'action à l'écran et proposer des suggestions pour la suite dans une conversation en temps réel.
Nous collaborons avec des développeurs de jeux de premier plan comme Supercell pour étudier le fonctionnement de ces agents, en testant leur capacité à interpréter les règles et les défis dans une gamme variée de jeux, des titres de stratégie comme « Clash of Clans » aux simulateurs agricoles comme « Hay Day ».
En plus d'être des compagnons de jeu virtuels, ces agents peuvent également utiliser la recherche Google pour que vous tiriez parti de toutes les connaissances du Web en matière de jeux.
En plus d'explorer les capacités agentives dans le monde virtuel, nous expérimentons avec des agents pouvant apporter leur aide dans le monde réel en appliquant les capacités de raisonnement spatial de Gemini 2.0 à la robotique. Bien que ce projet n'en soit qu'à ses balbutiements, nous trouvons que les agents ont un potentiel incroyable pour aider dans un environnement physique.
Pour en savoir plus sur ces prototypes et expériences de recherche, rendez-vous sur labs.google.
Développer de manière responsable à l'ère des agents
Gemini 2.0 Flash et nos prototypes de recherche nous permettent de tester et de développer de nouvelles fonctionnalités à la pointe de la recherche en matière d'IA, qui permettront à terme de rendre les produits Google plus utiles.
En développant ces nouvelles technologies, nous sommes conscients de la responsabilité qu'elles impliquent et des nombreuses questions que les agents IA soulèvent du point de vue de la sécurité. C'est pourquoi nous adoptons une approche exploratoire et progressive du développement, en menant des recherches sur de multiples prototypes, en travaillant avec des testeurs de confiance et des experts externes, et en procédant à une évaluation approfondie concernant les risques, la sécurité et l'assurance.
Par exemple :
- Dans le cadre de notre processus de sécurité, nous avons travaillé avec notre comité de responsabilité et de sécurité (RSC), notre groupe d'examen interne de longue date, afin d'identifier et de comprendre les risques potentiels.
- Les capacités de raisonnement de Gemini 2.0 ont permis des avancées majeures dans notre approche avec Red Teaming assistée par l'IA, y compris d'aller au-delà de la simple détection des risques et de soutenir les mesures d'atténuation appropriées. Cela signifie que nous pouvons optimiser plus efficacement le modèle pour assurer la sécurité à grande échelle.
- Puisque la multimodalité de Gemini 2.0 permet des sorties potentielles plus complexes, nous continuerons à évaluer la sécurité des entrées et des sorties sous forme d'images et de sons afin de sécuriser nos modèles.
- Dans le cadre du Project Astra, nous chercherons des moyens d'éviter que les utilisateurs ne partagent involontairement des informations sensibles avec l'agent. Nous avons déjà mis en place des contrôles de confidentialité qui permettent aux utilisateurs de supprimer facilement leurs sessions. Nous poursuivons également nos recherches pour nous assurer que les agents IA sont des sources d'information fiables et n'entreprennent pas d'actions non souhaitées pour vous.
- Avec Project Mariner, nous nous efforçons de faire en sorte que le modèle apprenne à donner la priorité aux instructions de l'utilisateur plutôt qu'aux tentatives d'injection de tierces parties, afin d'identifier les instructions potentiellement malveillantes provenant de sources externes et d'empêcher toute utilisation abusive. Cela évite aux utilisateurs d'être exposés à des tentatives de fraude et d'hameçonnage par le biais d'instructions malveillantes dissimulées dans des courriels, des documents ou des sites web.
Nous sommes convaincus que la seule façon de construire l'IA est d'être responsable dès le départ et nous continuerons à faire de la sécurité et de la responsabilité un élément clé de notre processus de développement de modèles au fur et à mesure que nous les ferons évoluer.
Gemini 2.0, les agents d'IA et au-delà
Les publications d'aujourd'hui marquent un nouveau chapitre pour notre modèle Gemini. Avec la sortie de Gemini 2.0 Flash et la série de prototypes de recherche explorant les possibilités agentives, nous avons franchi une étape passionnante dans l'ère Gemini. Et nous nous réjouissons de continuer à explorer en toute sécurité toutes les nouvelles possibilités qui s'offrent à nous au fur et à mesure que nous progressons vers l'AGI.