Notre vision du développement d’un assistant IA universel

Au cours de la dernière décennie, nous avons grandement contribué à poser les bases de l’ère moderne de l’IA, du développement précurseur de l’architecture Transformer sur laquelle reposent tous les grands modèles de langage à la création de systèmes d’agents qui peuvent apprendre et planifier tels que AlphaGo et AlphaZero.
Nous avons appliqué ces techniques pour réaliser des percées dans les domaines du calcul quantique, des mathématiques, des sciences de la vie ou de la découverte d’algorithmes. Et nous continuons à approfondir et étendre la portée de nos travaux de recherche fondamentale, avec pour objectif de réaliser les prochaines grandes avancées nécessaires à l’intelligence artificielle générale.
C’est dans cette optique que nous entraînons notre meilleur modèle de fondation multimodal, Gemini 2.5 Pro, afin d’en faire un “modèle mondial” en mesure de planifier et d’imaginer de nouvelles expériences en comprenant et en simulant certains aspects du monde réel, à l’image du cerveau.
Nous progressons dans cette direction depuis un certain temps déjà, comme en témoignent notre travail précurseur dans l’entraînement d’agents en vue de maîtriser des jeux complexes (Go et StarCraft, par exemple), ainsi que le développement de Genie 2, capable de générer des environnements simulés en 3D avec lesquels vous pouvez interagir, le tout à partir d’une simple requête par image.
Nous pouvons d’ores et déjà observer ces capacités dans l’aptitude de Gemini à utiliser les connaissances du monde et le raisonnement pour représenter et simuler des environnements naturels, dans la compréhension approfondie de la physique intuitive de Veo, et dans la façon dont Gemini Robotics apprend aux robots à saisir des objets, suivre des instructions et s’adapter rapidement.
Faire de Gemini un modèle mondial est une étape essentielle dans le développement d’une nouvelle IA plus générale et plus utile, un véritable assistant IA universel. Il est ici question d’une IA intelligente, qui comprend le contexte dans lequel vous évoluez et qui peut agir et planifier pour vous sur n’importe quel appareil.
Intégration des capacités en direct de Project Astra dans nos produits
Notre but ultime est de transformer l’application Gemini en un assistant IA universel qui pourra gérer des tâches du quotidien à notre place, s'occupera de nos tâches administratives banales et fera apparaître de nouvelles recommandations - ce qui nous rendra plus productifs et enrichira notre vie.
Et cela commence avec les capacités telles que la compréhension des vidéos, le partage d'écran et la mémoire que nous avons expérimentées pour la première fois l’an dernier dans le cadre de notre prototype de recherche : Project Astra.
Au cours de l’année écoulée, nous avons intégré ces capacités à Gemini Live à plus de personnes afin que chacun puisse les essayer aujourd’hui. Nous continuons sans relâche à améliorer et à explorer de nouvelles innovations à la frontière.
Nous avons par exemple amélioré la sortie vocale pour la rendre plus naturelle grâce à l'audio natif, nous avons augmenté la mémoire et ajouté un contrôle informatique.
Nous avons recueilli les commentaires de nos testeurs de confiance, et mettons tout en œuvre pour les intégrer à Gemini Live et à d’autres expériences, comme Search, l’API Live pour les développeurs et de nouveaux facteurs de forme, comme les lunettes.
À chaque étape de ce processus, nous veillons à respecter nos principes de sécurité et de responsabilité.
Nous avons récemment mené un vaste projet de recherche, abordant les questions éthiques liées aux assistants IA avancés. Et ce travail continue d’éclairer toutes nos initiatives de recherche, de développement et de déploiement.
Créer une IA multitâche à votre service
Nous avons également étudié la façon dont les capacités agentives peuvent aider les utilisateurs à réaliser plusieurs tâches en même temps. Pour cela, nous nous sommes appuyés sur Project Mariner, un prototype de recherche qui explore l’avenir des interactions entre humains et agents, en se concentrant dans un premier temps sur les navigateurs.
Depuis le lancement de Project Mariner en décembre dernier, nous travaillons en étroite collaboration avec un groupe de testeurs de confiance afin de recueillir leurs commentaires et d’améliorer les capacités expérimentales du prototype.
Project Mariner comprend aujourd’hui un système composé d’agents capables de mener de front jusqu’à dix tâches différentes. Ces agents peuvent vous aider à chercher des informations, faire des réservations ou des achats, réaliser des recherches et bien plus, tout ça en même temps.
Les abonnés Google AI Ultra aux États-Unis peuvent profiter de la dernière version de Project Mariner. Nous intégrons ses capacités d'utilisation de l'ordinateur dans l'API Gemini. et nous prévoyons d’intégrer certaines de ses capacités à d’autres produits Google au cours de l’année.
N’hésitez pas à consulter nos articles de blog pour en savoir plus sur nos capacités agentives dans la recherche et l’application Gemini.
Grâce à ces avancées et à notre travail pionnier, nous construisons une IA plus personnelle, plus proactive et plus puissante, qui enrichit nos vies, accélère le rythme des progrès scientifiques et ouvre la voie à un nouvel âge d’or de la découverte et de l’émerveillement.