Gemini 2.5 : nos modèles les plus intelligents deviennent encore meilleurs

En mars, nous avons annoncé le lancement de Gemini 2.5 Pro, notre modèle le plus intelligent à ce jour. Puis, il y a deux semaines, nous avons proposé notre mise à jour en accès anticipé avant I/O, dont le but est d’aider les développeurs à créer des applications Web exceptionnelles. Aujourd’hui, nous partageons d’autres nouveautés apportées à notre série Gemini 2.5 :
- Au-delà de la performance incroyable de 2.5 Pro dans les benchmarks académiques, il est maintenant aussi le principal modèle mondial dans les classements WebDev Arena et LMArena, et pour aider chacun à apprendre.
- Nous apportons de nouvelles capacités à 2.5 Pro et 2.5 Flash : une sortie audio native pour une expérience conversationnelle plus naturelle, des mesures de sécurité avancées ainsi que les capacités de Project Mariner à utiliser un ordinateur. 2.5 Pro va également s’améliorer grâce à Deep Think, un mode de raisonnement avancé expérimental pour les opérations de mathématiques et de codage très complexes.
- Nous continuons à investir dans l’expérience des développeurs en intégrant les résumés de pensée dans l’API Gemini et dans Vertex AI pour plus de transparence, en étendant les budgets de réflexion à 2.5 Pro pour plus de contrôle, et en ajoutant la prise en charge des outils MCP dans l’API Gemini et SDK afin d’accéder à davantage d’outils Open Source.
- 2.5 Flash est désormais accessible à tous dans l’appli Gemini, et nous prévoyons de mettre notre version mise à jour en disponibilité générale dans Google AI Studio pour les développeurs et dans Vertex AI pour les entreprises début juin. 2.5 Pro suivra peu de temps après.
Ces progrès remarquables sont le résultat des efforts incessants des équipes Google pour améliorer nos technologies, les développer et les déployer de manière sûre et responsable. Voyons cela plus en détail.
2.5 Pro, plus performant que jamais
Nous avons récemment mis à jour 2.5 Pro pour aider les développeurs à créer des applications Web plus riches et interactives. Nous sommes ravis des retours positifs des utilisateurs et des développeurs, et continuons à apporter des améliorations basées sur ces retours.
Outre ses excellents résultats dans les benchmarks académiques, la nouvelle version de 2.5 Pro est désormais en tête du classement populaire pour le codage WebDev Aren, avec un score ELO de 1415. Elle domine également toutes les classements LMArena, qui évalue la préférence humaine sur différents aspects. Et avec sa fenêtre de contexte d’un million de jetons, 2.5 Pro offre une performance de pointe en matière de contexte long et de compréhension des vidéos.
Depuis l’intégration de LearnLM, notre famille de modèles conçus avec des experts en éducation, 2.5 Pro est également désormais le modèle leader pour l’apprentissage. Lors de comparaisons directes évaluant sa pédagogie et son efficacité, les éducateurs et les experts ont préféré Gemini 2.5 Pro à d’autres modèles dans différents scénarios. Gemini 2.5 Pro a même surpassé les meilleurs modèles dans chacun des cinq principes des sciences de l’apprentissage utilisés pour élaborer des systèmes d’IA dédiés à l’apprentissage.
Retrouvez plus de détails à ce sujet dans la fiche de notre modèle Gemini 2.5 Pro actualisée et sur la page dédiée à la technologie Gemini.
Deep Think
Alors que nous repoussons les frontières des capacités de réflexion de Gemini, nous commençons à tester un mode de raisonnement avancé appelé Deep Think. Celui-ci utilise de nouvelles techniques de recherche qui permettent au modèle d’envisager plusieurs hypothèses avant de répondre.
2.5 Pro Deep Think a obtenu un score impressionnant à l’occasion de l’USAMO 2025 (Olympiade mathématique des États-Unis d’Amérique), qui est actuellement l’un des benchmarks mathématiques les plus difficiles. Il est aussi leader sur LiveCodeBench, un benchmark exigeant pour le codage, et obtient 84 % sur MMMU, qui teste le raisonnement multimodal.

Parce que nous repoussons les limites avec 2.5 Pro Deep Think, nous prenons plus de temps pour conduire des évaluations de sécurité et recueillir d'autres avis d'experts en sécurité. Pour cela, nous le mettrons d'abord à disposition de testeurs de confiance via l'API Gemini, afin d'avoir leurs retours avant de le rendre accessible à tous.
2.5 Flash, encore meilleur
2.5 Flash est notre modèle de référence le plus efficace, conçu pour être rapide et peu coûteux. Et il est désormais encore meilleur dans de nombreux domaines, avec des améliorations sur les principaux benchmarks pour le raisonnement, la multimodalité, le code et le contexte long, tout offrant plus d’efficacité avec 20 à 30 % de jetons utilisés en moins dans nos évaluations.

Le nouveau modèle 2.5 Flash est désormais disponible en version preview dans Google AI Studio pour les développeurs, dans Vertex AI pour les entreprises et dans l’application Gemini pour tous. Il sera utilisable en production début juin.
Retrouvez plus de détails à ce sujet dans la fiche de notre modèle Gemini 2.5 Flash actualisée et sur la page dédiée à la technologie Gemini.
Nouvelles capacités pour Gemini 2.5
Sortie audio native et améliorations de l’API Live
Aujourd’hui, l’API Live lance une version preview de l’entrée audiovisuelle et de la sortie audio native de dialogue. Vous pourrez ainsi discuter directement avec Gemini de façon plus naturelle et expressive.
L’API permet également à l’utilisateur de définir le ton, l’accent et le style de son interlocuteur. Vous pouvez par exemple demander à l’IA de raconter une histoire avec une voix théâtrale. Le modèle prend aussi désormais en charge l’utilisation d’outils et peut effectuer des recherches à votre demande.
Vous pouvez expérimenter une série de fonctionnalités en accès anticipé, dont :
- le dialogue affectif, dans lequel le modèle détecte l’émotion dans la voix de l’utilisateur et s’y adapte ;
- l’audio proactif, dans lequel le modèle ignore les conversations en arrière-plan et sait quand vous répondre ; ou
- la réflexion dans l’API Live, ici le modèle utilise les capacités de réflexion de Gemini pour gérer des tâches plus complexes.
Nous publions également de nouvelles versions preview pour la synthèse vocale dans 2.5 Pro et 2.5 Flash. Celles-ci offrent une gestion inédite des locuteurs multiples, en permettant une synthèse vocale à deux voix via la sortie audio native. Tout comme dans le dialogue audio natif, la synthèse vocale est expressive et capable de saisir des nuances subtiles, comme les chuchotements. Elle fonctionne dans 24 langues et peut facilement passer d’une langue à une autre.
Cette capacité de synthèse vocale est désormais disponible dans l’API Gemini.
Utilisation d’un ordinateur
Nous intégrons les capacités de Project Mariner à utiliser un ordinateur à l’API Gemini et Vertex AI. Des entreprises telles que Automation Anywhere, UIPath, Browserbase, Autotab, The Interaction Company et Cartwheel explorent actuellement le potentiel de ces capacités, et nous avons hâte de les déployer plus largement pour que les développeurs puissent les essayer cet été.
Sécurité améliorée
Nous avons également considérablement renforcé les protections contre les menaces de sécurité, comme les injections de requêtes indirectes, qui consistent à intégrer des instructions malveillantes aux données récupérées par un modèle d’IA. Notre nouvelle approche de la sécurité a permis d’augmenter de façon significative le niveau de protection de Gemini contre les attaques par injections de requêtes indirectes pendant l’utilisation de l’outil, faisant de Gemini 2.5 notre famille de modèles la plus sûre à ce jour.
Découvrez-en plus sur notre travail dans les domaines de la sécurité et de la responsabilité et comment nous renforçons les mesures de sécurité de Gemini sur le blog Google DeepMind.
Une meilleure expérience pour les développeurs
Résumés de pensée
2.5 Pro et Flash incluront désormais des résumés de pensée dans l’API Gemini et dans Vertex AI. Ces résumés organisent les pensées brutes du modèle dans un format clair avec des en-têtes, des détails clés et des informations sur les actions du modèle, comme les outils éventuellement utilisés.
Nous espérons, en proposant un format plus structuré et rationalisé du processus de réflexion, rendre les interactions avec les modèles Gemini plus faciles à comprendre et à déboguer pour les développeurs et les utilisateurs.
Budgets de réflexion
Nous avons lancé 2.5 Flash avec des budgets de réflexion pour permettre aux développeurs de mieux contrôler les coûts en équilibrant la latence et la qualité. Nous étendons aujourd’hui cette fonctionnalité à 2.5 Pro, afin que les utilisateurs puissent contrôler le nombre de jetons utilisés par un modèle pour réfléchir avant de répondre, ou même désactiver ses capacités de réflexion.
Gemini 2.5 Pro avec budgets sera disponible de façon générale pour une utilisation stable en production dans les semaines à venir, en même temps que notre modèle en disponibilité générale.
Prise en charge du protocole MCP
Nous avons ajouté la prise en charge du SDK natif pour les définitions du Model Context Protocol (MCP) dans l’API Gemini. Le but est de faciliter l’intégration avec les outils Open Source. Nous étudions également des moyens de déployer des serveurs MCP et d’autres outils hébergés pour faciliter la conception d’applications agentives.
Nous imaginons sans cesse de nouvelles approches pour améliorer nos modèles et l’expérience des développeurs, notamment en les rendant plus efficaces et performants, et nous appuyons pour cela sur les retours des développeurs. N’hésitez pas à nous faire part de vos commentaires ! Nous continuons également à approfondir et à étendre la portée de nos recherches fondamentales, en repoussant toujours plus loin les limites des capacités de Gemini. Alors à bientôt pour d’autres nouveautés !
Découvrez-en plus sur Gemini et ses capacités sur notre site Web.