Accéder au menu principal

Blog Google France

Découvrez Gemini, le plus ambitieux et le plus performant de nos modèles d’IA

Découvrez Gemini, le plus ambitieux et le plus performant de nos modèles d’IA

06 Déc, 2023

Sundar Pichai

CEO of Google and Alphabet

Demis_headshot

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Le mot « GEMINI » au-dessus de cinq fils distincts, chacun d'une couleur différente, converge de la gauche vers une hélice centrale tridimensionnelle avant de se séparer vers la droite en cinq brins individuels une fois de plus.

Propos introductif de Sundar Pichai, CEO de Google et d’Alphabet

Chaque évolution technologique est une opportunité de faire avancer la découverte scientifique, d’accélérer le progrès humain et d’améliorer notre quotidien. J’ai la conviction que la transition que nous vivons actuellement avec l’IA sera la plus significative de notre vie, bien plus importante que le passage au mobile ou au Web qui l’a précédé. L’IA a le potentiel de créer des opportunités - des plus banales aux plus extraordinaires - pour le plus grand nombre, partout dans le monde. Elle permettra de nouvelles vagues d’innovation et de progrès économique et stimulera la connaissance, l’apprentissage, la créativité et la productivité à une échelle encore jamais vue.

C’est ce qui me passionne : l’opportunité de rendre l’IA utile à tous, partout dans le monde.

Près de huit ans après le début de notre aventure en tant qu'entreprise “AI-first”, le rythme des progrès accomplis ne fait que s'accélérer : des millions de personnes utilisent aujourd’hui l'IA générative dans nos produits pour réaliser des choses qu'elles ne pouvaient pas faire il y a un an à peine, pour obtenir des réponses à des problèmes plus complexes ou encore en utilisant de nouveaux outils pour collaborer et créer. Dans le même temps, les développeurs utilisent nos modèles et notre infrastructure pour créer de nouvelles applications d’IA générative, et les startups et entreprises du monde entier se développent grâce à nos outils d’IA.

Il s’agit d’une dynamique formidable, et pourtant, nous sommes aux prémices de ce qui sera possible.

Nous abordons ce travail avec audace et responsabilité. Cela signifie être ambitieux dans notre recherche et dans l’objectif de rendre les IA encore plus capables afin d’apporter d’énormes bénéfices aux personnes et à la société, tout en intégrant un cadre précis et en travaillant en collaboration avec les gouvernements et les experts pour faire face aux risques à mesure que l’IA devient plus performante. Et nous continuons d’investir dans les meilleurs outils, modèles de fondation et infrastructures afin de les intégrer dans nos produits et afin de les rendre disponibles plus largement, mais toujours guidés par nos principes sur l’IA.

Nous franchissons aujourd’hui l'étape suivante de notre aventure grâce à Gemini, notre modèle le plus performant et le plus général à ce jour, avec des performances de pointe dans de nombreux critères de référence. Notre première version, Gemini 1.0, est optimisée pour différentes tailles : Ultra, Pro et Nano. Ce sont les premiers modèles de l’ère Gemini et la première concrétisation de la vision que nous avions lorsque nous avons créé Google DeepMind. Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris depuis la création de Google. Je suis vraiment enthousiasmé par ce qui nous attend et par les opportunités que Gemini offrira au plus grand nombre, partout dans le monde.

- Sundar

Découvrez Gemini

Par Demis Hassabis, PDG et co-fondateur de Google DeepMind, au nom de l'équipe Gemini

Comme nombre de collègues chercheurs, j’ai consacré toute ma carrière à l’IA. Lorsqu’adolescent, je programmais des IA pour des jeux vidéo, puis pendant des années de recherche en neurosciences où je tentais comprendre le fonctionnement du cerveau, j’ai toujours eu la conviction que si nous parvenions à construire des machines plus intelligentes, celles-ci auraient un impact extraordinairement bénéfique pour l’humanité.

Cette promesse d’un avenir amélioré de manière responsable par l’IA continue de guider nos travaux au sein de Google Deepmind.

Depuis longtemps maintenant, nous cherchons à élaborer une nouvelle génération de modèles d’IA qui reflètent la manière dont les humains comprennent le monde et interagissent avec lui : une IA qui ne soit plus simplement perçue comme un logiciel astucieux, mais plutôt comme un allié utile et intuitif — comme un assistant chevronné ou un alter ego.

Nous franchissons aujourd’hui une étape importante dans la poursuite de cet objectif avec la présentation de Gemini, le modèle le plus capable et le plus général que nous ayons jamais conçu.

Gemini est le fruit d’une coopération de grande envergure entre différentes équipes de l’écosystème Google, parmi lesquelles nos collègues de Google Research. Ce modèle a été conçu dès l’origine pour être multimodal, c’est-à-dire capable de généraliser, comprendre avec fluidité, traiter et combiner différents supports d’informations, dont le texte, le code, l’audio, l’image et la vidéo.

Gemini est également le modèle le plus polyvalent que nous ayons développé à ce jour, efficacement adapté et efficace pour tous les usages depuis les centres de données jusqu’aux smartphones. Ses capacités avancées apporteront énormément aux développeurs et aux entreprises pour la conception et la mise à disposition d’applications fondées sur l’IA auprès du plus grand nombre.

Nous avons optimisé notre première version du modèle, Gemini 1.0, sur trois tailles distinctes :

Gemini Ultra — notre modèle le grand et le plus capable , doté des plus larges capacités, destiné aux tâches de haute complexité ;
Gemini Pro — notre modèle le plus polyvalent, adapté à une grande variété de tâches ;
Gemini Nano — notre modèle le plus efficace pour les tâches embarquées (on-device).

Des performances de pointe

Les performances de ces différents modèles de Gemini ont été rigoureusement testées et évaluées sur un large éventail de tâches. De la compréhension naturelle de supports image, audio ou vidéo au raisonnement mathématique, les performances de Gemini Ultra surpassent les meilleurs résultats dans ce domaine dans 30 des 32 référentiels académiques largement utilisées dans la recherche et le développement de grands modèles de langage (Large Language Models ou LLMs).

Avec un score de 90.0 %, Gemini Ultra est le premier modèle capable de surpasser les experts humains en matière de compréhension massive du langage multitâche (Massive Multitask Language Understanding ou MMLU), qui teste à la fois les connaissances sur le monde et les capacités de résolution de problèmes dans un corpus de 57 sujets tels que les mathématiques, la physique, l’histoire, le droit, la médecine ou l’éthique.

Dans notre nouvelle approche des référentiels MMLU, Gemini emploie ses capacités de raisonnement pour aborder les questions difficiles de manière plus réfléchie et produire des résultats sensiblement améliorés par rapport à ses premières impressions.

Gemini surpasse les performances de pointe sur une variété d’outils de benchmark, notamment le texte et le codage.

Graphique montrant les performances de Gemini Ultra sur les références de texte courantes, par rapport à GPT-4 (numéros API calculés là où les chiffres rapportés manquaient).

Gemini Ultra atteint également une performance inédite de 59,4 % dans le nouveau référentiel de compréhension massive multidisciplinaire multitâche (MMMU, Massive Multi-discipline Multimodal Understanding), qui propose des tâches multimodales exigeant un raisonnement délibéré dans une grande variété de domaines.

Dans les référentiels d’image sur lesquels il a été testé, Gemini Ultra a surclassé les meilleurs modèles existants sans avoir recours à des systèmes de reconnaissance de texte (Object Character Recognition ou OCR, ), qui permettent d’extraire le texte contenu dans les images pour les traiter. Ces benchmarks ont souligné la multimodalité native de Gemini et donné une première indication de ses capacités de raisonnement approfondies.

Les données de ces tests sont détaillées dans notre Rapport technique Gemini.

Gemini surpasse les performances de pointe sur une variété de benchmark multimodaux.

Un graphique montrant les performances de Gemini Ultra sur des tests multimodaux par rapport à GPT-4V, avec les modèles SOTA précédents répertoriés aux endroits où les fonctionnalités ne sont pas prises en charge dans GPT-4V.

Des capacités sans précédent

À ce jour, la démarche habituelle pour la création de modèles multimodaux consiste à entraîner des composants distincts pour chaque usage, puis à les assembler en reconstituant tant bien que mal une fonctionnalité intégrée. Ce type de modèle peut s’acquitter honorablement de certaines tâches, comme la description d’images, mais peine à produire des raisonnements plus complexes et conceptuels.

Gemini a été conçu quant à lui pour être nativement multimodal : il est été pré-entraîné à traiter des modalités variées. C’est seulement dans un deuxième temps que son efficacité a été renforcée par des données multimodales supplémentaires. Cette approche confère à Gemini une capacité de compréhension et de raisonnement sur tous types d’entrées. C’est pour cela que ses performances dépassent de loin celles des modèles existants, et que ses capacités repoussent les limites de l’état de l’art dans presque tous les domaines.

Cliquez ici pour découvrir les capacités de Gemini et le voir à l’œuvre.

Des raisonnements sophistiqués

Les capacités sophistiquées de raisonnement de Gemini 1.0 lui permettent d’interpréter des informations écrites et visuelles complexes, ce qui le rend singulièrement apte à isoler des connaissances difficiles à discerner dans des volumes considérables de données.

Cette remarquable faculté de lecture, de filtrage et de compréhension des informations lui permet de parcourir des centaines de milliers de documents à une vitesse vertigineuse et d’en extraire de précieuses idées, prêtes à révolutionner de nombreux domaines depuis les sciences jusqu’à la finance.

Comprendre du texte, des images, de l’audio et bien plus

Gemini 1.0 a appris à reconnaître et à comprendre simultanément du texte, des images, de l’audio et d’autres supports d’information. Cela lui procure une meilleure compréhension des informations nuancées, et le met en mesure de répondre à des questions portant sur des sujets complexes. Il excelle en particulier à expliciter ses raisonnements sur des problèmes de mathématiques et de physique.

Codage avancé

Notre première version de Gemini est capable de comprendre, d’expliquer et de générer du code de grande qualité dans les principaux langages de programmation en usage, tels que Python, Java, C++ ou Go. Sa capacité à traiter indifféremment différents langages et à raisonner à partir d’informations complexes en fait un modèle de fondation de premier ordre pour le codage.

Gemini Ultra excelle sur plusieurs référentiels de codage, notamment sur HumanEval, un référentiel important du secteur pour les tâches de codage, et Natural2Code, notre ensemble de données interne, constitué d'exemples générés manuellement au lieu d'informations basées sur le Web.

Gemini peut également être déployé comme moteur pour des systèmes de codage plus avancés. Nous avons présenté il y a maintenant deux ans AlphaCode, le premier système de génération de code par IA à avoir atteint un niveau de performance satisfaisant pour les compétitions de codage.

Nous disposons désormais d’un système de génération de code encore plus avancé avec AlphaCode 2, une version spécialisée de Gemini. AlphaCode 2 excelle dans la résolution de problèmes de programmation de haut niveau, qui impliquent au-delà du simple codage des considérations de mathématiques complexes et d’informatique théorique.

Lors de tests effectués sur la même plateforme que l’AlphaCode originel, AlphaCode 2 a affiché des performances très largement supérieures et a résolu près de deux fois plus de problèmes. D’après nos estimations, AlphaCode 2 surpasse 85 % des compétiteurs là où AlphaCode n’en devançait que près de 50 %. Lorsque les développeurs coopèrent avec AlphaCode 2 en définissant des propriétés intrinsèques pour les échantillons de code, ses performances sont encore plus élevées.

Nous sommes impatients que les développeurs se saisissent des modèles d’IA avancés comme d’outils collaboratifs — qui les aident à raisonner sur les problèmes, leur suggèrent des conceptions de code et les assistent dans son implémentation — afin d’imaginer et de produire toujours plus rapidement des applications et des services de grande qualité.

Pour plus de détails, consultez notre rapport technique AlphaCode 2.

Plus fiable, plus extensible, plus efficace

Nous avons entraîné Gemini 1.0 à grande échelle sur notre infrastructure optimisée pour l’IA, avec les versions v4 et V5e de nos unités de TPU propriétaires(Tensor Processing Unit). Et nous l’avons conçu pour que cet entraînement soit le plus fiable, le plus aisément extensible et le plus efficace de tous nos modèles..

Sur les TPU, Gemini est sensiblement plus rapide que les modèles antérieurs, plus petits et dotés de capacités moindres. Ces accélérateurs conçus sur mesure ont été au cœur de nombreux produits qui utilisent l’IA de Google tels que le moteur de recherche, YouTube, Gmail, Google Maps, Google Play ou Android, qui comptent des milliards d’utilisateurs. C’est également grâce aux TPU que des entreprises aux quatre coins du monde entraînent leurs modèles d’IA, à coûts maîtrisés.

Nous annonçons aujourd’hui aussi le système de TPU le plus puissant, le plus efficace et le plus extensible jamais créé avec Cloud TPU v5p, spécifiquement conçu pour entraîner les modèles de pointe d’IA. Cette nouvelle génération de TPU accélérera le développement de Gemini ; elle permettra également aux développeurs et aux entreprises d’entraîner plus rapidement leurs modèles d’IA générative à grande échelle, et donc de mettre plus vite sur le marché de nouveaux produits et de nouvelles capacités.

Une rangée de supercalculateurs accélérateurs d'IA Cloud TPU v5p dans un centre de données Google.

Une rangée de supercalculateurs accélérateurs d'IA Cloud TPU v5p dans un centre de données Google.

Placer la responsabilité et la sûreté au centre

Google a pris l’engagement de promouvoir dans toutes ses activités une IA ambitieuse et responsable à la fois. Nous avons prolongé les Principes de l’IA de Google, et les robustes politiques de sûreté qui s’appliquent à tous nos produits, en y ajoutant de nouvelles précautions afin de mieux cadrer les capacités multimodales de Gemini. Nous envisageons tous les risques éventuels à chaque nouvelle étape de son développement, et nous veillons à les tester et les réduire.

Gemini a passé des tests de sûreté plus poussés que tous les modèles d’IA antérieurs chez Google, y compris concernant les biais et la toxicité. Nous avons mené des recherches novatrices sur des domaines à risques émergents tels que les cyberattaques, la persuasion et l’autonomie, et nous avons utilisé des tests élaborés par Google Research simulants de potentielles attaques (adversarial testing) pour identifier les risques liés à la sécurité en amont du déploiement de Gemini.

Nous travaillons par ailleurs avec un groupe diversifié de partenaires et d’experts indépendants, afin d’identifier les éventuels angles morts dans notre propre approche de l’évaluation et de soumettre nos modèles à des stress-tests sur différents sujets.

Pour diagnostiquer les problématiques de sûreté au cours des phases d’entraînement de Gemini et nous assurer que ses données de sortie sont conformes à nos politiques, nous utilisons des référentiels dédiés tels que Real Toxicity Prompts, développé des experts du Allen Institute for AI, qui contient 100 000 entrées extraites du web et présentant différents degrés de toxicité.

Nous avons atténué les risques en élaborant des classifieurs dédiés à la sécurité, à même d’identifier, d’étiqueter et de trier les contenus violents ou les stéréotypes négatifs, pour ne citer que deux exemples. Associée à des filtres rigoureux, cette approche multiniveau est conçue pour rendre Gemini plus sûr et plus universellement inclusif. Nous maintenons par ailleurs nos efforts pour remédier aux lacunes connues des modèles telles que l’exactitude factuelle, le fondement, l’attribution ou la validation.

La responsabilité et la sûreté seront toujours les piliers du développement et du déploiement de nos modèles. Parce que cet engagement pérenne exige une approche coopérative, nous travaillons en partenariat avec tous les acteurs du secteur pour mettre au point des référentiels pertinents de sûreté et de sécurité et pour diffuser les bonnes pratiques. Parmi les organisations constitutives de cet écosystème, citons MLCommons, le Frontier Model Forum et son Fonds pour la sûreté de l’IA, ou encore notre Secure AI Framework (SAIF), qui a été conçu pour atténuer les risques de sécurité spécifiques à l’IA dans le secteur public comme dans le secteur privé. Nous comptons sur nos partenariats avec des chercheurs, des gouvernements et des représentants de la société civile dans le monde entier pour poursuivre le développement de Gemini.

Mettre Gemini à la disposition de tous

Gemini 1.0 est désormais disponible pour tout un éventail de produits et de plateformes :

Gemini Pro dans les produits Google

Des milliards d’utilisateurs peuvent désormais bénéficier de Gemini par le biais des produits Google.

Dès aujourd’hui, Bard avec Gemini Pro sera bien plus compétent pour comprendre, résumer, raisonner, suggérer des idées, écrire ou planifier. C’est la plus importante amélioration de Bard depuis son lancement.

Bard sera disponible en anglais dans plus de 170 pays et territoires ; nous prévoyons au cours des prochains mois de le doter de modalités supplémentaires, et de le proposer dans de nouvelles zones géographiques et dans d’autres langues.

Gemini sera également intégré à Pixel. Le Pixel 8 Pro est le premier smartphone conçu pour prendre en charge Gemini Nano, ce qui le dote de capacités nouvelles comme la fonction « résumer » de l’application Enregistreur, ou les réponses automatiques générées dans Gboard — tout d’abord dans WhatsApp, et dans d’autres applications de messagerie dès l’année prochaine. Rendez-vous sur le blog Pixel pour plus d’informations.

Le recours à Gemini sera étendu dans les prochains mois à d’autres produits et services clés de Google tels que Search, Ads, Chrome et Duet AI.

Nous commençons déjà à expérimenter Gemini dans le moteur de recherche, qui rend notre expérience SGE (Search Generative Expérience) plus rapide pour les utilisateurs, avec une réduction de 40 % du temps de latence en anglais aux États-Unis, ainsi que des améliorations de la qualité.

Développer avec Gemini

À compter du 13 décembre, les développeurs et les entreprises pourront accéder à Gemini Pro par le biais de l’API Gemini dans Google AI Studio ou Google Cloud Vertex AI.

Google AI Studio est un outil disponible gratuitement sur le web, qui permet aux développeurs et aux entreprises de prototyper et de lancer rapidement des applications avec une clé API. Lorsque vient le moment de basculer sur une plateforme IA plus complète, Vertex AI leur offre la possibilité de personnaliser Gemini en conservant un contrôle étendu de leurs données, et de bénéficier de fonctionnalités supplémentaires de Google Cloud pour la sécurité des entreprises, la sûreté, la confidentialité, la gouvernance des données et la conformité.

Les développeurs sous Android pourront quant à eux utiliser AICore pour profiter de Gemini Nano, notre modèle le plus efficace pour les tâches embarquées (on-device). AICore est une nouvelle fonctionnalité système disponible sous Android 14 en commençant par les smartphones Pixel 8 Pro et supérieurs. Inscrivez-vous ici pour un aperçu d’AICore en avant-première.

Gemini Ultra bientôt disponible

En ce qui concerne Gemini Ultra, nous menons actuellement une batterie complète de tests de confiance et de sûreté préalables à son déploiement. Ces tests comprennent des sessions de red teaming par des tiers de confiance, et des ajustements du modèle avec des réglages fins et un apprentissage par renforcement à partir de la rétroaction humaine (RLHF, Reinforcement Learning from Human Feedback).

Dans le cadre de ce processus, nous mettrons Gemini Ultra à la disposition d’une sélection de clients, développeurs, partenaires et experts en sûreté et en responsabilité pour que ceux-ci testent le modèle et nous fassent part de leurs retours. L’accès à Gemini Ultra sera ouvert à l’ensemble des développeurs et des entreprises dès le début de l’année prochaine.

Début 2024 nous lancerons également Bard Advanced, une nouvelle expérimentation avant-gardiste avec l’IA qui exploitera nos meilleurs modèles, à commencer par Gemini Ultra, et leurs capacités les plus avancées.

Gemini inaugure une nouvelle ère de l’innovation

Le lancement de Gemini marque un jalon important dans le développement de l’IA et ouvre aussi un nouveau chapitre dans l’histoire de Google, porteur d’innovations rapides et d’avancées responsables dans les capacités de nos modèles.

Gemini a déjà accompli des progrès remarquables, mais nous travaillons désormais sans relâche pour élaborer ses futures versions. Celles-ci disposeront de capacités plus importantes encore, avec une planification et une mémoire améliorées, une fenêtre contextuelle élargie pour traiter davantage d’informations, et de meilleures réponses..

Nous sommes impatients de voir se concrétiser les magnifiques promesses que porte l’IA responsable : celles d’un avenir où l’innovation enrichit la créativité, approfondit les savoirs, stimule les progrès scientifiques et améliore la vie et le travail de milliards d’êtres humains.

Publié dans: