Accéder au menu principal
Blog Google France

Modèles plus rapides, fenêtre de contexte étendue et avenir des assistants IA : Gemini entre dans une nouvelle ère

Illustration du réseau d'un modèle d'IA complexe se connectant à un autre modèle plus rationalisé, représentant la façon dont Google DeepMind enseigne et forme des modèles plus petits à partir de modèles plus grands.

Par Demis Hassabis, PDG de Google DeepMind, au nom de l'équipe Gemini

En décembre dernier, nous avons lancé Gemini 1.0, notre premier modèle multimodal natif, dans trois versions : Ultra, Pro et Nano. Quelques mois plus tard, nous avons lancé la version 1.5 Pro, dotée de performances renforcées et d’ une fenêtre de contexte d’un million de tokens.

Les développeurs et les entreprises clientes ont utilisé Gemini 1.5 Pro de manière incroyable et ont trouvé sa fenêtre de contexte étendue, ses capacités de raisonnement multimodales et ses performances générales incroyablement utiles.

Grâce aux retours des utilisateurs, nous savons que certaines applications ont besoin d’une latence plus faible et d’un coût de service plus bas. Cela nous a incités à continuer d’innover, c’est pourquoi aujourd’hui, nous présentons Gemini 1.5 Flash : un modèle plus léger que 1.5 Pro, conçu pour être rapide et efficace à grande échelle.

Gemini 1.5 Pro et Gemini 1.5 Flash sont disponibles en avant-première publique avec une fenêtre de contexte d'un million de tokens dans Google AI Studio et Vertex AI. Une fenêtre de contexte de 2 millions de tokens est disponible sur liste d'attente pour les développeurs utilisant l'API et les clients Google Cloud.

Nous introduisons aussi des mises à jour pour toute la famille de modèles Gemini, à travers notre prochaine génération de modèles ouverts, Gemma 2, et Project Astra, qui illustre nos dernières avancées dans le futur des assistants IA.

Longueurs de contexte des principaux modèles par rapport à la capacité de 2 millions de tokens de Gemini 1.5.

Mises à jour de la famille de modèles Gemini

Le nouveau Gemini 1.5 Flash, optimisé pour la vitesse et l'efficacité

Gemini 1.5 Flash est le tout dernier modèle de la famille Gemini et le plus rapide servi dans l'API. Il est optimisé pour les tâches à haut volume et haute fréquence à grande échelle, est plus rentable à servir et dispose de notre fenêtre de contexte étendue révolutionnaire.

Bien qu'il soit plus léger que le modèle 1.5 Pro, il est hautement capable de raisonnement multimodal sur de vastes quantités d'informations et offre une qualité impressionnante pour sa taille.

Illustration d'icônes et de texte présentant les trois caractéristiques principales du nouveau modèle Gemini 1.5 Flash : vitesse et efficacité, raisonnement multimodal et une fenêtre de contexte étendue.

Le nouveau modèle Gemini 1.5 Flash est optimisé pour la vitesse et l'efficacité, il est doté de capacités de raisonnement multimodal renforcées et dispose de notre fenêtre de contexte étendue révolutionnaire.

Gemini 1.5 Flash excelle dans la synthèse, les applications de chat, la description d'images et de vidéos, l'extraction de données issues de longs documents et tableaux, et bien plus encore. Cela vient du fait qu'il a été entraîné par Gemini 1.5 Pro grâce à un processus appelé "distillation", où les connaissances et compétences les plus essentielles d'un modèle plus grand sont transférées à un modèle plus petit et plus efficace.

Pour en savoir plus, consultez cette page et découvrez la disponibilité et le prix de 1.5 Flash. Nous partagerons plus de détails dans un rapport technique mis à jour sur Gemini 1.5 prochainement.

Amélioration significative de Gemini 1.5 Pro

Au cours des derniers mois, nous avons considérablement amélioré Gemini 1.5 Pro, notre meilleur modèle, performant sur un large éventail de tâches.

En plus d’atteindre une fenêtre de contexte de deux millions de jetons, nous avons optimisé la génération du code, le raisonnement logique et la planification, la conversation multitour ainsi que la compréhension du son et de l’image grâce à des avancées en matière de données et d'algorithmes. Nous constatons de fortes améliorations sur les benchmarks publics et internes pour chacune de ces tâches.

1.5 Pro peut désormais suivre des instructions de plus en plus complexes et nuancées, y compris celles qui spécifient le comportement au niveau du produit impliquant le rôle, le format et le style. Nous avons amélioré le contrôle sur les réponses du modèle pour des cas d'utilisation spécifiques, tels que la création de la personnalité et du style de réponse d'un agent de chat ou l'automatisation des workflows via plusieurs appels de fonction. Et nous avons permis aux utilisateurs de piloter le comportement du modèle en définissant des instructions système.

Gemini 1.5 Pro peut désormais suivre des directives de plus en plus complexes et nuancées, y compris des instructions qui précisent le comportement au niveau du produit, comme le rôle, le format, le style, etc. Nous avons amélioré le contrôle des réponses de Gemini 1.5 Pro lorsque le modèle est utilisé pour des cas d'usage spécifiques, come la création d'un persona et d'un style de réponse d'un agent de chat, ou l'automatisation des workflows via plusieurs appels de fonction. Et nous avons permis aux utilisateurs de piloter le comportement du modèle en définissant des instructions système.

Nous avons intégré la compréhension audio dans l’API Gemini etGoogle AI Studio, et le modèle peut maintenant raisonner en s’appuyant sur l’image et le son dans les vidéos téléchargées dans AI Studio. Et nous intégrons maintenant 1.5 Pro dans les produits Google, y compris Gemini Advanced et dans les applications Workspace.

Pour en savoir plus sur 1.5 Pro, consultez la page Gemini Technology. Plus de détails seront bientôt disponibles dans notre rapport technique mis à jour sur Gemini 1.5.

Gemini Nano comprend les entrées multimodales

Gemini Nano s'étend au-delà des entrées textuelles pour inclure également les images. Les applications utilisant Gemini Nano - à commencer par la gamme d'appareils Pixel - seront capables de comprendre le monde comme les gens le font - non seulement à travers le texte, mais aussi à travers la vue, le son et le langage parlé, grâce à la multimodalité.

Rendez-vous ici pour en savoir plus sur Gemini 1.0 Nano sur Android.

Une nouvelle génération de modèles ouverts

Aujourd'hui, nous présentons aussi une série de mises à jour concernant Gemma, notre famille de modèles ouverts conçus à partir des mêmes recherche et des mêmes technologies que celles utilisées pour créer les modèles Gemini.

Nous présentons Gemma 2, notre nouvelle génération de modèles ouverts pour une innovation responsable en matière d'IA. Gemma 2 présente une nouvelle architecture conçue pour des performances et une efficacité révolutionnaires, et sera disponible dans de nouvelles tailles.

La famille Gemma s'agrandit également avec PaliGemma, notre premier modèle vision-langage inspiré de PaLI-3. Et nous avons mis à niveau notre Responsible Generative AI Toolkit avec LLM Comparator pour évaluer la qualité des réponses du modèle.

Pour en savoir plus, consultez notre blog pour les développeurs.

Nos progrès dans le développement d'assistants IA universels

Dans le cadre de la mission de Google DeepMind - construire une IA responsable au service de l'humanité - nous avons toujours voulu développer des assistants IA universels utiles utiles dans le quotidien de chacun. C'est pourquoi aujourd'hui, nous partageons nos progrès dans la construction de l'avenir des assistants IA avec Project Astra (Advanced Seeing and Talking Responsive Agent).

Pour être vraiment utile, un assistant IA doit comprendre un monde complexe et dynamique et y réagir comme le font les gens. Il doit aussi assimiler et retenir ce qu'il voit et entend pour comprendre le contexte et agir. Il doit également être proactif, capable d'apprendre et personnel, afin que les utilisateurs puissent lui parler naturellement et sans décalage ni délai.

Bien que nous ayons accompli des progrès significatifs dans le développement de systèmes d'IA capables de comprendre l'information multimodale, réduire le temps de réponse à un niveau conversationnel est un défi d'ingénierie complexe. Au cours des dernières années, nous avons travaillé à améliorer la façon dont nos modèles perçoivent, raisonnent et conversent pour rendre le rythme et la qualité de l'interaction plus naturels.

Une démo en deux parties de Project Astra, la vision de Google DeepMind pour l'avenir des assistants IA. Chaque partie a été capturée en une seule prise, en temps réel. La vidéo montre une femme interagissant avec un agent IA via une application sur son téléphone et utilisant des lunettes Google. Elle pose des questions sur des choses dans son environnement et l'agent répond rapidement, en conversation.
10:25

Ces agents, fondés sur notre modèle Gemini et d'autres modèles spécifiques à des tâches, et ont été conçus pour traiter l'information plus rapidement en encodant continuellement les images vidéo, en combinant l'entrée vidéo et vocale en une chronologie d'événements, et en mettant en cache ces informations pour un rappel efficace.

En exploitant nos modèles de parole de pointe, nous avons aussi amélioré leur sonorité, en donnant aux assistants IA une gamme d'intonations plus large. Ils peuvent ainsi mieux comprendre le contexte dans lequel ils sont utilisés et répondre rapidement, dans une conversation.

Avec une telle technologie, il est facile d'imaginer un avenir où les gens pourraient avoir un assistant IA experts à leurs côtés, à travers un téléphone ou des lunettes. Et certaines de ces capacités seront intégrées aux produits Google, comme l'application et l'expérience web Gemini, plus tard cette année.

Exploration continue

Nous avons réalisé des progrès majeurs avec notre famille de modèles Gemini, et nous nous efforçons toujours de faire progresser l'état de l'art. En investissant dans une chaîne de production d'innovation incessante, nous sommes en mesure d'explorer de nouvelles idées à la frontière, tout en ouvrant la possibilité de nouveaux cas d'utilisation passionnants pour Gemini.

Rendez-vous ici en savoir plus sur Gemini et ses capacités.