Trois contributions de l’IA au développement de technologies utiles à tous
J’ai découvert les réseaux de neurones lors de mes études en 1990. À cette époque, leur potentiel enthousiasmait de nombreux membres de la « communauté de l’IA ». Ils offraient des opportunités remarquables, sans qu’il soit encore possible de les intégrer dans la vie réelle. J’étais l’un de ces nombreux enthousiastes. J’ai même écrit un mémoire sur l’utilisation du calcul parallèle en vue d’entraîner des réseaux, pensant alors qu’avec une puissance de calcul 32 fois supérieure, nous pourrions atteindre nos objectifs. Le moins que l’on puisse dire, c’est que j’avais tort. En réalité, il aurait fallu qu’elle soit un million de fois supérieure.
21 ans plus tard, les capacités informatiques ayant considérablement progressé, il était temps de retenter l’expérience. En 2011, chez Google, quelques collègues et moi-même avons commencé à entraîner de très grands réseaux de neurones en utilisant des millions d’images, sélectionnées au hasard parmi des vidéos mises en ligne. Nous avons obtenu des résultats impressionnants. À défaut d’entraînement spécifique, le système a automatiquement appris à reconnaître certains objets (notamment les chats, qui ne manquent pas sur Internet). Cette découverte fondamentale dans le domaine de l’IA a marqué le début d’une longue série d’avancées qui se poursuit encore aujourd’hui, chez Google et partout ailleurs.
Si je reviens sur mon parcours concernant les réseaux neuronaux, c’est pour expliquer que les progrès en matière d’IA, bien qu’ils semblent particulièrement rapides aujourd’hui, sont l’aboutissement de longues années de recherche. Effectivement, avant 2012, les ordinateurs n’étaient guère capables de voir, d’entendre ou de comprendre les langages écrits ou oraux. En revanche, depuis dix ans, nous avons réalisé des avancées rapides..
Nous sommes très heureux des progrès récents de Google en IA, sur le plan technique, et au service des utilisateurs du monde entier. Nous avons notamment intégré l’IA au fonctionnement de Google Cloud, à nos produits comme les téléphones Google Pixel ou notre moteur de recherche, ainsi qu’à de nombreuses applications scientifiques ou de la vie quotidienne.
Nous sommes conscients des risques que l’IA présente en tant que technologie émergente. Nous étions, par ailleurs, la première grande entreprise à établir et à mettre en place des principes éthiques en la matière. En réalité, ce qui semblera paradoxal à certains, leur application a conduit au déploiement rapide de technologies utiles à tous. Le succès du développement de l’IA nécessite un effort collectif, impliquant non seulement la recherche, mais aussi les experts du domaine, les développeurs, les membres de la communauté, les entreprises, les gouvernements et les citoyens.
Je suis donc ravi de présenter nos trois principaux axes de travail concernant l’IA : rendre la technologie accessible dans une multitude de langues, étudier comment l’IA peut promouvoir la créativité et utiliser cet outil pour face aux défis du changement climatique.
- L’IA en 1000 langues
Le langage est un outil essentiel de la compréhension du monde et de la communication entre les peuples. Il s’agit donc, sans surprise, de la manière la plus naturelle d’interagir avec la technologie. Toutefois, si plus de 7000 langues sont parlées dans le monde, seules quelques-unes sont bien représentées dans l’univers numérique. Concrètement, cela signifie que les méthodes classiques d’entraînement des modèles de langue, à partir d’extraits de textes issus du Web, ne sont pas représentatives de la diversité des modes de communication. Par le passé, cet obstacle nous a freinés dans notre mission : faire en sorte que les informations du monde entier soient accessibles et utiles à tous.
C’est pour cela que nous lançons « 1,000 Languages » (ou « 1000 langues »). Cette initiative se fixe un objectif ambitieux : concevoir un modèle d’IA qui inclut les mille langues les plus parlées au monde, afin de mieux inclure des milliards de personnes issues de communautés marginalisées dans le monde entier. Nous sommes conscients qu’il s’agit d’un projet à très long terme, que certains qualifient même d’irréalisable. Cependant, nos avancées sont conséquentes et la marche à suivre est clairement définie. La technologie évolue à un rythme effréné, tant par l’utilisation qui en est faite que par les opportunités qu’elle offre. De plus en plus de personnes trouvent et partagent les informations les plus diverses : images, vidéos, discours, etc. En raison de leur multimodalité, nos modèles de langue les plus aboutis sont capables de diffuser des informations sous toutes ces formes. En définitive, des bouleversements immenses ouvrent des voies insoupçonnées.
Dans le cadre de cette initiative et de nos travaux sur la multimodalité, nous avons développé un modèle de langue universel (Universal Speech Model, ou USM en anglais) entraîné dans plus de 400 langues, soit le modèle le plus exhaustif à ce jour. Nous poursuivons nos travaux en partenariat avec des communautés du monde entier, afin de collecter des données représentatives de la diversité linguistique mondiale. Par exemple, nous avons récemment annoncé la disponibilité de la saisie vocale dans neuf langues africaines supplémentaires sur le clavier Gboard. À cette fin, nous avons collaboré étroitement avec des chercheurs et des organisations du continent pour créer et publier les données nécessaires au développement de ces ajouts. En Asie du Sud, nous travaillons activement aux côtés de gouvernements locaux, d’ONG et d’institutions académiques en vue de rassembler des extraits audio représentatifs de l’ensemble des langues et des dialectes régionaux.
- L’IA au service de la créativité et des artistes
Les modèles génératifs basés sur l’IA peuvent stimuler la créativité des citoyens du monde, leur permettant de s’exprimer de manière innovante par le graphisme, la photographie et la vidéo.
Nos chercheurs ont travaillé d’arrache-pied pour développer des modèles à la pointe du secteur. Les évaluateurs humains ont en effet mieux noté les images produites par ces derniers que celles des autres modèles. Récemment, nous avons fait part de nouvelles avancées : nous avons appliqué notre modèle de diffusion à des séquences de vidéo et généré de longues vidéos cohérentes à partir de textes. Aujourd’hui, nous pouvons combiner ces techniques pour produire des vidéos et, pour la première fois, nous publions des vidéos à super-résolution générées par l’IA.
Bientôt, nous lancerons nos technologies de génération d’images à partir de textes dans l’application AI Test Kitchen, qui permet aux internautes de se renseigner sur les technologies d’IA émergentes, de les tester et de partager leurs impressions à leur sujet. Nous sommes impatients de consulter les retours des testeurs de ces démonstrations dans la deuxième édition de la AI Test Kitchen. Il sera possible de construire des villes à thème avec « City Dreamer » et de créer de drôles de monstres capables de bouger, danser et sauter avec « Wobble », le tout à partir de textes.
Outre les images en 2D, le text-to-3D est désormais une réalité grâce à DreamFusion. Ce logiciel produit des modèles tridimensionnels, que l’on peut observer sous tous les angles et utiliser dans tout environnement 3D. Les chercheurs font également des avancées considérables en matière de production de pistes audio avec AudioLM. Ce modèle apprend à générer des discours réalistes et des morceaux de piano uniquement à partir de pistes audio. À l’instar d’un modèle de langue capable de prédire les mots et les phrases qui succèdent à un texte donné, AudioLM prédit les sons qui devraient succéder à quelques secondes de piste audio.
Pour développer ces outils, nous collaborons avec des créateurs du monde entier. Par exemple, nous travaillons avec des écrivains qui utilisent Wordcraft, un prototype alimenté par notre modèle d’IA conversationnelle de dernière génération, LaMDA, afin tester la production de textes fondée sur l’IA. Pour plus d’informations sur ces sujets, veuillez consulter le Wordcraft Writers Workshop.
- L’IA dans le secteur de la santé et dans la lutte contre le changement climatique
L’IA présente également un immense potentiel face aux défis du changement climatique, notamment pour aider les personnes à s’adapter. Les feux de forêt sont l’un des plus graves : de plus en plus importants et fréquents, ils touchent aujourd’hui des centaines de milliers de personnes.
Aujourd’hui, je suis heureux de vous annoncer que nous avons fait évoluer notre utilisation de l’imagerie satellite afin d’entraîner les modèles d’IA à identifier et assurer le suivi en temps réel des feux de forêt. Cela permet de prédire leur évolution et leur propagation. Nous avons lancé ce système de suivi des incendies en Australie, aux États-Unis, au Canada et au Mexique. Depuis le mois de juillet, nous avons couvert plus de 30 feux de forêt aux États-Unis et au Canada, ce qui a permis aux utilisateurs et aux équipes de pompiers de s’informer. Nous avons comptabilisé plus de sept millions de vues sur Google Search et sur Maps.
L’IA nous permet également de prévoir les inondations, un autre phénomène météorologique exacerbé par le dérèglement climatique. Ainsi, certaines communautés concernées peuvent déjà anticiper l’occurrence des inondations ainsi que leur ampleur. En 2021, nous avons envoyé 115 millions de notifications d’alerte à 23 millions d’internautes sur Google Search et Maps, ce qui contribué à sauver vies. Aujourd’hui, nous annonçons l’extension de notre système à l’Amérique du Sud (Brésil et Colombie), l’Afrique subsaharienne (Burkina Faso, Cameroun, Tchad et République démocratique du Congo, Côte d’Ivoire, Ghana, Guinée, Malawi, Nigéria, Sierra Léone, Angola, Soudan du Sud, Namibie, Libéria et Afrique du Sud), ainsi qu’à l’Asie du Sud (Sri Lanka). Nous avons eu recours à la technique d’IA nommée « transfert d’apprentissage » pour que ces fonctionnalités soient utilisables aussi dans les régions pauvres en données. Nous annonçons également le lancement mondial de la plateforme FloodHub de Google, qui montre où et quand des inondations pourraient survenir. À l’avenir, nous inclurons également ces informations sur Google Search et Maps pour améliorer la diffusion des alertes d’inondations et permettre à plus de personnes de se mettre en sécurité.
Enfin, l’IA nous permet d’élargir l’accès à la santé dans les régions défavorisées. Pour le suivi des grossesses, par exemple, nous réfléchissons à des solutions fondées sur l’IA destinées à lire et analyser les résultats des échographies à bas coût. Nous souhaitons également continuer à nous associer aux soignants et aux organisations de santé publique afin de faciliter le dépistage de la rétinopathie diabétique, via notre outil automatique d’évaluation des maladies de la rétine (ARDA). En déployant l’usage de ce dernier et en menant des études prospectives, nous avons dépisté plus de 150 000 patients en Inde, en Allemagne, aux États-Unis et au Royaume-Uni, dont plus de la moitié en 2022 seulement. Par ailleurs, nous explorons des solutions fondées sur l’IA pour la détection de notre fréquence respiratoire et cardiaque via nos téléphones. Ce travail fait partie des ambitions de Google Health, lesquelles comprennent l’élargissement de l’accès aux soins médicaux à tous les utilisateurs de smartphones.
- L’IA dans les années à venir
Nos progrès dans l’architecture des réseaux neuronaux, les algorithmes d’apprentissage automatique et le matériel dédié à l’apprentissage automatique ont permis à l’IA de résoudre des problèmes très concrets touchant des milliards de personnes. Mais ce n’est pas fini. Aujourd’hui, nous partageons notre vision optimiste de l’avenir : l’IA nous permet de repenser l’utilité des technologies. Nous voulons continuer à explorer ces nouvelles capacités et utiliser ces technologies pour améliorer des vies dans le monde entier. Nous espérons que vous suivrez de près nos avancées !