110 nouvelles langues sont désormais disponibles sur Google Traduction
Google Traduction fait tomber les barrières de la langue pour aider les gens à se connecter au monde qui les entoure et à mieux le comprendre. Nous exploitons en permanence les toutes dernières technologies afin que davantage de personnes puissent accéder à cet outil. En 2022, par exemple, nous avons ajouté 24 nouvelles langues grâce à la traduction automatique
Zero-Shot, qui permet à un modèle de machine learning (apprentissage automatique) de traduire dans une autre langue sans jamais en voir d’échantillon. Nous avons également annoncé le lancement de la “1,000 Languages Initiative” (initiative 1 000 langues), un engagement à construire des modèles d'IA qui prendront en charge les 1 000 langues les plus parlées dans le monde.
Aujourd'hui, nous utilisons l'IA pour élargir la palette des langues disponibles. Grâce à notre grand modèle de langage PaLM 2, nous ajoutons 110 nouvelles langues à Google Traduction, l’ajout le plus important jamais réalisé. Par rapport à nos précédents modèles, PaLM 2 est particulièrement efficace pour l'apprentissage de langues étroitement liées les unes aux autres.
Aide à la traduction pour plus d'un demi-milliard de personnes
Du cantonais au qʼeqchiʼ, ces nouvelles langues représentent plus de 614 millions de locuteurs, et vont permettre à environ 8 % de la population mondiale d'effectuer des traductions. Certaines de ces langues sont des langues mondiales majeures, comptant plus de 100 millions de locuteurs. D'autres sont parlées par de petites communautés autochtones, et quelques-unes n'ont pratiquement pas de locuteurs natifs mais font l'objet d'efforts de revitalisation. Environ un quart des nouvelles langues proviennent d'Afrique, ce qui représente notre plus grand ajout concernant les langues africaines à ce jour, avec notamment le fon, le kikongo, le luo, le ga, le swati, le venda et le wolof.
Voici quelques-unes des langues désormais disponibles sur Google Traduction :
- L'afar est une langue tonale parlée à Djibouti, en Érythrée et en Éthiopie. De toutes les langues de ce lancement, l'afar est celle qui a bénéficié du plus grand nombre de contributions volontaires de la part de la communauté.
- Le cantonais est depuis longtemps l'une des langues les plus demandées sur Google Traduction. Mais c'est une langue difficile à ajouter car, à l'écrit, elle se confond souvent avec le mandarin, ce qui complique la recherche de données et la formation de modèles.
- Le manx est la langue celtique de l'île de Man. Elle a failli disparaître avec la mort de son dernier locuteur natif en 1974. Mais grâce à un mouvement de renaissance à l'échelle de l'île, elle compte aujourd'hui des milliers de locuteurs.
- Le NKo est une forme standardisée des langues mandingues d'Afrique de l'Ouest qui unifie de nombreux dialectes en une langue commune. Son alphabet unique a été inventé en 1949 et une communauté de recherche active développe aujourd'hui des ressources et des technologies pour cette langue.
- Le panjabi (shahmukhi) est la variété de panjabi écrite à l’aide d’un alphabet perso-arabe (le shahmukhi). C'est la langue la plus parlée au Pakistan.
- Le tamazight est une langue berbère parlée dans toute l'Afrique du Nord. Bien qu'il existe de nombreux dialectes, la forme écrite est généralement compréhensible par tous. Elle s'écrit en caractères latins et en caractères tifinagh, tous deux disponibles sur Google Traduction.
- Le tok pisin est un créole basé sur l'anglais et la lingua franca (un langage permettant la communication entre locuteurs de langues différentes) de Papouasie-Nouvelle-Guinée. Si vous parlez anglais, essayez de traduire une phrase en tok pisin, vous pourrez peut-être en comprendre le sens !
Comment nous composons la palette des langues
Il y a beaucoup de critères à prendre en compte lorsque l'on ajoute de nouvelles langues à Google Traduction, depuis les variétés de langues que nous proposons jusqu'aux orthographes spécifiques que nous utilisons.
Les langues intègrent énormément de variétés : variétés régionales, dialectes, normes orthographiques différentes. En fait, de nombreuses langues n'ont pas de forme standard et il est donc impossible de choisir la "bonne" variété. Notre approche a consisté à donner la priorité aux variétés les plus couramment utilisées de chaque langue. Par exemple, le romani est une langue qui compte de nombreux dialectes dans toute l'Europe. Nos modèles produisent un texte qui se rapproche le plus du vlax méridional, une variété de romani couramment utilisée en ligne. Mais ils intègrent également des éléments d'autres variétés, comme le vlax du nord et le romani des Balkans.
Grâce à nos partenariats avec des linguistes spécialisés et des locuteurs natifs, nous continuons à faire de grands progrès. Et au fur et à mesure que la technologie progresse, nous allons continuer à prendre en charge encore plus de variétés de langues et de conventions orthographiques.
Consultez le Centre d'aide pour en savoir plus sur les nouvelles langues disponibles. Et commencez à traduire sur translate.google.com ou avec l’appli Google Traduction sur Android et iOS.