Trayendo el Náhuatl, Zapoteco y otras lenguas originarias de México a Google Translate
El compromiso de Google con la preservación del patrimonio lingüístico de México comenzó hace más de una década con el lanzamiento del Proyecto de Lenguas en Peligro de Extinción. Esta colaboración global se centró en archivar digitalmente materiales de audio y video para salvaguardar estos invaluables tesoros culturales.
Sobre esta base y aprovechando el poder de la IA, en 2021 presentamos Woolaroo, una plataforma de código abierto que permite a las comunidades lingüísticas contribuir activamente a la preservación de sus idiomas mediante la creación y expansión de listas de palabras y la incorporación de guías de pronunciación.
A lo largo de este recorrido, una solicitud ha sido constante: el deseo de ver idiomas nativos integrados en el Traductor de Google, nuestra herramienta de traducción ampliamente utilizada. A medida que la tecnología sigue avanzando, nos entusiasma el creciente potencial para hacer realidad estos ambiciosos proyectos.
Un idioma que se solicitó con frecuencia para su inclusión fue el náhuatl. Incluso si nunca lo has hablado, es probable que te hayas encontrado con palabras de origen náhuatl como "aguacate", "chocolate" y "tomate". El náhuatl es la lengua indígena más hablada de México, con un estimado de 1,5 millones de hablantes que residen principalmente en el centro de México. Las encuestas que realizamos confirmaron el gran entusiasmo de la comunidad por agregar el náhuatl al Traductor de Google.
Comenzamos a trabajar en náhuatl en 2020. El proceso de traducción implicó recopilar textos en náhuatl de varias fuentes, como la web, y trabajar en estrecha colaboración con traductores profesionales que nos ayudaron con las traducciones para preservar el significado, el contexto y el estilo originales con la mayor precisión posible. Cada idioma conlleva una cosmovisión única, un sistema de conocimiento tradicional acumulado a lo largo de generaciones y una forma particular de relacionarse con el mundo. El pasado mes de junio, finalmente anunciamos que el náhuatl de la Huasteca Oriental se incorporó al Traductor de Google.
Desarrollar un modelo de traducción para una lengua indígena como el náhuatl es una tarea difícil. Todos los modelos de IA requieren datos para entrenarse y hay mucho menos texto en náhuatl en línea que, por ejemplo, en español. Nos esforzamos mucho en desarrollar nuevos enfoques para reconocer y encontrar texto en náhuatl. Además, trabajamos con traductores para proporcionar un conjunto más pequeño de traducciones de alta calidad para guiar el modelo. Luego, lo integramos en nuestro modelo de traducción automática de recursos cero. Por último, para lograr una traducción de mayor calidad, integramos el modelo de recursos cero en nuestro modelo de IA PaLM 2, que tiene una mejor capacidad general para comprender el lenguaje.
Según las Naciones Unidas, aunque los pueblos indígenas representan menos del 6% de la población mundial, hablan más de 4,000 de los idiomas del mundo. Las estimaciones conservadoras sugieren que más de la mitad de los idiomas del mundo se extinguirán en 2100. Tener el náhuatl, el zapoteco y otros idiomas nativos mexicanos disponibles en el Traductor de Google, además de los idiomas sudamericanos que agregamos en 2022, el quechua, el aymara y el guaraní, es un paso hacia la promoción de la diversidad lingüística, el entendimiento cultural y la inclusión social. Preservar las lenguas indígenas es esencial para mantener la diversidad cultural y lingüística del planeta, y para garantizar que las generaciones futuras puedan beneficiarse de esta riqueza.