Acceder al contenido
Blog España

Tres maneras en que la IA está acercando tecnologías útiles a todo el mundo



Redes interconectadas con íconos diversos en sus nodos.

Los grandes avances en inteligencia artificial de los que somos testigos hoy día son el resultado de décadas de investigación. Hoy hablamos de tres nuevas maneras en las que beneficiará a la gente: a través del acceso a la tecnología en más idiomas, abriendo nuevas vías a la creatividad y mediante alertas que salvan vidas cuando se produce un desastre natural.

La primera vez que tomé contacto con las redes neuronales fue en 1990, cuando era estudiante universitario. Por aquel entonces, a mucha gente dentro de la comunidad de la IA le entusiasmaba el potencial de las redes neuronales, que ya eran impresionantes pero que todavía no estaban en situación de realizar tareas importantes del mundo real. A mí también me contagió ese entusiasmo. Hice mi TFC sobre el uso de la computación paralela para entrenar redes neuronales y pensaba que solo hacía falta multiplicar la potencia de cálculo por 32 para dar ese salto. Erré el tiro por mucho. La verdad es que, en aquel momento, hacía falta un millón de veces más potencia de cálculo.

21 años después, con una potencia de cálculo exponencialmente mayor, llegó el momento de darle otra vuelta a las redes neuronales. En 2011, unas cuantas personas de Google, entre las que me contaba yo, nos pusimos a entrenar redes neuronales muy grandes utilizando millones de fotogramas seleccionados aleatoriamente en vídeos de YouTube. Los resultados fueron notables. Sin un entrenamiento explícito, el sistema aprendió automáticamente a reconocer diferentes objetos (especialmente los gatos, ya sabéis que YouTube está lleno de gatos). Aquello fue un descubrimiento transformador en el campo de la IA, dentro de una larga serie de avances que aún prosiguen, no solo en Google.

Si hablo de mi propia experiencia con las redes neuronales es para ilustrar que, aunque los avances actuales en IA puedan parecer vertiginosos, en realidad son el resultado de un largo proceso de desarrollo. De hecho, antes de 2012, los ordenadores tenían enormes dificultades para ver, oír o entender el lenguaje hablado o escrito. En los últimos 10 años, los avances en IA han sido especialmente rápidos .

Y a día de hoy nos entusiasman muchos de los recientes avances en IA que Google está liderando, y no solo en el terreno técnico, sino en cómo se están implantado de una forma responsable, para ayudar a la gente en todo el mundo. Precisamente para eso estamos implantando IA en Google Cloud , en nuestros productos, desde los teléfonos Pixel hasta el buscador de Google , en muchos campos científicos y en otras empresas humanas.

Somos conscientes de que la IA, como una tecnología emergente, plantea retos y riesgos. Fuimos la primera gran empresa en publicar y empezar a aplicar un conjunto de Principios de la IA . Es más, seguir esos principios nos ha ayudado a volcarnos en hacer avances rápidos en tecnologías con una utilidad general (aunque pueda parecer contraintuitivo). Conseguir una IA adecuada no es un coto cerrado de los investigadores; debe ser un esfuerzo colectivo en el que también participen todo tipo de expertos, desarrolladores, miembros de la comunidad, empresas, gobiernos y el público en general.

Por todo ello, para mí es un placer hacer hoy anuncios en tres campos transformadores de la IA. El primero de ellos es el uso de la IA para hacer accesible la tecnología en muchos más idiomas. En segundo lugar, hablaré sobre todo lo que la IA puede aportar para potenciar la creatividad. Y en tercer lugar, me referiré a la utilidad social de la IA, incluida la adaptación climática.

1. IA para comunicarse en mil idiomas

El lenguaje es una herramienta fundamental para comunicarnos y darle sentido al mundo. No es de extrañar que sea también la forma más natural de interaccionar con la tecnología. Sin embargo, en el mundo se hablan más de 7.000 lenguas y solo unas pocas están bien representadas en la web. Estas carencias hacen que las estrategias tradicionales de entrenamiento de modelos lingüísticos a partir de textos procedentes de internet no consigan captar la diversidad de la comunicación humana a escala mundial. Es más, ese ha sido históricamente un obstáculo en nuestro objetivo de dar un acceso y utilidad universales a la información del mundo.

Por eso, hoy anunciamos la “Iniciativa de las mil lenguas”, un ambicioso compromiso para construir un modelo de IA que recoja los mil idiomas más hablados en todo el mundo, que redunde en una mayor inclusión de los miles de millones de personas que, por motivos lingüísticos, se encuentran marginadas en la web. Tardaremos muchos años. Hay quien lo considera éxito estratosférico. Pero el caso es que ya estamos dando pasos en la buena dirección y vemos el camino con claridad. En la tecnología, todo ha cambiado a grandísima velocidad; desde la forma en que la gente la utiliza hasta lo que es capaz de hacer. Cada vez más, vemos que la gente busca y comparte información a través de nuevas modalidades, como imágenes, vídeos y voz. Y nuestros modelos lingüísticos más avanzados son multimodales; es decir, son capaces de obtener información en cualquiera de esos formatos. Con estos grandes progresos vienen también nuevas oportunidades.

Globo terráqueo verde rota con la palabra "hola" en 4 idiomas.

En el contexto de esta iniciativa y de nuestro planteamiento multimodal, hemos desarrollado un modelo universal del habla —o USM, Universal Speech Model— que abarca más de 400 idiomas, lo que lo convierte en el modelo del habla con mayor cobertura lingüística creado hasta la fecha. Para ampliar este trabajo, nos estamos asociando con comunidades de todo el mundo para obtener datos representativos sobre el habla. Así, por ejemplo hemos anunciado recientemente la escritura por voz en Gboard para nueve idiomas africanos adicionales, un desarrollo que ha requerido una estrecha colaboración con investigadores y organizaciones de África para crear y publicar datos. En el sur de Asia, trabajamos activamente con administraciones locales, ONG y centros académicos, con el objetivo de recopilar muestras de audio representativas de todas las lenguas y dialectos de la región.

2. IA para impulsar el trabajo de creadores y artistas

Los modelos generativos asistidos por IA tienen potencial para dar rienda suelta a la creatividad, y para ayudar a personas de todas las culturas a expresarse a través del vídeo, las imágenes y el diseño de formas que antes no podían.

Nuestros investigadores han dedicado grandes esfuerzos al desarrollo de modelos como Imagen y Parti , a la vanguardia en términos de calidad. Las imágenes que generan reciben calificaciones más altas a cargo de evaluadores humanos que otros modelos existentes. Recientemente hemos hecho públicos dos importantes avances: el primero es Imagen Video, nuestro modelo de difusión aplicado a secuencias de vídeo. El segundo es Phenaki, un modelo que genera vídeos coherentes de larga duración a partir de una secuencia de indicaciones de texto. Nuestros equipos han trabajado juntos en la producción de vídeos con ambos modelos. Hoy, por primera vez, compartimos vídeos de superresolución generados mediante IA.

Jirafa en la sabana con descripción a la izquierda.

Próximamente, llevaremos esta generación de tecnologías de transformación de texto en imágenes a nuestra aplicación AI Test Kitchen, que está pensada para que el público aprenda sobre nuevas tecnologías de inteligencia artificial, las pruebe y haga sus comentarios. Estamos muy interesados en el feedback de los usuarios de estas demos de IA, que podrán probarse en la segunda temporada de AI Test Kitchen. Por ejemplo, podrán construir ciudades temáticas con "City Dreamer" y diseñar con "Wobble" simpáticos personajes monstruosos capaces de moverse, bailar y saltar... todo ello mediante indicaciones de texto.

Aparte de las imágenes 2D, DreamFusion ha hecho realidad la conversión de texto a 3D. Esta aplicación genera un modelo tridimensional que puede verse desde cualquier ángulo e incorporarse a cualquier entorno 3D. También se han hecho grandes avances en el ámbito de la generación de audio con AudioLM, un modelo que aprende a generar habla realista y música de piano con solo escuchar fragmentos sonoros. De la misma manera que un modelo lingüístico puede predecir, a la vista de un texto, cuáles son las siguientes palabras (e incluso frases), AudioLM solo tiene que escuchar unos segundos de un fragmento de audio para predecir cuáles serían los siguientes sonidos.

Estas herramientas se están desarrollando de forma colaborativa con comunidades de creadores de todo el mundo. Por ejemplo, estamos trabajando con distintos escritores en el uso de Wordcraft, que se basa en nuestro sistema de diálogo de última generación LaMDA, para experimentar con la redacción de textos asistida por IA. El primer resultado es una colección de relatos que se puede leer en nuestro Wordcraft Writers Workshop .

3. IA para abordar desafíos climáticos y mejorar la atención sanitaria

La IA también tiene un gran potencial para mitigar los efectos del cambio climático y para ayudar a la población a adaptarse a nuevos retos. Uno de ellos son los incendios forestales, que afectan a cientos de miles de personas, y que cada vez son más frecuentes y de mayor escala.

Hoy tengo el placer de anunciar que hemos hecho avances en el uso de imágenes de satélites para entrenar modelos de IA, con el fin de identificar incendios forestales y llevar un seguimiento en tiempo real de su evolución, que ayuda a predecir cómo se propagan. Hemos puesto en servicio este sistema de seguimiento de incendios forestales en Australia, Estados Unidos, Canadá y México. Desde el pasado mes de julio, se ha empleado en más de 30 grandes incendios forestales en Estados Unidos y Canadá, y ha alcanzado más de 7 millones de avisos en el Buscador de Google y en Maps que han servido de ayuda para informar a nuestros usuarios y a los equipos de extinción.

Pantalla de teléfono muestra mapa del área afectada por el incendio forestal de Goat Rocks.

También estamos utilizando IA para predecir inundaciones, otro fenómeno meteorológico extremo que se ve agravado por el cambio climático, y ha sido de gran utilidad en comunidades de la India y Bangladesh prediciendo  cuándo se producirá una inundación y la profundidad a la que llegará. Solo en 2021, enviamos 115 millones de notificaciones de alerta de inundaciones a 23 millones de personas a través del Buscador de Google y de Maps, ayudando a salvar muchas vidas. Hoy anunciamos que esta cobertura se está ampliando a más países de América del Sur (Brasil y Colombia), África subsahariana (Burkina Faso, Camerún, Chad, República Democrática del Congo, Costa de Marfil, Ghana, Guinea, Malawi, Nigeria, Sierra Leona, Angola, Sudán del Sur, Namibia, Liberia y Sudáfrica) y sur de Asia (Sri Lanka). Otra novedad que también anunciamos hoy es el lanzamiento mundial del Flood Hub de Google, un nuevo modelo que muestra cuándo y dónde es probable que se produzcan inundaciones. Tenemos intención de incorporarlo al Buscador de Google y a Maps, con el fin de ayudar a más personas a ponerse a salvo en situaciones de inundación.

Resultado de búsqueda de Google FloodHub que muestra el mapa del Río Níger.

Por último, la IA también puede ser útil para mejorar el acceso a la atención sanitaria en zonas con pocos recursos. Por ejemplo, estamos investigando cómo puede ayudar la IA a interpretar las imágenes de ecógrafos de bajo coste durante el embarazo, de modo que los padres puedan ser conscientes de posibles problemas de forma más temprana durante la gestación. Igualmente, tenemos previsto dar continuidad a nuestra colaboración con servicios de salud públicos y privados, para ampliar el acceso al cribado de retinopatía diabética con nuestra herramienta de evaluación automática de enfermedad de la retina (ARDA). ARDA ha permitido cribar de manera fiable más de 150.000 pacientes en países como India, Tailandia, Alemania, Estados Unidos y el Reino Unido en estudios prospectivos y en campañas reales, más de la mitad de ellos solo en 2022. En otro orden de cosas, estamos explorando cómo puede utilizarse la IA para detectar frecuencia respiratoria y cardíaca a través del teléfono móvil. Este trabajo es parte de la visión de Google Health que, entre otras cosas, busca que los teléfonos inteligentes sirvan para acercar la atención sanitaria a toda la población.

La IA en los próximos años

Gracias a nuestros avances en arquitectura de redes neuronales, algoritmos de aprendizaje automático y nuevos enfoques de hardware para el aprendizaje automático, la IA está ayudando a aportar soluciones a problemas reales que afectan a miles de millones de personas. Todavía nos esperan grandes avances. Todo lo que compartimos hoy es parte de una visión esperanzadora de un futuro en el que la inteligencia artificial nos permite redefinir las formas en que puede sernos útil la tecnología. Continuaremos explorando estas nuevas posibilidades y utilizando esta tecnología para mejorar la vida de las personas en todo el mundo, y esperamos que te unas a nosotros.