Google I/O 2024: un I/O para una nueva generación
A continuación se ofrece una transcripción editada de las declaraciones de Sundar Pichai en I/O 2024, adaptada para incluir más de lo que se anunció en el escenario. Consulta todos los anuncios en nuestra colección.
Google está plenamente en la era Gemini.
Antes de entrar en detalles, quiero reflexionar sobre este momento en el que nos encontramos. Hemos estado invirtiendo en IA durante más de una década e innovando en todas las capas del proceso: investigación, producto, infraestructura, y de todo ello vamos a hablar hoy.
Sin embargo, estamos en los primeros días del cambio de plataforma de la IA. Vemos muchísimas oportunidades por delante, para creadores, desarrolladores, startups, para todos. Impulsar esas oportunidades es de lo que se trata nuestra era Gemini. Así que empecemos.
La era Gemini
Hace un año, en el escenario de I/O, compartimos por primera vez nuestros planes para Gemini: un modelo de vanguardia diseñado para ser multimodal de forma nativa desde el principio, capaz de razonar a través de texto, imágenes, video, código y más. Representa un gran paso para convertir cualquier entrada en cualquier salida, un “I/O” para una nueva generación.
Desde entonces, hemos presentado los primeros modelos Gemini, los más capaces hasta la fecha. Demostraron un rendimiento de vanguardia en todos los parámetros multimodales. Dos meses más tarde, presentamos Gemini 1.5 Pro, que supone un gran avance a largo plazo. Puede ejecutar 1 millón de tokens en producción de forma consistente, más que cualquier otro modelo de base a gran escala hasta ahora.
Queremos que todo el mundo se beneficie de lo que Gemini puede hacer. Por eso, hemos trabajado rápidamente para compartir estos avances con todos ustedes. Hoy en día, más de 1,5 millones de desarrolladores utilizan modelos Gemini en nuestras herramientas. Lo utilizan para depurar código, obtener nuevos conocimientos y construir la próxima generación de aplicaciones de IA.
También hemos incorporado las poderosas y revolucionarias capacidades de Gemini a nuestros productos. Hoy mostraremos ejemplos en el Buscador, Fotos, Workspace, Android y más.
Progreso de los productos
En la actualidad, todos nuestros productos utilizados por 2.000 millones de usuarios utilizan Gemini.
Hemos introducido nuevas experiencias, como por ejemplo en los teléfonos donde la gente puede interactuar con Gemini directamente a través de la aplicación que ya está disponible en Android e iOS. Y a través de Gemini Advanced, que proporciona acceso a nuestros modelos más capaces. Más de un millón de personas se han registrado para probarlo en solo tres meses y sigue mostrando un fuerte impulso.
Ampliación de las perspectivas de la IA en la búsqueda
Una de las transformaciones más emocionantes de Gemini se ha producido en el Buscador de Google.
En el último año, hemos respondido miles de millones de consultas como parte de nuestra Experiencia Generativa de Búsqueda (SGE). La gente está utilizando nuevas formas para buscar, haciendo nuevos tipos de preguntas, consultas más largas y complejas, incluso buscando con fotos y obteniendo lo mejor que la web tiene que ofrecer.
Hemos estado probando esta experiencia fuera de Labs, y nos anima a ver no sólo un aumento en el uso del Buscador, sino también un aumento en la satisfacción del usuario.
Me complace anunciar que esta semana empezaremos a ofrecer a todos los usuarios de EE.UU. una experiencia totalmente renovada: “Resumen Creado con IA”. Pronto, la llevaremos a más países.
Hay mucha innovación en el Buscador. Gracias a Gemini podemos crear experiencias de búsqueda mucho más potentes, incluso dentro de nuestros productos.
Presentación de Ask Photos
Un ejemplo es Google Fotos, lanzado hace casi nueve años. Desde entonces, la gente la ha utilizado para organizar sus recuerdos más importantes. Hoy en día se suben más de 6.000 millones de fotos y vídeos al día.
A la gente le encanta utilizar Google Fotos para hacer búsquedas a lo largo de su vida. A partir de ahora, con Gemini lo hacemos mucho más fácil.
Digamos que estás pagando en el aparcamiento, pero no recuerdas tu matrícula. Antes, tenías que buscar palabras clave en Google Fotos y desplazarte por años de fotos en busca de matrículas. Ahora, basta con preguntar a Google Fotos. Conoce los coches que aparecen a menudo, triangula cuál es el tuyo y te dice la matrícula.
Ask Photos puede ayudarte a buscar en tus recuerdos de una forma más profunda. Por ejemplo, puede que estés recordando los primeros pasos de tu hija Lucía y puedes preguntarle a Google Fotos: “¿Cuándo aprendió Lucía a nadar?”. Y continuar con algo aún más complejo: “Muéstrame cómo ha progresado la natación de Lucía”.
En este caso, Gemini va más allá de una simple búsqueda y reconoce diferentes contextos: desde hacer largos en la piscina hasta bucear en el océano, pasando por el texto y las fechas de sus certificados de natación. Google Fotos lo agrupará todo en un resumen, para que puedas asimilarlo y revivir recuerdos increíbles una y otra vez. Lanzaremos Ask Photos este verano, con más funciones en el futuro.
Con Ask Photos puedes buscar tus fotos y videos de formas más profundas
Desbloquear más conocimiento con multimodalidad y contexto largo
Desde un principio, creamos Gemini para que sea multimodal desde el principio. Es un modelo con todas las modalidades integradas. Así, no sólo comprende cada tipo de entrada, sino que encuentra conexiones entre ellas.
La multimodalidad amplía radicalmente las preguntas que podemos hacer y las respuestas que obtendremos. El contexto largo/amplio/prolongado va un paso más allá y nos permite aportar aún más información: cientos de páginas de texto, horas de audio, una hora de vídeo, repositorios enteros de código, o, si quieres, unos 96 menús de Cheesecake Factory. Por eso, para tantos menús, se necesitaría una ventana contextual de 1 millón de tokens. A partir de ahora, es posible con Gemini 1.5 Pro. Los desarrolladores lo han estado utilizando de formas muy interesantes.
En los últimos meses, desplegamos Gemini 1.5 Pro con contexto largo en vista previa. Además, hemos introducido una serie de mejoras de calidad en la traducción, la codificación y el razonamiento. A partir de hoy, estas actualizaciones se reflejarán en el modelo de lenguaje.
Me complace anunciar que esta versión mejorada de Gemini 1.5 Pro estará a disposición de todos los desarrolladores del mundo. Además, Gemini 1.5 Pro con 1 millón de contextos ya está disponible directamente para los consumidores en Gemini Advanced. Se puede utilizar en 35 idiomas.
Ampliación a 2 millones de tokens en vista previa privada
Un millón de tokens abre posibilidades totalmente nuevas. Es emocionante, pero creo que podemos ir aún más lejos.
Hoy ampliamos la ventana contextual a 2 millones de tokens y la ponemos a disposición de los desarrolladores en vista previa privada.
Es increíble mirar atrás y ver cuánto hemos avanzado en tan solo unos pocos meses. Esto representa el siguiente paso en nuestro viaje hacia el objetivo: un contexto infinito.
Gemini 1.5 Pro en el espacio de trabajo
Hasta ahora hemos hablado de dos avances técnicos: la multimodalidad y el contexto prolongado. Cada uno de ellos es potente por sí solo, pero juntos desbloquean capacidades más profundas y más inteligencia.
Esto cobra vida con Google Workspace. La gente siempre está buscando sus correos electrónicos en Gmail, por eso estamos trabajando para hacerlo mucho más fácil y potente con Gemini. Por ejemplo, como padre quieres estar informado de todo lo que ocurre en el colegio de tu hijo y Gemini puede ayudarte a mantenerse al día. Podemos pedirle a Gemini que resuma todos los correos electrónicos recientes del colegio. En segundo plano, podrá identificar los correos relevantes e incluso analizar los archivos adjuntos, como los PDF. Así, obtendrás un resumen de los puntos clave y los elementos de acción. En caso de estar de viaje y no poder asistir a la reunión virtual de la escuela que se realiza por Google Meet, puedes pedir a Gemini que te destaque los puntos más importantes. Hay un grupo de padres que busca voluntarios y tú estás libre ese día, Gemini podrá redactar una respuesta para el pedido.
Son innumerables los ejemplos de cómo esto puede facilitarle la vida a miles de millones de personas en el mundo. Desde hoy, Gemini 1.5 Pro está disponible en Workspace Labs. Aparna nos cuenta más.
Respuestas de audio en NotebookLM
Acabamos de ver un ejemplo con respuestas de texto. Pero con un modelo multimodal podemos hacer mucho más.
Estamos progresando y aún queda mucho por hacer. Audio Overviews en NotebookLM muestra la evolución. Utiliza Gemini para tomar tus materiales de origen y generar una conversación de audio personalizada e interactiva.
Esta es la oportunidad de la multimodalidad. Pronto podrás mezclar y combinar entradas y salidas. A esto nos referimos cuando decimos que es una I/O para una nueva generación. Pero, ¿y si pudiéramos ir aún más lejos?
Ir más allá con los agentes de IA
Llevar esto aún más lejos es una de las oportunidades que vemos con los agentes de IA. Yo los veo como sistemas inteligentes que demuestran razonamiento, planificación y memoria, capaces de "pensar" varios pasos por delante y de trabajar con distintos programas y sistemas, todo ello para hacer algo en tu nombre y, lo que es más importante, bajo tu supervisión.
Todavía estamos en los primeros días, pero permítanme mostrarles los casos de uso en los que estamos trabajando para resolver.
Empecemos por las compras. Es muy divertido comprar zapatos, pero no lo es cuando hay que devolverlos porque no te quedan bien. Imagina que Géminis pudiera hacer todos los pasos por ti:
- Buscar el recibo de compra en su bandeja de entrada...
- Localizar el número de pedido en su correo electrónico...
- Rellenar un formulario de devolución...
- Incluso programar el retiro del producto.
Eso es mucho más fácil, ¿verdad?
Pongamos otro ejemplo un poco más complejo. Supongamos que te acabas de mudar a Chicago. Puede imaginarse a Gemini y Chrome trabajando juntos para ayudarle a hacer una serie de cosas para prepararse: organizar, razonar, sintetizar en su nombre. Por ejemplo, si quieres explorar la ciudad y encontrar servicios cercanos, desde tintorerías hasta paseadores de perros. Y tendrá que actualizar su nueva dirección en docenas de páginas web.
Gemini puede realizar todas estas tareas y te pedirá más información cuando sea necesario, para que siempre tengas el control.
Esta parte es muy importante: a medida que creamos prototipos de estas experiencias, pensamos mucho en cómo hacerlo de forma privada, segura y útil para todos.
Se trata de casos de uso sencillos, pero dan una idea del tipo de problemas que queremos resolver construyendo sistemas inteligentes que piensen, razonen y planifiquen por ti.
Qué significa para nuestra misión
La potencia de Gemini -con multimodalidad, contexto prolongado y agentes- nos acerca a nuestro objetivo final: hacer que la Inteligencia Artificial sea útil para todos.
Creemos que así es como avanzaremos más en nuestra misión: organizando la información del mundo a través de cualquier entrada, hacerla accesible a través de cualquier salida y combinar la información del mundo, con la información de su mundo, de una manera que sea realmente útil para usted.
Abrir nuevos caminos
Para aprovechar todo el potencial de la IA, tendremos que abrir nuevos caminos. Por ello, el equipo de Google DeepMind ha trabajado duro en ello.
Hemos visto mucho entusiasmo en torno a 1.5 Pro y su amplia ventana de contexto. Pero los desarrolladores también nos han dicho que querían algo más rápido y rentable. Así que presentamos Gemini 1.5 Flash, un modelo más ligero diseñado a escala. Está optimizado para tareas en las que la baja latencia y el costo son lo más importante. 1.5 Flash estará disponible en AI Studio y Vertex AI a partir del martes.
Siempre hemos querido construir un agente universal que sea útil en la vida cotidiana. El Proyecto Astra, muestra comprensión multimodal y capacidades conversacionales en tiempo real.
También hemos avanzado en la generación de vídeo e imágenes con Veo e Imagen 3, y hemos presentado Gemma 2.0, nuestra próxima generación de modelos abiertos para la innovación responsable en IA. Leer más de Demis Hassabis.
Infraestructura para la era de la IA: presentación de Trillium
El entrenamiento de modelos de última generación requiere mucha potencia de cálculo. En los últimos seis años, la demanda en aprendizaje automático (ML) se ha multiplicado por un millón. Y cada año se multiplica por diez.
Google está hecho para esto. Durante 25 años, hemos invertido en una infraestructura técnica de primera clase, desde el hardware de vanguardia que impulsa el Buscador, hasta nuestras unidades de procesamiento tensorial personalizadas que impulsan nuestros avances en IA.
Gemini se entrenó y se utilizó íntegramente en nuestras TPU de cuarta y quinta generación. Y otras empresas líderes en IA, como Anthropic, también han entrenado sus modelos en TPU.
Hoy nos complace anunciar nuestra sexta generación de TPU llamada Trillium: nuestra TPU más eficiente y de mayor rendimiento hasta la fecha, ya que multiplica por 4,7 el rendimiento computacional por chip de la generación anterior, la TPU v5e.
Pondremos Trillium a disposición de nuestros clientes de Cloud a finales de 2024.
Además de nuestras TPU, estamos orgullosos de ofrecer CPU y GPU para soportar cualquier carga de trabajo. Esto incluye los nuevos procesadores Axion que anunciamos el mes pasado, nuestra primera CPU personalizada basada en Arm que ofrece un rendimiento y una eficiencia energética líderes en el sector.
También estamos orgullosos de ser uno de los primeros proveedores de cloud computing en ofrecer las vanguardistas GPU Blackwell de Nvidia, disponibles a principios de 2025. Tenemos la suerte de contar con una larga colaboración con NVIDIA y estamos encantados de poder ofrecer a nuestros clientes las revolucionarias funciones de Blackwell.
Los chips son una parte fundamental de nuestro sistema integrado de extremo a extremo. Desde hardware de rendimiento optimizado y software abierto hasta modelos de consumo flexibles. Todo ello confluye en nuestro hiperordenador de IA, una arquitectura de superordenador revolucionaria.
Las empresas y los desarrolladores la están utilizando para afrontar retos más complejos, con más del doble de eficiencia en comparación con la compra de hardware y chips en bruto. Nuestros avances en AI Hypercomputer son posibles en parte gracias a nuestro enfoque de la refrigeración líquida en nuestros centros de datos.
Hace casi una década que lo hacemos, mucho antes de que se convirtiera en el estado del arte del sector. En la actualidad, la capacidad total de nuestra flota de sistemas de refrigeración líquida es de casi 1 gigavatio y sigue creciendo, es decir, casi 70 veces la capacidad de cualquier otra flota.
Detrás de todo esto está la enorme escala de nuestra red, que conecta nuestra infraestructura globalmente. Nuestra red abarca más de 3 millones de kilómetros de fibra terrestre y submarina, más de 10 veces el alcance del siguiente proveedor de nube más importante.
Seguiremos realizando las inversiones necesarias para impulsar la innovación en IA y ofrecer capacidades de vanguardia.
El capítulo más emocionante de el Buscador
Una de nuestras mayores áreas de inversión e innovación es nuestro producto fundador: el Buscador. Hace 25 años lo creamos para ayudar a la gente a dar sentido a las oleadas de información que circulan por Internet.
Con cada cambio de plataforma, hemos aportado avances que ayudan a responder mejor a tus preguntas. En los móviles, hemos desbloqueado nuevos tipos de preguntas y respuestas, utilizando mejor contexto, conocimiento de la ubicación e información en tiempo real.
Gracias a los avances en comprensión del lenguaje natural y visión por ordenador, hemos habilitado nuevas formas de buscar, con una voz o un zumbido para encontrar tu nueva canción favorita, o con una imagen de esa flor que viste en tu paseo. Ahora, incluso puedes Buscar con un Círculo esos nuevos zapatos que quizá quieras comprarte. Adelante, ¡siempre puedes devolverlos!
Por supuesto, el Buscador en la era Gemini llevará esto a un nivel completamente nuevo, combinando nuestros puntos fuertes de infraestructura, las últimas capacidades de IA, nuestro alto nivel de calidad de la información y las décadas de experiencia conectándolo con la riqueza de la web. El resultado es un producto que hace el trabajo por ti.
El Buscador de Google es una IA generativa a escala de la curiosidad humana. Es el capítulo más emocionante del Buscador hasta la fecha. Liz Reid ofrece más información sobre la era Gemini en el Buscador.
Experiencias Gemini más inteligentes
Gemini es más que un chatbot está diseñado para ser un asistente personal y útil, que puede ayudarte a realizar tareas complejas y tomar medidas en tu nombre.
La interacción con Gemini debe ser conversacional e intuitiva. Por eso anunciamos una nueva experiencia Gemini que nos acerca a esa visión, llamada “Gemini Live”. Esta permite mantener una conversación en profundidad con Gemini utilizando su voz. También traeremos 2M tokens a Gemini Advanced a finales de este año, lo que hará posible cargar y analizar archivos superdensos como vídeo y código largo. Sissie Hsiao nos cuenta más.
Gemini para Android
Con miles de millones de usuarios de Android en todo el mundo, estamos encantados de presentar una experiencia Gemini aún más integrada a nivel de sistema operativo. Como tu nuevo asistente de Inteligencia Artificial, Gemini está para ayudarte en cualquier momento y lugar. Hemos incorporado modelos de Gemini en Android, incluido nuestro último modelo para dispositivos: Gemini Nano con multimodalidad que procesa texto, imágenes, audio y voz para desbloquear nuevas experiencias mientras mantiene la información privada en tu dispositivo. Todas las noticias sobre Android aquí.
Nuestro enfoque responsable de la IA
Seguimos enfocados en la oportunidad de la IA con audacia y entusiasmo, asegurándonos de hacerlo de forma responsable. Estamos desarrollando una técnica de vanguardia que denominamos “Red Teaming” asistido por IA: se basa en los avances de Google DeepMind en juegos como AlphaGo. Además, hemos ampliado nuestras innovaciones técnicas de marca de agua, como SynthID, en dos nuevas modalidades: texto y vídeo, para que el contenido generado por IA sea más fácil de identificar. James Manyika nos cuenta más.
Creando juntos el futuro
Todo esto demuestra el importante avance que supone adoptar un enfoque audaz y responsable para conseguir que la IA sea útil para todos.
Antes de terminar, tengo la sensación de que alguien puede estar contando cuántas veces hemos mencionado hoy la IA, y supongo que añadiremos algunas más antes de terminar.
Este recuento es algo más que un chiste. Refleja algo más profundo. Llevamos mucho tiempo priorizando la Inteligencia Artificial. Nuestras décadas de liderazgo en investigación han sido pioneras en muchos de los avances modernos que impulsan el progreso de la IA, para nosotros y para el sector. Además, contamos con:
- Infraestructura líder mundial creada para la era de la IA,
- Innovación de vanguardia en la búsqueda, ahora impulsada por Gemini,
- Productos que ayudan a una escala extraordinaria, incluidos 15 productos con 500 millones de usuarios,
- Y plataformas que permiten a todos (socios, clientes, creadores y a todos ustedes) inventar el futuro.
Este progreso sólo es posible gracias a nuestra increíble comunidad de desarrolladores. Lo están haciendo realidad a través de las experiencias y aplicaciones que crean cada día. Por todos los que estamos aquí en Shoreline y por los millones de personas que nos observan en todo el mundo, brindo por las posibilidades que tenemos por delante y por crearlas juntos.