Acceder al contenido

Google I/O 2025: de la investigación a la realidad

Google I/O 2025: de la investigación a la realidad

20, May, 2025

Sundar Pichai CEO, Google y Alphabet

CEO, Google y Alphabet

Google IO 25

Hasta ahora, lo normal era que en las semanas previas al I/O no contáramos nada sobre nuestros nuevos productos, ya que nos lo estábamos reservando para la presentación. Pero, en la era de Gemini, nos verás lanzar nuestro modelo más inteligente un martes de marzo o anunciar un avance tan increíble como AlphaEvolve una semana antes del I/O.

Y es que queremos que nuestros mejores modelos lleguen a las manos de los usuarios lo antes posible. Por eso lanzamos actualizaciones más rápido que nunca.

El incesante avance de nuestros modelos

Es impresionante lo rápido que avanzan nuestros modelos. Desde nuestro modelo Gemini Pro de primera generación, las puntuaciones Elo (que miden el progreso), han aumentado en más de 300 puntos. Hoy, Gemini 2.5 Pro arrasa en el ranking LMArena en todas las categorías.

Nuestros modelos progresan gracias a nuestra infraestructura líder mundial. Ironwood, nuestra TPU de séptima generación, es la primera diseñada específicamente para potenciar el razonamiento y las cargas de trabajo de IA inferencial a gran escala. Ofrece un rendimiento 10 veces superior al de la generación anterior y una increíble capacidad de procesamiento de 42,5 exaflops por pod.

La solidez de nuestra infraestructura, hasta el nivel de las TPU, es lo que nos permite ofrecer modelos mucho más rápidos, incluso cuando los precios de los modelos están bajando significativamente. Hemos demostrado una y otra vez que podemos ofrecer los mejores modelos al precio más competitivo. Google no solo lidera en eficiencia según la frontera Pareto, sino que ha logrado desplazar la frontera en sí.

Pareto

El mundo está adoptando la IA

Hay más inteligencia disponible para todo el mundo y en cualquier lugar. Y el mundo responde adoptando la IA más rápido que nunca. Algunos indicadores importantes del progreso:

Hace justo un año, procesábamos 9,7 billones de tokens al mes en nuestros productos y APIs. Hoy procesamos más de 480 billones, es decir, 50 veces más.
Ya hay más de 7 millones de desarrolladores que crean con Gemini, cinco veces más que el año pasado en estas fechas, y el uso de Gemini en Vertex AI se ha multiplicado por 40.
La aplicación Gemini cuenta con más de 400 millones de usuarios activos al mes. Estamos viendo un gran crecimiento y uso, sobre todo con los modelos de la serie 2.5. En el caso de 2.5 Pro en la aplicación Gemini, el uso ha aumentado un 45 %.

De la investigación a la realidad

¿Y qué significa todo este progreso? Que nos encontramos en una nueva fase en la evolución hacia el paradigma de la IA, y décadas de investigación se están convirtiendo en una realidad para las personas, las empresas y las comunidades de todo el mundo.

Project Starline → Google Beam + traducción de voz

En el I/O de hace unos años presentamos Project Starline, nuestra innovadora tecnología de vídeo en 3D. El objetivo era crear la sensación de estar en la misma habitación que alguien, aunque estuvierais lejos.

Hemos seguido haciendo avances técnicos y hoy estamos listos para presentar el siguiente capítulo: Google Beam, una nueva plataforma de comunicaciones de vídeo basada en IA. Beam usa un nuevo modelo de vídeo de última generación para transformar flujos de vídeo 2D en una experiencia 3D realista. Para ello, utiliza un conjunto de seis cámaras y la IA para combinar flujos de vídeo y renderizarte en una pantalla de campo de luz 3D. Tiene un seguimiento de la cabeza casi perfecto, hasta el milímetro, y a 60 fotogramas por segundo, todo en tiempo real. El resultado es una experiencia conversacional mucho más natural e inmersiva. En colaboración con HP, los primeros dispositivos Google Beam estarán disponibles para los primeros clientes a finales de este año.

Beam

Con el paso de los años, también hemos creado experiencias mucho más inmersivas en Google Meet. Esto incluye la tecnología que ayuda a las personas a derribar las barreras lingüísticas con la traducción automática de voz, que estará disponible en Google Meet. Casi en tiempo real, simula el timbre de voz y el tono del interlocutor, e incluso sus expresiones, lo que se acerca a una conversación natural y fluida en diferentes idiomas. La traducción en inglés y español se lanza ahora en versión beta para los suscriptores de Google AI Pro y Ultra, y se añadirán más idiomas en las próximas semanas. Esta función estará disponible para los clientes de Workspace Business para pruebas iniciales este mismo año.

Project Astra → Gemini Live

Otro proyecto de investigación interesante que se presentó por primera vez en I/O es Project Astra, que explora las futuras posibilidades de un asistente de IA universal capaz de entender el mundo que te rodea. Gemini Live ahora incorpora las funciones de cámara y pantalla compartida de Project Astra. Los usuarios lo están usando de formas interesantes, como para preparar entrevistas o entrenar para maratones. Esta función ya está disponible para todos los usuarios de Android y se empezará a implementar en iOS a partir de hoy.

También vamos a incorporar funciones como estas en productos como la Búsqueda.

Project Mariner → Modo Agente

Los agentes son sistemas que combinan la inteligencia de los modelos de IA avanzados con el acceso a herramientas, de modo que pueden realizar acciones en tu nombre y bajo tu control.

Nuestro prototipo de investigación inicial, Project Mariner, es un primer paso hacia el desarrollo de agentes con la capacidad de controlar un ordenador y poder interactuar con la Web y hacer cosas por ti. Lo lanzamos como un prototipo de investigación inicial en diciembre, y desde entonces hemos avanzado mucho con nuevas funciones multitarea y un método llamado "enseñar y repetir", en el que puedes mostrarle una tarea una vez y aprende a hacer tareas similares en el futuro. Vamos a ofrecer a los desarrolladores las funciones de uso de ordenadores de Project Mariner a través de la API de Gemini.Testers de confianza, como Automation Anywhere y UiPath, ya están empezando a crear con él, y estará disponible para un público más amplio este verano.

El manejo de ordenadores es parte de un conjunto más amplio de herramientas que tendremos que desarrollar para que el ecosistema de agentes prospere.

Por ejemplo, nuestro protocolo abierto Agent2Agent, que permite que los agentes se comuniquen entre sí, o el Protocolo de Contexto del Modelo (MCP) introducido por Anthropic, que permite que los agentes accedan a otros servicios. Hoy nos complace anunciar que nuestra API y nuestro SDK de Gemini son compatibles con las herramientas MCP.

También estamos empezando a incorporar funciones de agente a Chrome, la Búsqueda y la aplicación Gemini. Por ejemplo, el nuevo Modo Agente de la aplicación Gemini te ayudará a hacer aún más cosas. Si estás buscando un piso, te ayudará a encontrar anuncios que se ajusten a tus criterios en sitios como Zillow, ajustar los filtros y usar el MCP para acceder a los anuncios e incluso concertar una visita. Próximamente, los suscriptores podrán acceder a una versión experimental del Modo Agente en la aplicación de Gemini. Y es una opción ideal para empresas como Zillow, ya que les permite atraer a nuevos clientes y mejorar sus tasas de conversión.

Se trata de un área nueva y emergente, y nos entusiasma explorar cómo ofrecer las ventajas de los agentes a los usuarios y al ecosistema en general.

El poder de la personalización

La mejor forma de llevar la investigación al mundo real es haciéndola verdaderamente útil para tu realidad. Ahí es donde la personalización puede ser muy fundamental. Estamos trabajando en esta idea con algo que llamamos contexto personal. Con tu permiso, los modelos de Gemini pueden usar tu contexto personal relevante en tus aplicaciones de Google de una forma privada, transparente y totalmente bajo tu control.

Un ejemplo de ello son nuestras nuevas Respuestas Inteligentes personalizadas en Gmail. Si un amigo te envía un correo para pedirte consejo para un viaje por carretera que hiciste en el pasado, Gemini puede buscar en tus correos y archivos de Google Drive, como los itinerarios que creaste en Documentos de Google, para sugerirte una respuesta con detalles específicos y pertinentes. Emulará tu saludo habitual y captará tu tono, estilo e incluso tus palabras favoritas para generar una respuesta más relevante y que suene como si la hubieras escrito tú. Las Respuestas Inteligentes personalizadas estarán disponibles para los suscriptores a finales de año. Y ya te puedes imaginar lo útil que será el contexto personal en la Búsqueda, en Gemini y en otros servicios.

Modo IA en la Búsqueda

Nuestros modelos de Gemini están ayudando a que la Búsqueda de Google sea más inteligente, proactiva y personalizada.

Desde que se lanzó el año pasado, Vista Creada con IA ha llegado a más de 1500 millones de usuarios y ahora está disponible en 200 países y territorios. Hemos observado que los usuarios que usan Vista Creada con IA quedan más satisfechos con los resultados y hacen más búsquedas. En nuestros mercados más grandes, como Estados Unidos e India, las Vistas Creadas con IA están impulsando un crecimiento de más del 10 % en los tipos de búsquedas en las que se muestran, y este crecimiento sigue aumentando.

Es uno de los lanzamientos más exitosos de la Búsqueda en la última década.

Para quienes quieren una experiencia de búsqueda íntegramente de IA, presentamos el nuevo Modo IA. Es una reinvención total de la Búsqueda. Gracias a un razonamiento más avanzado, puedes hacer preguntas más largas y complejas en el Modo IA. De hecho, los primeros usuarios que la han probado han hecho consultas que son entre dos y tres veces más largas que las búsquedas tradicionales, y puedes ir más allá con las preguntas de seguimiento. Todo esto está disponible en una nueva pestaña de la Búsqueda.

La he estado usando mucho y ha cambiado por completo mi forma de usar la Búsqueda. Y me alegra anunciar que el Modo IA estará disponible para todos los usuarios de EE. UU. a partir de hoy. Con nuestros últimos modelos de Gemini, nuestras respuestas de IA tienen la calidad y la precisión que ya esperas de la Búsqueda, y son las más rápidas del sector. Y, a partir de esta semana, Gemini 2.5 también estará disponible en la Búsqueda en EE.UU..

Mejoramos nuestro modelo más inteligente: Gemini 2.5

Nuestro modelo más potente y eficiente, Gemini 2.5 Flash, ha sido increíblemente popular entre los desarrolladores, que valoran su velocidad y su bajo coste. Además, la nueva versión 2.5 Flash es mejor en casi todos los aspectos, ya que mejora en las principales comparativas en cuanto a razonamiento, multimodalidad, código y contexto largo. Se sitúa en segunda posición en el ranking de LMArena, solo por debajo de 2.5 Pro.

Vamos a mejorar aún más 2.5 Pro con un modo de razonamiento mejorado al que hemos llamado Deep Think. Utiliza nuestros últimos trabajos de investigación punteros sobre el pensamiento y el razonamiento, incluidas las técnicas de pensamiento paralelo.

Una aplicación Gemini más personal, proactiva y potente

Estamos haciendo que Deep Research sea más personalizado, permitiéndote subir tus propios archivos y, próximamente, conectarte a Google Drive y Gmail. De esta forma, mejoraremos su capacidad de generar informes de investigación personalizados. También lo vamos a integrar con Canvas, lo que permitirá crear infografías dinámicas, cuestionarios e incluso pódcasts en varios idiomas con un solo clic. Además, estamos viendo una adopción muy positiva de la programación intuitiva (vibe coding) con Canvas, que permite a más personas crear aplicaciones funcionales simplemente hablando con Gemini.
En cuanto a Gemini Live, una función que ha gustado mucho a los usuarios, vamos a hacer que las funciones de cámara y de pantalla compartida estén disponibles para todo el mundo, incluidos los usuarios de iOS, y pronto la conectaremos con tus aplicaciones de Google favoritas para que la asistencia sea más fluida.

Avances en nuestros modelos generativos de contenido multimedia

Presentamos Veo 3, nuestro modelo de vídeo más avanzado hasta la fecha, que ahora incluye la generación de audio nativo. También presentamos Imagen 4, nuestro modelo de generación de imágenes más reciente y capaz. Ambos están disponibles en la aplicación Gemini, que te abre un mundo de posibilidades creativas.

Ahora, los cineastas pueden disfrutar de estas posibilidades con una nueva herramienta llamada Flow. Puedes crear clips cinematográficos y alargar un clip corto para que se convierta en una escena más larga.

Una oportunidad para mejorar vidas

La oportunidad que ofrece la IA no podría ser mayor. Que sus ventajas lleguen al mayor número de personas posible dependerá de esta ola de desarrolladores, creadores de tecnología y catalizadores de innovación. También resulta especialmente inspirador pensar que la investigación en la que estamos trabajando hoy se convertirá en los cimientos de la realidad del mañana, desde la robótica a la computación cuántica, AlphaFold y Waymo.

Esta oportunidad de mejorar vidas no es algo que debamos subestimar. Y una reciente experiencia me ha hecho reflexionar sobre ello. Visité San Francisco con mis padres. Lo primero que querían hacer era subirse a un Waymo, que según tengo entendido se está convirtiendo en uno de los principales atractivos turísticos de la ciudad. Yo ya lo había hecho antes, pero mi padre, que tiene unos 80 años, se quedó totalmente alucinado; vi el progreso desde una perspectiva totalmente nueva.

Fue un recordatorio del increíble poder de la tecnología para inspirar, maravillar y ayudarnos a avanzar. Y estoy deseando ver las cosas increíbles que crearemos juntos en el futuro.

Publicado en: