Acceder al contenido

Google I/O 2025: de la investigación científica a la realidad

Google I/O 2025: de la investigación científica a la realidad

May 20, 2025

Así es como hacemos que la IA sea más útil con Gemini.

Sundar Pichai

CEO of Google and Alphabet

Nota del editor: A continuación, compartimos una transcripción editada de las declaraciones de Sundar Pichai, CEO Google, en el marco de Google I/O 2025, adaptada para incluir más información de lo que se anunció en el escenario. Pueden consultar todos los anuncios en nuestro blog.

Normalmente no habrías escuchado mucho de nosotros en las semanas previas a I/O porque solemos guardar nuestros mejores modelos para el evento. Pero en la era de Gemini, podemos presentar nuestro modelo más inteligente un martes cualquiera de marzo o anunciar un avance revolucionario como AlphaEvolve una semana antes del show.

Queremos que tengas acceso a nuestros mejores modelos y productos lo antes posible, por eso estamos haciendo lanzamientos más rápido que nunca.

Imagen Relentless model progress

El constante progreso de nuestros modelos

Estoy muy entusiasmado con el rápido progreso de nuestros modelos. Las puntuaciones de Elo, una medición de ese avance, aumentaron más de 300 puntos desde nuestro modelo Gemini Pro de primera generación. Hoy en día, Gemini 2.5 Pro arrasa en el ranking de LMArena en todas las categorías.

Este progreso es posible gracias a nuestra infraestructura líder. Nuestros TPUs de séptima generación, Ironwood, son los primeros diseñados específicamente para potenciar el pensamiento y las cargas de trabajo de IA inferencial a gran escala. Ofrece un rendimiento 10 veces mayor que la generación anterior y una capacidad de procesamiento increíble de 42.5 exaflops por Pod. Es sorprendente.

La solidez de nuestra infraestructura es lo que nos ayuda a entregar modelos mucho más rápidos, incluso cuando los precios de los modelos están bajando significativamente. Una y otra vez, hemos podido ofrecer los mejores modelos al precio más efectivo. Google no solo lidera la frontera de Pareto, sino que movió radicalmente esa frontera.

Imagen The Pareto Frontier

El mundo adopta la IA

Hay más inteligencia disponible para todas las personas en todas partes, y el mundo está respondiendo adoptando la IA más rápido que nunca. Estos son algunos indicadores importantes del progreso:

En esta misma época, el año pasado procesábamos 9.7 billones de tokens al mes en nuestros productos y APIs. Ahora, procesamos más de 480 mil millones, que es 50 veces más.
Más de 7 millones de desarrolladores están creando con Gemini, cinco veces más que el año pasado en la misma época, y el uso de Gemini en Vertex AI aumentó 40 veces.
La app Gemini cuenta con más de 400 millones de usuarios activos mensuales. Observamos un fuerte crecimiento y una gran interacción, especialmente con los modelos de la serie 2.5. Para quienes usan la versión 2.5 Pro en la app Gemini, el uso ha aumentado un 45 %.

De la investigación científica a la realidad

Todo este progreso significa que estamos en una nueva fase del cambio de plataforma de la IA, donde décadas de investigación se están convirtiendo en realidad para personas, empresas y comunidades de todo el mundo.

Project Starline → Google Beam + traducción de voz

Hace unos años presentamos en I/O Project Starline, nuestra revolucionaria tecnología de video en 3D. El objetivo era crear la sensación de estar en la misma habitación que otra persona, incluso si estaban lejos.

Seguimos haciendo avances técnicos. Hoy estamos listos para presentar el siguiente capítulo: Google Beam, una nueva plataforma de comunicaciones de video centrada en la IA. Beam usa un nuevo modelo de video de última generación para transformar transmisiones de video en 2D en una experiencia realista en 3D. Utiliza una matriz de seis cámaras y la IA para combinar transmisiones de video y mostrar tu imagen en una pantalla de campo de luz en 3D. Tiene un seguimiento de cabeza casi perfecto, hasta el milímetro, y a 60 fotogramas por segundo. Todo en tiempo real. El resultado es una experiencia de conversación mucho más natural y envolvente. En colaboración con HP, los primeros dispositivos Google Beam estarán disponibles para los usuarios pioneros más adelante este año.

Imagen Google Beam en I/O 2025

Con el paso del tiempo también creamos experiencias mucho más envolventes en Google Meet. Esto incluye la tecnología que ayuda a las personas a superar las barreras lingüísticas con la traducción de voz, que llegará a Google Meet. Casi en tiempo real, puede igualar la voz y el tono del hablante, y hasta incluso sus expresiones, lo que nos acerca a una conversación natural y fluida entre idiomas. Estamos lanzando la traducción en inglés y español en versión beta para los suscriptores de Google AI Pro y Ultra, y se agregarán más idiomas en las próximas semanas. Los clientes empresariales de Workspace podrán utilizar esta función para pruebas iniciales este año.

Project Astra → Gemini Live

Otro proyecto de investigación emocionante que se presentó por primera vez en I/O fue Project Astra, que explora un asistente de IA universal capaz de comprender el mundo que te rodea. Gemini Live ahora incorpora las funciones de cámara y compartir pantalla de Project Astra. Las personas lo usan de formas interesantes, desde prepararse para entrevistas hasta entrenar para maratones. Esta función ya está disponible para todos los usuarios de Android y se lanzará para los usuarios de iOS a partir de hoy.

También estamos incorporando este tipo de funciones a productos como la Búsqueda.

Project Mariner → Modo agente

Consideramos que los agentes son sistemas que combinan la inteligencia de los modelos de IA avanzados con el acceso a herramientas, de modo que pueden realizar acciones por ti y bajo tu control.

Nuestro prototipo de investigación inicial, Project Mariner, es un primer paso hacia los agentes capaces de usar computadoras para interactuar con la Web y realizar tareas por ti. Lo lanzamos como un prototipo de investigación inicial en Diciembre, y desde entonces avanzamos mucho con nuevas capacidades de multitarea y un método llamado "enseñar y repetir", en el que puedes mostrarle una tarea una vez y aprende planes para tareas similares en el futuro. Estamos acercando las capacidades de uso de computadoras de Project Mariner a los desarrolladores a través de la API de Gemini. Los verificadores de confianza, como Automation Anywhere y UiPath, ya lo están empezando a usar para el desarrollo, y estará disponible de manera más amplia en los próximos meses.

El uso de computadoras es parte de un conjunto más grande de herramientas que necesitaremos crear para que el ecosistema de agentes prospere, como nuestro protocolo abierto Agent2Agent, para que los agentes puedan comunicarse entre sí, o el Protocolo de Contexto de Modelo que presentó Anthropic, para que los agentes puedan acceder a otros servicios. Hoy nos complace anunciar que la API de Gemini y el SDK ahora son compatibles con las herramientas de MCP.

También estamos empezando a incorporar funciones de agente a Chrome, la Búsqueda y la app de Gemini. Por ejemplo, el nuevo Modo de agente de la app de Gemini te ayudará a realizar aún más tareas. Si estás buscando un departamento, te ayudará a encontrar anuncios que coincidan con tus criterios en sitios web como Zillow, ajustar filtros y usar MCP para acceder a los anuncios y hasta programar una visita. Pronto, los suscriptores podrán acceder a una versión experimental del Modo de agente en la app de Gemini. Y es ideal para empresas como Zillow, ya que atrae a clientes nuevos y mejora los porcentajes de conversiones.

Esta es un área nueva y emergente, y nos entusiasma explorar la mejor manera de llevar los beneficios de los agentes a los usuarios y al ecosistema de manera más amplia.

El poder de la personalización

La mejor forma de hacer que la investigación se convierta en realidad es que sea útil en tu propia realidad. Ahí es donde la personalización será sumamente poderosa. Estamos trabajando para concretarlo con algo que llamamos contexto personal. Con tu permiso, los modelos de Gemini pueden usar contexto personal relevante en tus apps de Google de una manera que sea privada, transparente y completamente bajo tu control.

Un ejemplo de esto son nuestras nuevas Respuestas inteligentes personalizadas en Gmail. Si un amigo te envía un correo electrónico para pedirte un consejo sobre un viaje que realizaste, Gemini puede buscar en tus correos y archivos anteriores en Google Drive (como los itinerarios que creaste en Documentos de Google) para sugerir una respuesta con detalles específicos que sean relevantes. Se ajustará a tu saludo habitual y captará tu tono, estilo y hasta tus palabras favoritas para generar una respuesta más relevante que suene auténticamente como tú. Las respuestas inteligentes personalizadas estarán disponibles para los suscriptores en los próximos meses de este año. Puedes imaginar lo útil que será el contexto personal en la Búsqueda, Gemini y mucho más.

Modo IA en la Búsqueda

Nuestros modelos de Gemini ayudan a que la Búsqueda de Google sea más inteligente, personalizada y con capacidades de agente.

Desde su lanzamiento el año pasado, la Visión general creada por IA se expandió a más de 1,500 millones de usuarios, y ahora está disponible en 200 países y territorios. A medida que las personas usan la Visión general creada por IA, notamos que se sienten más satisfechas con los resultados y que realizan búsquedas con mayor frecuencia. En nuestros mercados más grandes, como Estados Unidos y la India, la Visión general creada por IA impulsa un crecimiento de más del 10% en los tipos de búsqueda que la muestran, y este crecimiento aumenta con el tiempo.

Es uno de los lanzamientos más exitosos de la Búsqueda en la última década.

Para quienes desean una experiencia integral de Búsqueda con IA, presentamos el nuevo Modo IA. Es una versión completamente nueva de la Búsqueda. Con un razonamiento más avanzado, puedes hacer consultas más largas y complejas en el Modo IA. De hecho, los primeros verificadores realizaron búsquedas que son de dos a tres veces más largas que las búsquedas tradicionales. Y puedes ir más allá con las preguntas de seguimiento. Todo esto está disponible como una nueva pestaña en la Búsqueda.

La he usado mucho y cambió por completo la forma en que utilizo la Búsqueda. Me complace anunciar que el Modo IA llegará a todos los usuarios de EE.UU. a partir de hoy. Con los modelos de Gemini más recientes, nuestras respuestas de IA tienen la calidad y exactitud que esperas de la Búsqueda, y son las más rápidas de la industria. A partir de esta semana, Gemini 2.5 llegará a la Búsqueda.

Avanzamos con nuestro modelo más inteligente: Gemini 2.5

Nuestro potente y más eficiente modelo, Gemini 2.5 Flash, se volvió increíblemente popular entre los desarrolladores: aman su velocidad y su bajo costo. Además, el nuevo Flash 2.5 es superior en casi todas las dimensiones, ya que mejora en los indicadores clave de razonamiento, multimodalidad, código y contexto largo. Es el segundo lugar en el ranking de LMArena, solo por detrás de 2.5 Pro.

Estamos mejorando 2.5 Pro con un modo de razonamiento optimizado que llamamos Deep Think. Usa nuestra investigación más reciente y vanguardista sobre pensamiento y razonamiento, incluidas las técnicas de pensamiento paralelo.

Una app de Gemini más personal, proactiva y potente

Estamos personalizando más la función Deep Research. Ahora podrás subir tus propios archivos y conectarte pronto a Google Drive y a Gmail, lo que mejorará su capacidad para generar informes de investigación personalizados. También lo estamos integrando en Canvas, lo que permite crear infografías dinámicas, cuestionarios y hasta podcasts en varios idiomas con un solo clic. Además, vemos una adopción emocionante de vibe coding con Canvas, ofreciendo la posibilidad a más personas de crear apps funcionales simplemente chateando con Gemini.

En cuanto a Gemini Live, que tuvo un gran recibimiento entre los usuarios, estamos haciendo que las funciones de cámara y compartir pantalla estén disponibles de forma gratuita para todos, incluidos los usuarios de iOS, y pronto la conectaremos a tus apps de Google favoritas para brindar una asistencia más fluida.

Avances en nuestros modelos multimedia generativos

Presentamos nuestro modelo de video de vanguardia, Veo 3, que ahora tiene generación de audio nativa. También presentamos Imagen 4, nuestro modelo de generación de imágenes más reciente y capaz. Ambos están disponibles en la app de Gemini, lo que abre un mundo de creatividad completamente nuevo.

Acercamos esas posibilidades a los creadores de contenido con una nueva herramienta llamada Flow. Puedes usarla para crear clips cinematográficos y extender un clip corto para convertirlo en una escena más larga.

Una oportunidad para mejorar vidas

Las oportunidades con la IA son realmente enormes, y que sus beneficios lleguen a la mayor cantidad de personas posible dependerá de esta ola de desarrolladores, creadores de tecnología y responsables de solucionar problemas. Es especialmente inspirador pensar que la investigación en la que estamos trabajando hoy se convertirá en la base de la realidad del mañana, desde la robótica hasta la cuántica, AlphaFold y Waymo.

Esta oportunidad de mejorar vidas no es algo que doy por sentado, y una experiencia reciente me lo demostró. Estaba en San Francisco con mis padres. Lo primero que querían hacer era subirse a un Waymo, que, según me enteré, se está convirtiendo en una de las atracciones turísticas más populares de la ciudad. Yo ya había usado Waymo antes, pero mi padre, que tiene más de 80 años, quedó totalmente asombrado. Vi el progreso desde una perspectiva completamente nueva.

Fue un recordatorio del increíble poder de la tecnología para inspirarnos, asombrarnos y conducirnos hacia el futuro. Espero con entusiasmo ver las increíbles cosas que crearemos juntos en adelante.

Publicado en: