Presentamos Gemini 2.0: nuestro nuevo modelo de inteligencia artificial para la era de los agentes de IA

11, Dic, 2024

Hoy lanzamos nuestra próxima era de modelos construidos para esta nueva era de agentes de la IA: presentamos Gemini 2.0, nuestro modelo más capaz hasta la fecha.

Demis Hassabis

CEO Google DeepMind

Koray Kavukcuoglu

CTO of Google DeepMind

Nota del consejero delegado de Google y Alphabet, Sundar Pichai

La información está en el centro del progreso humano. Por eso llevamos más de 26 años centrados en nuestra misión de organizar la información mundial y hacerla accesible y útil. En esta línea, seguimos ampliando las fronteras de la IA para organizar esa información en todas las entradas y hacerla accesible a través de cualquier salida, de modo que pueda serte realmente útil.

Esa era nuestra visión cuando presentamos Gemini 1.0 el pasado diciembre. Gemini 1.0 y 1.5, el primer modelo diseñado para ser multimodal de forma nativa, supuso grandes avances gracias a la multimodalidad y el contexto largo, pudiendo comprender información a través de texto, vídeo, imágenes, audio y código, y procesar mucha más información.

Ahora millones de desarrolladores programan con Gemini. Y nos está ayudando a reimaginar todos nuestros productos -incluidos los 7 que tienen 2.000 millones de usuarios- y a crear otros nuevos. NotebookLM es un magnífico ejemplo de lo que la multimodalidad y el contexto largo pueden aportar a las personas, y de por qué es tan apreciado por tantos.

En el último año, hemos invertido en el desarrollo de modelos más ágiles, es decir, capaces de comprender mejor el mundo que te rodea, anticiparse y actuar en tu nombre, bajo tu supervisión.

Hoy estamos muy contentos de lanzar nuestra próxima era de modelos diseñados para esta nueva era de agentes de IA: presentamos Gemini 2.0, nuestro modelo más capaz hasta la fecha. Los nuevos avances en multimodalidad -como la generación nativa de imágenes y audio y el uso nativo de herramientas- nos permitirán construir nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal.

Hoy ponemos la versión 2.0 en manos de desarrolladores y testers de confianza. Y estamos trabajando rápidamente para incorporarlo a nuestros productos, empezando por Gemini y la Búsqueda. A partir de hoy, nuestro modelo experimental Gemini 2.0 Flash estará disponible para todos los usuarios de Gemini. También vamos a lanzar una nueva función llamada Deep Research, que utiliza capacidades avanzadas de razonamiento y contexto largo como si fuera un asistente de investigación, explorando temas complejos y creando informes. Ya está disponible en Gemini Advanced.

Ningún producto se ha transformado tanto gracias a la IA como la Búsqueda. Nuestras Vistas Creadas con IA llegan ya a 1.000 millones de personas y les permiten hacer preguntas de una forma totalmente nueva, convirtiéndose rápidamente en una de nuestras funciones de búsqueda más populares. Nuestro siguiente paso es incorporar las capacidades de razonamiento avanzado de Gemini 2.0 a Vistas Creadas con IA para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y programación. Esta semana hemos empezado la fase de prueba limitada y a principios del año que viene lo lanzaremos de forma más generalizada. Y seguiremos llevando las Vistas Creadas con IA a más países e idiomas durante el próximo año.

Los avances de 2.0 se sustentan en las inversiones que hemos realizado durante una década con un enfoque diferenciado e integral de la innovación basada en IA. Se ha desarrollado usando hardware creado a medida, Trillium, nuestras TPU de sexta generación. Estas TPU procesaron el 100% del entrenamiento y la inferencia de Gemini 2.0, y hoy Trillium está a disposición de los clientes para que también puedan desarrollar con ellas.

Si Gemini 1.0 aspiraba a organizar y comprender la información, Gemini 2.0 aspira a hacerla mucho más útil. Estoy impaciente por ver qué nos depara la próxima era.

-Sundar.

En el último año hemos seguido avanzando de forma increíble en el campo de la inteligencia artificial. Hoy mostramos el primer modelo de la familia Gemini 2.0: una versión experimental de Gemini 2.0 Flash. Es nuestro modelo de referencia con baja latencia y rendimiento mejorado, a la vanguardia de nuestra tecnología y a escala.

También queremos compartir los últimos avances de nuestra investigación sobre agentes de IA, mostrando prototipos habilitados por las capacidades multimodales nativas de Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash se basa en el éxito de 1.5 Flash, nuestro modelo más popular para desarrolladores, con un rendimiento mejorado y tiempos de respuesta igual de rápidos. En concreto, 2.0 Flash supera incluso a 1.5 Pro en pruebas de referencia clave, con el doble de velocidad y también viene con nuevas capacidades. Además de admitir entradas multimodales como imágenes, vídeo y audio, Flash 2.0 admite ahora salidas multimodales, como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe sintetizado a partir de texto (TTS). También está integrado de forma nativa con herramientas como la Búsqueda de Google o la ejecución de código, así como funciones de terceros definidas por el usuario.

Nuestro objetivo es poner nuestros modelos a disposición de todo el mundo con seguridad y rapidez. Durante el último mes, hemos realizado las primeras versiones experimentales de Gemini 2.0, recibiendo excelentes comentarios de los desarrolladores.

Gemini 2.0 Flash ya está disponible como modelo experimental para desarrolladores a través de la API Gemini en Google AI Studio y Vertex AI, con entrada multimodal y salida de texto disponible para todos los desarrolladores, y conversión de texto a voz y generación de imágenes nativas disponibles para los partners con acceso anticipado. Estará disponible de forma generalizada en enero, junto con más tamaños de modelos.

Para ayudar a los desarrolladores a crear aplicaciones dinámicas e interactivas, también vamos a lanzar una nueva API Multimodal Live que cuenta con audio en tiempo real, entrada de vídeo en streaming y la posibilidad de utilizar varias herramientas combinadas. Puedes encontrar más información sobre Flash 2.0 y la API Multimodal Live en nuestro blog para desarrolladores.

Gemini 2.0 disponible en la aplicación Gemini, nuestro asistente de inteligencia artificial

También a partir de hoy, los usuarios de Gemini de todo el mundo pueden acceder a una versión optimizada para chat de 2.0 Flash Experimental seleccionándola en el desplegable de modelos de la versión web de ordenador y móvil, y pronto en la aplicación móvil de Gemini. Con este nuevo modelo, los usuarios podrán disfrutar de un asistente Gemini aún más útil.

A principios del año que viene, extenderemos Gemini 2.0 a más productos de Google.

Experiencias de agentes de IA con Gemini 2.0

Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash, junto con otras mejoras como el razonamiento multimodal, la comprensión de contextos largos, el seguimiento y la planificación de instrucciones complejas, la llamada a funciones compuestas, el uso de herramientas nativas y la mejora de la latencia; trabajan conjuntamente para hacer posible una nueva clase de experiencias de agentes de IA.

La aplicación práctica de los agentes de IA es un campo de investigación lleno de posibilidades apasionantes. Estamos explorando este nuevo campo con una serie de prototipos que pueden ayudar a las personas a realizar tareas. Entre ellos se incluye una actualización del Proyecto Astra, nuestro prototipo de investigación que explora las capacidades futuras de un asistente universal de IA; el nuevo Proyecto Mariner, que explora el futuro de la interacción entre humanos y agentes, empezando por tu navegador; y Jules, un agente de código impulsado por IA que puede ayudar a los desarrolladores.

Aún estamos en las primeras fases de desarrollo, pero nos entusiasma ver cómo los testers de confianza utilizan estas nuevas funciones y qué lecciones podemos aprender para poder generalizarlas en los productos en el futuro.

Proyecto Astra: agentes que utilizan la comprensión multimodal en el mundo real

Desde que presentamos Proyecto Astra en I/O, hemos estado aprendiendo de testers de confianza que lo utilizan en teléfonos Android. Sus comentarios han sido muy valiosos para ayudarnos a comprender mejor cómo podría funcionar en la práctica un asistente universal de IA, incluidas las implicaciones para la seguridad y la ética. Entre las mejoras de la última versión creada con Gemini 2.0 se incluyen:

Mejores diálogos: El Proyecto Astra tiene ahora la capacidad de conversar en varios idiomas y en idiomas mixtos, con una mejor comprensión de los acentos y las palabras poco comunes.
Nuevo uso de herramientas: Con Gemini 2.0, Proyecto Astra puede utilizar la Búsqueda de Google, Lens y Maps, lo que lo hace más útil como asistente en tu día a día.
Mejor memoria: Hemos mejorado la capacidad del Proyecto Astra para recordar cosas sin perder el control. Ahora tiene hasta 10 minutos de memoria durante la sesión y puede recordar más conversaciones que hayas tenido con él en el pasado, por lo que está mejor personalizado para ti.
Latencia mejorada: Gracias a las nuevas funciones de streaming y a la comprensión nativa del audio, el agente puede entender el lenguaje con una latencia similar a la de una conversación humana.

Estamos trabajando para llevar este tipo de funciones a productos de Google como la aplicación de Gemini, nuestro asistente de inteligencia artificial, y a otros formatos, como las gafas. Y estamos empezando a ampliar nuestro programa de testers de confianza a más gente, incluido un pequeño grupo que pronto empezará a probar el Proyecto Astra en prototipos de gafas.

Proyecto Mariner: agentes que pueden ayudarte a realizar tareas complejas

El Proyecto Mariner es un prototipo de investigación temprana construido con Gemini 2.0 que explora el futuro de la interacción entre humanos y agentes, empezando por tu navegador. Como prototipo de investigación, es capaz de comprender y razonar a través de la información de la pantalla de tu navegador, incluidos píxeles y elementos web como texto, código, imágenes y formularios, y luego utiliza esa información a través de una extensión experimental de Chrome para completar tareas por ti.

En la evaluación comparativa WebVoyager, que evalúa el rendimiento de los agentes en tareas web reales de extremo a extremo, Proyecto Mariner obtuvo un resultado del 83,5% trabajando como agente único.

Aún es pronto, pero el Proyecto Mariner demuestra que está siendo técnicamente posible navegar por un navegador, aunque hoy en día no siempre es preciso y tarda en completar las tareas, pero esto mejorará rápidamente con el tiempo.

Para construirlo de forma segura y responsable, identificamos activamente nuevos tipos de riesgos y medidas para mitigarlos, sin perder de vista a las personas. Por ejemplo, Proyecto Mariner sólo puede escribir, desplazarse o hacer clic en la pestaña activa de tu navegador y pide a los usuarios una confirmación final antes de realizar ciertas acciones sensibles, como comprar algo.

Los testers de confianza están empezando a probar Proyecto Mariner utilizando una extensión experimental de Chrome, y estamos iniciando conversaciones con el ecosistema web en paralelo.

Jules: agentes para desarrolladores

Del mismo modo, estamos explorando cómo los agentes de IA pueden ayudar a los desarrolladores con Jules, un agente de código experimental impulsado por IA que se integra directamente en un flujo de trabajo de GitHub. Puede resolver un problema o elaborar un plan y ejecutarlo, todo ello bajo la dirección y supervisión de un promotor. Este esfuerzo forma parte de nuestro objetivo a largo plazo de construir agentes de IA que sean útiles en todos los ámbitos, incluida la codificación.

Puedes encontrar más información sobre este experimento en nuestro blog para desarrolladores.

Agentes en juegos y otros ámbitos

Google DeepMind tiene un largo historial de uso de juegos para ayudar a los modelos de IA a mejorar en el seguimiento de reglas, la planificación y la lógica. La semana pasada, por ejemplo, presentamos Genie 2, nuestro modelo de IA capaz de crear una infinita variedad de mundos 3D jugables, todo a partir de una sola imagen. Siguiendo esta tradición, hemos creado agentes con Gemini 2.0 que pueden ayudarte a navegar por el mundo virtual de los videojuegos. Puede razonar sobre el juego basándose únicamente en la acción en pantalla, y ofrecer sugerencias sobre qué hacer a continuación en una conversación en tiempo real.

Estamos colaborando con desarrolladores de juegos punteros como Supercell para explorar cómo funcionan estos agentes, poniendo a prueba su capacidad para interpretar reglas y retos en una amplia gama de juegos, desde títulos de estrategia como "Clash of Clans" hasta simuladores agrícolas como "Hay Day"

Además de actuar como compañeros virtuales de juego, estos agentes pueden incluso aprovechar la Búsqueda de Google para ponerte en contacto con la gran cantidad de conocimientos sobre juegos que hay en la red.

Además de explorar las capacidades de los agentes en el mundo virtual, estamos experimentando con agentes que puedan ayudar en el mundo físico aplicando a la robótica las capacidades de razonamiento espacial de Gemini 2.0. Aunque aún es pronto, tenemos muchas expectativas puestas en el potencial de los agentes que pueden ayudar en el entorno físico.

Puedes obtener más información sobre estos prototipos y experimentos de investigación en labs.google.

Desarrollar con responsabilidad en la era de los agentes de IA

Gemini 2.0 Flash y nuestros prototipos de investigación nos permiten probar nuevas capacidades punteras en la investigación en IA que, con el tiempo, harán que los productos de Google sean más útiles.

A medida que desarrollamos estas nuevas tecnologías, somos conscientes dela responsabilidad que conllevan y las muchas cuestiones que abren los agentes de la IA en materia de seguridad. Por eso estamos adoptando un enfoque explorativo y gradual a la hora de desarrollar los productos, probando múltiples prototipos, insistiendo en la integración y formación en seguridad, trabajando con testers de confianza y expertos externos y realizando exhaustivas evaluaciones de riesgos y de seguridad y garantía.

Por ejemplo:

Como parte de nuestro proceso de seguridad, hemos trabajado con el Comité de Responsabilidad y Seguridad (RSC), nuestro grupo de revisión interna de larga trayectoria, para identificar y comprender los riesgos potenciales.
Las capacidades de razonamiento de Gemini 2.0 han permitido importantes avances en nuestro enfoque de red teaming asistido por IA, incluida la capacidad de ir más allá de la simple detección de riesgos, a la generación automática de evaluaciones y datos de capacitación para mitigarlos. Esto significa que podemos optimizar más eficazmente el modelo para la seguridad a escala.
A medida que la multimodalidad de Gemini 2.0 aumente la complejidad de las posibles salidas, seguiremos evaluando y entrenando el modelo de imagen y salida de audio para ayudar a mejorar la seguridad.
Con Proyecto Astra, estamos explorando posibles medidas para evitar que los usuarios compartan con el agente información sensible de forma involuntaria, y ya hemos incorporado controles de privacidad que facilitan a los usuarios la eliminación de sesiones. También seguimos investigando formas de garantizar que los agentes de IA actúen como fuentes fiables de información y no realicen acciones involuntarias en su nombre.
Con Proyecto Mariner, estamos trabajando para garantizar que el modelo aprenda a dar prioridad a las instrucciones del usuario frente a los intentos de inyección de terceros, de modo que pueda identificar instrucciones potencialmente maliciosas procedentes de fuentes externas y evitar su uso indebido. Esto evita que los usuarios se vean expuestos a fraudes e intentos de suplantación de identidad a través de elementos como instrucciones maliciosas ocultas en correos electrónicos, documentos o sitios web.

Creemos firmemente que la única forma de construir IA es ser responsables desde el principio y seguiremos dando prioridad a que la seguridad y la responsabilidad sean un elemento clave de nuestro proceso de desarrollo de modelos a medida que avancemos en nuestros modelos y agentes.

Gemini 2.0, agentes de IA y más allá

Los avances de hoy marcan un nuevo capítulo para nuestro modelo Gemini. Con el lanzamiento de Gemini 2.0 Flash y la serie de prototipos de investigación que exploran las posibilidades de los agentes, hemos alcanzado un hito apasionante en la era Gemini. Y estamos deseando seguir explorando con seguridad todas las nuevas posibilidades a nuestro alcance a medida que avanzamos hacia la Inteligencia Artificial General.

Publicado en: