Acceder al contenido

Gemini 2.0: nuestro nuevo modelo para la era de los agentes de AI

[]

Gemini 2.0: nuestro nuevo modelo para la era de los agentes de AI

Dic 11, 2024

Demis_headshot

Demis Hassabis

CEO Google DeepMind

koray

Koray Kavukcuoglu

CTO of Google DeepMind

Sundar Pichai

CEO of Google and Alphabet

Gemini 2.0

Un mensaje del CEO de Google y Alphabet, Sundar Pichai:

La información es el centro del progreso humano. Por ese motivo, nos enfocamos desde hace 26 años en nuestra misión de organizar la información del mundo y hacerla accesible y útil. También es la razón por la que seguimos extendiendo las fronteras de la IA para organizar esa información a través de cada entrada y ofrecerla a través de cada salida, de modo que sea realmente útil para ti.

Esa era nuestra visión cuando presentamos Gemini 1.0 el diciembre pasado. Como el primer modelo desarrollado para ser multimodal de manera nativa, Gemini 1.0 y 1.5 impulsaron grandes avances en la multimodalidad y el contexto ampliado para comprender información en texto, video, imágenes, audio y código, y procesar mucho más de ese contenido.

Actualmente, millones de desarrolladores usan Gemini. Eso nos ayuda a reimaginar todos nuestros productos (incluidos los siete utilizados por 2 mil millones de usuarios) y a crear otros nuevos. NotebookLM es un gran ejemplo de lo que la multimodalidad y el contexto ampliado pueden hacer por las personas.

Durante el último año, invertimos en el desarrollo de más modelos con capacidades de agentes de IA, que pueden comprender mejor el mundo que te rodea, adelantarse varios pasos y realizar acciones por ti, bajo tu supervisión.

Hoy nos entusiasma lanzar nuestra próxima línea de modelos desarrollados para esta era de agentes de IA: Gemini 2.0 es nuestro modelo más capaz hasta el momento. Con avances en multimodalidad, como resultados de imágenes y audio nativos, y uso de herramientas nativas, nos permitirá desarrollar nuevos agentes de IA que nos acerquen a nuestra visión de un verdadero asistente universal.

Pondremos 2.0 a disposición de desarrolladores y verificadores de confianza hoy mismo. Además, estamos trabajando para implementarlo rápidamente en nuestros productos, empezando por Gemini y el Buscador. A partir de hoy, nuestro modelo Gemini 2.0 Flash Experimental estará disponible para todos los usuarios de Gemini. También lanzamos una nueva función llamada Deep Research, que aplica razonamiento avanzado y funciones de contexto ampliado para actuar como asistente de investigación y explorar temas complejos y compilar informes por ti. Ya está disponible en Gemini Advanced.

Ninguno de nuestros productos fue transformado más por la Inteligencia Artificial que el Buscador. Nuestras Visiones Generales creadas por IA ya llegan a mil millones de usuarios, a quienes les permiten hacer nuevas preguntas. Rápidamente, se transformó en una de las funciones más populares en la historia de la búsqueda. El paso siguiente será llevar las funciones de razonamiento avanzado de Gemini 2.0 a la Visiones Generales creadas por IA para resolver temas más complejos y conjuntos de preguntas, incluidas ecuaciones matemáticas avanzadas, preguntas multimodales y código. Empezamos unas pruebas limitadas esta semana y el lanzamiento más amplio será por etapas el próximo año. Además, seguiremos ofreciendo la Vision General creada por IA a más países e idiomas durante 2025.

Los avances de 2.0 se basan en una década de inversiones en nuestro enfoque diferenciado de full-stack para la innovación en IA. Está integrado en hardware personalizado, como Trillium, nuestras TPUs de sexta generación. Las TPUs impulsaron el 100% del entrenamiento y la inferencia de Gemini 2.0, y actualmente, Trillium está disponible de manera general para que los clientes también puedan usarlo para desarrollar.

Si Gemini 1.0 tenía como fin organizar y comprender información, Gemini 2.0 tendrá como objetivo hacerlo mucho más útil. No puedo esperar a ver qué traerá la próxima era.

-Sundar

Gemini 2.0: Nuestro nuevo modelo para la era de agentes de IA

Durante el último año, seguimos avanzando de forma impresionante en el campo de la inteligencia artificial. Hoy presentamos Gemini 2.0, nuestro modelo de IA más capaz hasta el momento. El primer modelo de esta nueva era es una versión experimental de Gemini 2.0 Flash, nuestro modelo caballo de batalla que tiene baja latencia y un rendimiento mejorado, que presenta tecnología de vanguardia a gran escala.

También estamos compartiendo los horizontes de nuestra investigación de agentes a través de la publicación de prototipos habilitados por las capacidades nativas multimodales de Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash se crea en base al éxito de la versión 1.5 Flash, nuestro modelo más popular para desarrolladores hasta el momento, que ofrece un rendimiento mejorado en tiempos de respuesta con una velocidad similar. Notablemente, 2.0 Flash superó el rendimiento del 1.5 Pro en comparativas clave, con el doble de velocidad. La versión 2.0 Flash también cuenta con nuevas capacidades. Además de admitir entradas multimodales, como imágenes, videos y audio, la versión 2.0 Flash ahora admite salidas multimodales como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) . También puede utilizar herramientas de forma nativa como la Búsqueda de Google, la ejecución de código, así como funciones de terceros definidas por el usuario.

Tabla de evaluación comparativa

Nuestro objetivo es llevar nuestros modelos a las personas de forma segura y rápida. Durante el último mes, estuvimos compartiendo versiones experimentales de Gemini 2.0, y obtuvimos muy buenos comentarios de parte de los desarrolladores.

Gemini 2.0 Flash ahora está disponible como un modelo experimental para los desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI con entradas multimodales, salidas de texto, y generación de imágenes nativas y de texto a voz disponible para los socios con acceso anticipado. Seguirá la disponibilidad general en enero, junto con más tamaños de modelos.

Para ayudar a los desarrolladores a compilar aplicaciones dinámicas e interactivas, también lanzaremos una Multimodal Live API que tiene audio en tiempo real, entrada de transmisión de video y la capacidad de usar múltiples herramientas combinadas. Puedes encontrar más información acerca de la versión 2.0 Flash y la Multimodal Live API en nuestro blog para desarrolladores.

Gemini 2.0 disponible en la app de Gemini, nuestro asistente de IA

Desde hoy, los usuarios de Gemini a nivel global pueden acceder a una versión de chat optimizada de la versión 2.0 Flash Experimental. Para ello, deben seleccionarla en el menú desplegable del modelo que se encuentra en el escritorio y en la Web en dispositivos móviles, y pronto estará disponible en la app para dispositivos móviles de Gemini. Con este nuevo modelo, los usuarios pueden experimentar un asistente de Gemini aún más útil.

A principios del año próximo, ampliaremos Gemini 2.0 a más productos de Google.

Descubre experiencias de agentes con Gemini 2.0

Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash junto con otras mejoras (como el razonamiento multimodal, la compresión de contexto amplio, el seguimiento y la planificación de instrucciones complejas, el uso de funciones de composición, el uso de la herramienta nativa y la latencia mejorada) trabajan en conjunto para habilitar una clase nueva de experiencias de agentes.

La aplicación práctica de agentes de IA es un área de investigación repleta de posibilidades emocionantes. Estamos explorando esta nueva frontera con una serie de prototipos que pueden ayudar a las personas a realizar y completar tareas. Entre estos, se incluye una actualización al Project Astra, nuestro prototipo de investigación que explora las funciones futuras de un asistente de IA universal; el nuevo Project Mariner, que explora el futuro de la interacción entre seres humanos y agentes, empezando con tu navegador; y Jules, un agente de código potenciado por la IA que puede ayudar a los desarrolladores.

Aún estamos en las primeras etapas de desarrollo, pero nos emociona ver cómo los verificadores de confianza usan estas funciones y qué lecciones podemos aprender para poder ponerlas a disposición de forma más amplia para los productos en el futuro.

Project Astra: Agentes que usan una comprensión multimodal en el mundo real

Desde que presentamos Project Astra en I/O, estuvimos aprendiendo de los verificadores de confianza a través de su uso en los teléfonos Android. Sus comentarios valiosos nos ayudaron a entender mejor cómo un asistente de IA universal podría funcionar en la práctica, incluidas las consecuencias para la seguridad y la ética. Las mejoras de la versión más reciente compilada con Gemini 2.0 incluyen las siguientes:

Mejor diálogo: Project Astra ahora tiene la capacidad de conversar en varios idiomas y en idiomas mezclados, con una mejor comprensión de acentos y palabras poco comunes.
Uso de la herramienta nueva: Con Gemini 2.0, Project Astra puede usar la Búsqueda de Google, Lens y Maps, lo que lo hace más útil como un asistente en tu vida cotidiana.
Mejor memoria: Mejoramos la capacidad de Project Astra para recordar cosas mientras que tú te mantienes al control. Ahora tiene hasta 10 minutos de memoria durante la sesión y puede recordar más conversaciones que hayas tenido con ella en el pasado, así que está más personalizada para ti.
Latencia mejorada: Con nuevas funciones de transmisión y compresión de audio nativo, el agente puede entender el idioma aproximadamente a la latencia de una conversación humana.

Estamos trabajando para traer este tipo de funciones a los productos de Google como la app de Gemini, nuestro asistente de IA, y a otros factores de forma como los lentes. Y estamos empezando a expandir nuestro programa de verificador de confianza a más personas, incluido un pequeño grupo que pronto comenzará a probar Project Astra en los prototipos de lentes.

Project Mariner: agentes que pueden ayudarte a lograr tareas complejas

Project Mariner es un prototipo inicial de investigación desarrollado con Gemini 2.0 que explora el futuro de la interacción entre los seres humanos y el agente, comenzando por tu navegador. Como es un prototipo de investigación, puede comprender y razonar la información en la pantalla de tu navegador, incluidos los píxeles y los elementos web, como el texto, el código, las imágenes y los formularios. Luego, usa esa información mediante una extensión experimental de Chrome para completar tareas por ti.

Cuando se evaluó con la comparativa WebVoyager, que analiza el rendimiento de los agentes en tareas web de extremo a extremo en el mundo real, Project Mariner obtuvo un resultado de vanguardia del 83.5% cuando funcionaba en una configuración de agente único.

Todavía pasó poco tiempo, pero Project Mariner demuestra que comienza a ser técnicamente posible navegar dentro de un navegador y, aunque completar tareas es lento y no siempre es exacto, esto mejorará rápidamente con el tiempo.

Para desarrollar esta herramienta de manera segura y responsable, estamos realizando una investigación activa de los nuevos tipos de riesgos y cómo mitigarlos, siempre manteniendo a las personas en en loop. Por ejemplo, Project Mariner solo puede escribir, desplazarse o hacer clic en la pestaña activa del navegador y le pide a los usuarios la confirmación final antes de realizar ciertas acciones sensibles, como hacer una compra.

Actualmente, los verificadores de confianza están comenzando a probar Project Mariner con la extensión experimental de Chrome, y estamos comenzando conversaciones con el ecosistema web en paralelo.

Jules: agentes para desarrolladores

A continuación, exploraremos cómo los agentes de IA pueden ayudar a los desarrolladores con Jules, un código experimental potenciado por IA que se integra directamente en un flujo de trabajo de GitHub. Puede abordar un problema, desarrollar un plan y ejecutarlo, todo bajo la dirección y supervisión de un desarrollador. Este esfuerzo es parte de nuestro objetivo a largo plazo de desarrollar agentes de IA que sean útiles en todos los dominios, incluido el de la programación.

Agentes en juegos y otros dominios

Google DeepMind tiene una extensa trayectoria de usar juegos para ayudar a que los modelos de IA sean mejores a la hora de seguir reglas, planificación y lógica. La semana pasada, por ejemplo, presentamos Genie 2, nuestro modelo de IA que puede crear una variedad ilimitada de mundos 3D en los que se puede jugar, desde una sola imagen. Para continuar con esta tradición, creamos agentes usando Gemini 2.0 que pueden ayudarte a navegar el mundo virtual de los videojuegos. Puede razonar sobre el juego basándose solamente en la acción en la pantalla, y ofrecer sugerencias de qué hacer a continuación en una conversación en tiempo real.

Estamos colaborando con desarrolladores de juegos líderes, como Supercell, para explorar cómo funcionan estos agentes, probar su habilidad de interpretar las reglas y los desafíos de una variedad de juegos, desde títulos de estrategia como “Clash of Clans” a simuladores agrícolas como “Hay Day.”

Además de desempeñarse como compañeros de juegos virtuales, estos agentes incluso pueden usar la Búsqueda de Google para conectarte con toda la riqueza del conocimiento sobre juegos que existe en la Web.

Además de explorar las capacidades de los agentes en el mundo virtual, estamos experimentando con agentes que pueden ayudar en el mundo físico al aplicar las capacidades de razonamiento espacial de Gemini 2.0 a la robótica. Aunque aún es muy temprano, nos entusiasma el potencial de los agentes para asistir en entornos físicos.

Puedes obtener más información sobre estos prototipos y experimentos de investigación en labs.google.

Desarrollo con responsabilidad en la era de los agentes

Gemini 2.0 Flash y nuestros prototipos de investigación nos permiten probar e iterar nuevas capacidades en la vanguardia de la investigación en Ia que eventualmente hará que los productos de Google sean más útiles.

A medida que desarrollamos estas nuevas tecnologías, reconocemos la responsabilidad que conllevan y las numerosas preguntas que los agentes de IA plantean sobre seguridad y protección. Ese es el motivo por el que tomamos este enfoque gradual y exploratorio en el desarrollo, investigando múltiples prototipos, trabajando con verificadores de confianza y expertos externos, y realizando evaluaciones extensivas de riesgos y análisis de seguridad y garantías.

Por ejemplo:

Como parte de nuestro proceso de seguridad, trabajamos con nuestro Comité de responsabilidad y seguridad (RSC), nuestro grupo interno de revisión de larga trayectoria, para identificar y comprender riesgos potenciales.
Las capacidades de razonamiento de Gemini 2.0 han permitido realizar grandes avances en nuestro enfoque de equipo rojo asistido por IA, incluida la habilidad de ir más allá de detectar los riesgos para ahora apoyar las acciones de mitigación apropiadas. Esto significa que podemos optimizar de manera más efectiva el modelo para que tenga más seguridad a gran escala.
A medida que la multimodalidad de Gemini 2.0 aumenta la complejidad de los posibles resultados, continuaremos realizando evaluaciones de seguridad en las entradas y salidas de imágenes y audio para ayudar a mejorar la seguridad del modelo.
Con Project Astra, estamos explorando las posibles mitigaciones con usuarios que comparten información sensible de manera no intencional con el agente, y ya hemos desarrollado controles de privacidad para hacer que sea fácil para los usuarios borrar sesiones. También continuamos con la investigación de manera de garantizar que los agentes de IA actúen como fuentes confiables de información y no realicen acciones no deseadas en tu nombre.
Con Project Mariner, estamos trabajando en garantizar que el modelo aprenda a priorizar las instrucciones del usuario por sobre los intentos de terceros de inyectar instrucciones, para que puedan identificar instrucciones potencialmente maliciosas de fuentes externas y evitar el uso inapropiado. Esto previene que los usuarios queden expuestos a intentos de fraude y phishing mediante elementos como instrucciones maliciosas escondidas en correos electrónicos, documentos y sitios web.

Creemos firmemente que la única manera de desarrollar la IA es siendo responsables desde el principio, y continuaremos dando prioridad a la seguridad y la responsabilidad como un elemento clave de nuestro proceso de desarrollo de modelos mientras avanzamos con nuestros modelos y agentes.

Gemini 2.0, agentes de IA y mucho más

Los lanzamientos de hoy marcan un nuevo capítulo para nuestro modelo de Gemini. Con el lanzamiento de Gemini 2.0 Flash y la serie de prototipos de investigación que exploran las posibilidades de los agentes, alcanzamos un logro muy importante de la era de Gemini. Y esperamos continuar explorando de manera segura todas las nuevas posibilidades a nuestro alcance mientras avanzamos en el desarrollo de la AGI.

Publicado en: