Acceder al contenido

Presentamos Gemini: nuestro modelo de IA más grande y capaz

Presentamos Gemini: nuestro modelo de IA más grande y capaz

Dic 06, 2023

Sundar Pichai

CEO of Google and Alphabet

Demis_headshot

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Un mensaje del director ejecutivo de Google y Alphabet, Sundar Pichai

Cada cambio tecnológico es una oportunidad para avanzar en los descubrimientos científicos, acelerar el progreso humano y mejorar vidas. Creo que la transición que estamos viendo en la actualidad con la Inteligencia Artificial será la más profunda de nuestras vidas; mucho mayor que el paso anterior a los dispositivos móviles o a la Web. La IA tiene el potencial de crear oportunidades (desde las cotidianas hasta las extraordinarias) para personas de todo el mundo. Traerá nuevas olas de innovación y progreso económico e impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala nunca antes vista.

Eso es lo que me entusiasma: la oportunidad de hacer que la IA sea útil para todos, en todo el mundo.

Casi ocho años después del comienzo de nuestro viaje como una empresa que puso foco en IA, el ritmo del progreso no hace más que acelerarse: millones de personas están utilizando la IA generativa en todos nuestros productos para hacer cosas que no podían ni siquiera imaginar hace un año, desde encontrar respuestas a las preguntas más soluciones más complejas hasta el el uso de nuevas herramientas para colaborar y crear.

Al mismo tiempo, los desarrolladores están utilizando nuestros modelos e infraestructura para crear nuevas aplicaciones de IA generativa, y las empresas y nuevos emprendimientos en todo el mundo están creciendo de la mano de nuestras herramientas de IA.

Este es un impulso increíble y, sin embargo, apenas estamos viendo la superficie de lo que es posible.

Estamos abordando este trabajo con audacia y responsabilidad. Eso significa ser ambiciosos en nuestra investigación y buscar capacidades que traerán enormes beneficios a las personas y a la sociedad, al mismo tiempo que incorporamos protecciones y trabajamos en colaboración con gobiernos y expertos para abordar los riesgos a medida que la IA se vuelve cada vez más capaz. Y continuamos invirtiendo en las mejores herramientas, modelos e infraestructura y los incorporamos a nuestros productos, guiados por nuestros principios de IA.

Hoy estamos dando un nuevo paso en este viaje con el lanzamiento de Gemini, nuestro modelo más capaz y general hasta el momento, con un rendimiento de última generación en muchos benchmarks líderes. Nuestra primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Estos son los primeros modelos de la era Gemini y la primera realización de la visión que tuvimos cuando formamos Google DeepMind a principios de este año. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos emprendido como empresa. Estoy realmente emocionado por lo que está por venir y por las oportunidades que Gemini desbloqueará para personas de todo el mundo.

-Sundar

Introducing Gemini

^{Por Demis Hassabis, CEO y co-fundador de Google DeepMind}

La Inteligencia Artificial ha sido el foco del trabajo de toda mi vida, al igual que el de muchos de mis colegas investigadores. Desde que programé IA para juegos de computadora cuando era adolescente, y a lo largo de mis años como investigador de neurociencia tratando de comprender el funcionamiento del cerebro, siempre he creído que si pudiéramos construir máquinas más inteligentes, podríamos aprovecharlas para beneficiar a la humanidad de manera increíble.

Esta promesa de un mundo potenciado responsablemente por la IA continúa impulsando nuestro trabajo en Google DeepMind. Durante mucho tiempo, hemos querido construir una nueva generación de modelos de Inteligencia Artificial, inspirados en la forma en que las personas entienden el mundo e interactúan con él. La IA se sentiría menos como una pieza de software inteligente y aún más útil e intuitiva: un colaborador o compañero experto.

Hoy estamos un paso más cerca de esta visión con la presentación de Gemini, el modelo de IA más capaz y generalista que jamás hayamos construido.

Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google, incluidos nuestros colegas de Google Research. Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, imágenes, audio, video y código.

Gemini es también nuestro modelo más flexible hasta el momento: capaz de ejecutarse de manera eficiente desde en centros de datos hasta en dispositivos móviles. Sus capacidades de vanguardia mejorarán significativamente la forma en que los desarrolladores y clientes empresariales construyen y escalan con IA.

Hemos optimizado Gemini 1.0, nuestra primera versión del modelo, en tres tamaños diferentes:

Gemini Ultra : nuestro modelo más grande y con mayor capacidad para tareas altamente complejas.
Gemini Pro : nuestro mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano : nuestro modelo más eficiente para tareas en el dispositivo.

Rendimiento de última generación

Hemos estado probando rigurosamente nuestros modelos Gemini y evaluando su rendimiento en una amplia variedad de tareas que abarcan texto, visión, audio, coding y más.

Desde la comprensión de imágenes naturales hasta el razonamiento matemático y la comprensión de audio y video, el rendimiento de Gemini Ultra supera a modelos de última generación en 30 de los 32 puntos de referencia utilizados ampliamente por la industria.

Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas.

Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder preguntas difíciles, lo que genera mejoras significativas con respecto al simple uso de su primera impresión.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia que incluyen texto y codificación.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia que incluyen texto y codificación.

Gemini Ultra también logró una puntuación de vanguardia del 59,4 % en el nuevo punto de referencia MMMU, que consta de tareas multimodales que abarcan diferentes dominios y requieren un razonamiento deliberado. Con los puntos de referencia de imágenes que probamos, Gemini Ultra superó a los modelos de última generación anteriores sin la ayuda de sistemas de reconocimiento de caracteres de objetos (OCR). Estos puntos de referencia resaltan la multimodalidad nativa de Gemini e indican signos tempranos de las habilidades de razonamiento multimodal más complejos.

Ver más detalles en nuestro informe técnico Gemini.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia multimodales.

Gemini supera el rendimiento de última generación en una variedad de puntos de referencia multimodales.

Capacidades de próxima generación

Hasta ahora, el enfoque estándar para crear modelos multimodales implicaba entrenar componentes separados para diferentes modalidades y luego unirlos para imitar aproximadamente parte de esta funcionalidad. A veces, estos modelos pueden ser buenos para realizar determinadas tareas, como describir imágenes, pero tienen dificultades con un razonamiento más conceptual y complejo.

Diseñamos Gemini para que sea multimodal de forma nativa, y lo entrenamos desde el principio en diferentes modalidades. Luego lo perfeccionamos con datos multimodales adicionales para perfeccionar aún más su eficacia. Esto ayuda a Gemini a comprender y razonar perfectamente sobre todo tipo de interacciones desde cero, mucho mejor que los modelos multimodales existentes, y sus capacidades son de última generación en casi todos los dominios.

Pueden obtener más información sobre las capacidades de Gemini y ver cómo funciona aquí.

Razonamiento sofisticado

Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información visual y escrita compleja. Esto lo hace especialmente hábil para descubrir conocimientos que pueden ser difíciles de discernir en medio de grandes cantidades de datos.

Su notable capacidad para extraer información de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas.

Comprensión de texto, imágenes, audio y mucho más

Gemini 1.0 fue capacitado para reconocer y comprender texto, imágenes, audio y más al mismo tiempo, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en matemáticas y física.

Programación avanzada

Nuestra primera versión de Gemini puede comprender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo como Python, Java, C++ y Go. Su capacidad para trabajar en varios idiomas y razonar sobre información compleja lo convierte en uno de los modelos básicos de codificación líderes en el mundo.

Gemini Ultra se destaca en múltiples pruebas de comparación de código, incluyendo HumanEval, un importante estándar de la industria, y en Natural2Code, nuestro data set interno que utiliza fuentes generadas por autor en lugar de información basada en la web.

Gemini también se puede utilizar como motor para sistemas más avanzados. Hace dos años presentamos AlphaCode, el primer sistema de generación de código con IA que alcanza un nivel competitivo de rendimiento en competiciones de programación.

Utilizando una versión especializada de Gemini, creamos un sistema de generación de código más avanzado, AlphaCode 2, que se destaca en la resolución de problemas de programación competitivos que van más allá del código e involucran matemáticas complejas e informática teórica.

Cuando se evalúa en la misma plataforma que el AlphaCode original, AlphaCode 2 muestra mejoras masivas, resolviendo casi el doble de problemas. Y estimamos que funciona mejor que el 85% de los participantes de la competencia, en comparación con casi el 50 % de AlphaCode. Cuando los programadores colaboran con AlphaCode 2 definiendo ciertas propiedades para los siguientes ejemplos de código, su rendimiento es aún mejor.

Estamos entusiasmados de que los programadores utilicen cada vez más modelos de IA de alta capacidad como herramientas colaborativas que puedan ayudarlos a razonar sobre los problemas, proponer diseños de código y ayudar con la implementación, para que puedan lanzar aplicaciones y diseñar mejores servicios, más rápido.

Vea más detalles en nuestro informe técnico de AlphaCode 2.

Más confiable, escalable y eficiente

Entrenamos Gemini 1.0 a escala en nuestra infraestructura optimizada para IA utilizando las Unidades de Procesamiento Tensor (TPU, por sus siglas en inglés) v4 y v5e diseñadas internamente por Google. Y lo diseñamos para que sea nuestro modelo más confiable y escalable para capacitar, y el más eficiente para brindar servicio.

En los TPU, Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y con menos capacidades. Estos aceleradores de IA diseñados a medida han estado en el corazón de los productos impulsados por IA de Google que prestan servicios a miles de millones de usuarios como Search, YouTube, Gmail, Google Maps, Google Play y Android. También han permitido a empresas de todo el mundo entrenar modelos de IA a gran escala de forma rentable.

Hoy también anunciamos el sistema TPU más potente y escalable hasta la fecha, Cloud TPU v5p [INSERT LINK], diseñado para ser potente, eficiente y escalable para entrenar modelos de IA de vanguardia.

Esta TPU de próxima generación acelerará el desarrollo de Gemini y ayudará a los desarrolladores y clientes empresariales a entrenar modelos de IA generativa a gran escala más rápido, permitiendo que nuevos productos y capacidades lleguen antes a los clientes.

Una fila de supercomputadoras aceleradoras de IA Cloud TPU v5p en un centro de datos de Google.

Una fila de supercomputadoras aceleradoras de IA Cloud TPU v5p en un centro de datos de Google.

Desarrollado con responsabilidad y seguridad

En Google, estamos comprometidos a promover una IA audaz y responsable en todo lo que hacemos. Sobre la base de los principios de inteligencia artificial de Google y las sólidas políticas de seguridad de nuestros productos, estamos agregando nuevas protecciones para tener en cuenta las capacidades multimodales de Gemini. En cada etapa de desarrollo, consideramos los riesgos potenciales y trabajamos para probarlos y mitigarlos.

Gemini tiene las evaluaciones de seguridad más completas de cualquier modelo de IA de Google hasta la fecha, incluidas las de sesgo y toxicidad. Hemos llevado a cabo investigaciones novedosas en áreas de riesgo potencial como ciberataques, persuasión y autonomía, y hemos aplicado las mejores técnicas de pruebas antagónicas de Google Research para ayudar a identificar problemas críticos de seguridad antes de la implementación de Gemini.

Para identificar puntos ciegos en nuestro enfoque de evaluación interna, también estamos trabajando con un grupo diverso de expertos y socios externos para probar nuestros modelos en una variedad de temas.

Para diagnosticar problemas de seguridad del contenido durante las fases de capacitación de Gemini y garantizar que su producción cumpla con nuestras políticas, utilizamos puntos de referencia como Real Toxicity Prompts, un conjunto de 100.000 inputs con distintos grados de toxicidad extraídos de la web, desarrollados por expertos del Instituto Allen.

Para limitar el daño, creamos clasificadores de seguridad específicos para identificar, y etiquetar contenido que involucre, por ejemplo, violencia o estereotipos negativos. Combinado con robustos filtros, este enfoque en capas está diseñado para hacer que Gemini sea más seguro e inclusivo para todos. Y seguimos abordando desafíos conocidos para modelos como la factualidad, la fundamentación, la atribución y la corroboración.

La responsabilidad y la seguridad siempre serán fundamentales para el desarrollo y la implementación de nuestros modelos. Este es un compromiso a largo plazo que requiere construir de manera colaborativa, por lo que nos estamos asociando con la industria y el ecosistema más amplio para establecer puntos de referencia y mejores prácticas de seguridad a través de organizaciones como MLCommons , Frontier Model Forum y su AI Safety Fund , y nuestro Secure AI Framework (SAIF) , que fue diseñado para ayudar a mitigar los riesgos de seguridad específicos de los sistemas de IA en los sectores público y privado. Continuaremos trabajando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo a medida que desarrollamos Gemini.

Gemini a disposición del mundo

Gemini 1.0 ahora se está implementando en una variedad de productos y plataformas:

Gemini Pro en los productos de Google

Estamos acercando Gemini a miles de millones de personas a través de los productos de Google.

A partir de hoy, Bard utilizará una versión refinada de Gemini Pro que le permitirá comprender y resumir, razonar, generar ideas, escribir y planificar mucho mejor. Esta es la mayor actualización a Bard desde su lanzamiento, lo que lo convierte en uno de los modelos gratuitos más capaces.

Estará disponible en inglés en más de 170 países y territorios, y planeamos expandirnos a diferentes modalidades y nuevos lugares e idiomas en los próximos meses.

También llevaremos Gemini a Pixel. Pixel 8 Pro es el primer teléfono inteligente diseñado para ejecutar Gemini Nano, que impulsa nuevas funciones como Resumir en la aplicación Grabadora, además de implementar Respuesta inteligente en Gboard comenzando con WhatsApp y con más aplicaciones de mensajería el próximo año. Obtenga más información en nuestra publicación de blog de Pixel .

En los próximos meses, Gemini estará disponible en más de nuestros productos y servicios principales, como Chrome, los Anuncios y Duet AI. Y ya estamos comenzando a experimentar con Gemini en search donde está haciendo nuestra Experiencia de Búsqueda Generativa más rápida para los usuarios, con una reducción del 40 por ciento en latencia en Inglés en EE.UU., además de mejoras de calidad.

Construyendo con Gemini

A partir del 13 de diciembre, desarrolladores y clientes corporativos podrán acceder a Germini a través de la Gemini API en Google AI Studio o a través de Google Cloud Vertex AI.

Google AI Studio es una herramienta de desarrollo gratuita y basada en la web que ayuda a programadores y clientes a prototipar y lanzar aplicaciones más rápido a través de una API key. Y al llegar al momento de una plataforma de AI administrada, Vertex AI permite la personalización de Gemini con control total de los datos y beneficios adicionales de Google Cloud, para la seguridad, privacidad, gobernanza de datos y compliance de las compañías.

Los desarrolladores de Android, por su parte, también podrán crear con Gemini Nani, nuestro modelo más eficiente para tareas que se ejecutan en los dispositivos móviles, a través de AICore, una nueva capacidad de sistema disponible en Android 14, inicialmente en Pixel 8. Pueden registrarse a una demo de AICore.

Gemini Ultra

Estamos completando extensivas pruebas de seguridad en Gemini Ultra, incluyendo el trabajo con socios externos y refinando el modelo utilizando técnicas de aprendizaje reforzado a partir del feedback humano antes de disponibilizarlo de forma más abierta.

Cómo parte de este proceso, un grupo de clientes, socios, desarrolladores y expertos en seguridad podrán acceder a Gemini Ultra y planeamos llegar a desarrolladores y clientes empresariales a comienzos del año que viene.

También en inicios de 2024 lanzaremos Bard Advanced, una nueva experiencia de AI de última generación que les ofrecerá acceso a los mejores modelos y capacidades, comenzando por Gemini Ultra.

La era Gémini: Haciendo posible un futuro de innovación

Este es un hito importante en el desarrollo de la IA y el comienzo de una nueva era para Google a medida que continuamos innovando rápidamente y avanzando de manera responsable las capacidades de nuestros modelos.

Hemos logrado avances increíbles en Gemini y estamos trabajando arduamente para ampliar aún más sus capacidades para versiones futuras, incluidos avances en planificación y memoria, y aumentar la ventana de contexto para procesar aún más información y dar mejores respuestas.

Estamos entusiasmados con las asombrosas posibilidades de un mundo potenciado responsablemente por la IA: un futuro de innovación que mejorará la creatividad, ampliará el conocimiento, hará avanzar la ciencia y transformará la forma en que miles de millones de personas viven y trabajan en todo el mundo.

Publicado en: