Presentamos Gemini: nuestro modelo de IA más avanzado y capaz

06, Dic, 2023

Sundar Pichai

CEO of Google and Alphabet

Demis Hassabis

CEO and Co-Founder, Google DeepMind

Unas palabras de Sundar Pichai, CEO de Google y Alphabet

Cada cambio tecnológico abre una oportunidad para avanzar en el conocimiento científico, acelerar el progreso humano y mejorar la vida de la gente. Creo que la transición que estamos viviendo en estos momentos con la IA será la más profunda de nuestras vidas, mucho más que cuando aparecieron los teléfonos móviles o, antes aún, internet. La IA tiene potencial para crear oportunidades en todo el mundo, que van de lo cotidiano a lo extraordinario. Hará posible nuevas oleadas de innovación y progreso económico. Impulsará el conocimiento, el aprendizaje, la creatividad y la productividad a una escala desconocida.

Eso es justamente lo que me entusiasma: la posibilidad de hacer que la IA sea útil para todos, en todo el mundo.

Nuestra empresa lleva casi ocho años volcada en la inteligencia artificial y los avances son cada vez más rápidos. En este momento, millones de personas ya utilizan la IA generativa de nuestros productos para hacer cosas que no podían hacer hace apenas un año. Desde encontrar respuestas a preguntas más complejas hasta utilizar nuevas herramientas para colaborar y crear. En paralelo, los desarrolladores están utilizando nuestros modelos e infraestructura para poner a punto nuevas aplicaciones de IA generativa. Y numerosas startups y empresas consolidadas de todo el mundo están creciendo con ayuda de nuestras herramientas de IA.

El impulso es extraordinario y, sin embargo, apenas estamos acariciando la superficie de todo lo que es posible.

Por nuestra parte, trabajamos con audacia y responsabilidad. Somos audaces a la hora de investigar y de materializar capacidades que pueden aportar enormes beneficios a las personas y a la sociedad. Y, al mismo tiempo, adoptamos protecciones y trabajamos en colaboración con gobiernos y expertos para atajar los riesgos que surgen a medida que crece la capacidad de la IA. No dejamos de invertir en las mejores herramientas, modelos básicos e infraestructuras. Todo ello, lo incorporamos a nuestros propios productos y lo ponemos a disposición de terceros, guiándonos en todo momento por nuestros Principios de la IA.

Hoy hemos dado el paso siguiente en este viaje con Gemini, el modelo más avanzado y capaz que hemos creado hasta la fecha, que ha obtenido resultados excelentes en muchas de las cotas de referencia más utilizadas. Hemos optimizado Gemini 1.0 —nuestra primera versión del modelo— en tres tamaños diferentes: Ultra, Pro y Nano. Son los primeros modelos de la era Gemini y el primer producto de la visión que nos movió a formar Google DeepMind hace unos meses. Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia y de ingeniería que hemos emprendido como empresa. Me ilusiona mucho el camino que tenemos por delante y las oportunidades que Gemini puede ofrecer a personas de todo el mundo.

Presentamos Gemini

Por Demis Hassabis, CEO y Co-Founder Google DeepMind en nombre del equipo Gemini

Mi vida profesional siempre ha girado en torno a la IA, como les ha ocurrido a muchos de mis compañeros investigadores. Desde los días en que programaba IA para juegos de ordenador cuando era un adolescente y también a lo largo de mis años como investigador en neurociencia intentando comprender el funcionamiento del cerebro, siempre he creído que si pudiéramos crear máquinas más inteligentes los beneficios para la humanidad serían extraordinarios.

Esta promesa de un mundo asistido de forma responsable por la IA sigue siendo la base de nuestro trabajo en Google DeepMind. Llevamos mucho tiempo trabajando en una nueva generación de modelos de IA, inspirados en la forma en que las personas entienden y se relacionan con el mundo. Una IA que se pareciese menos a un programa informático y más a algo útil e intuitivo, como un colaborador o un asistente experto.

Hoy, estamos un paso más cerca de esta visión al presentar Gemini, el modelo más avanzado y capaz que hemos creado hasta la fecha.

Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos nuestros compañeros de Google Research. Se construyó desde cero para ser multimodal, lo que significa que puede generalizar y entender, operar y combinar a la perfección distintos tipos de información, como texto, código de programación, audio, imágenes y vídeo.

Gemini es también nuestro modelo más flexible hasta la fecha, capaz de funcionar eficazmente en todas partes, desde en un centro de datos hasta en dispositivos móviles. Sus avanzadas capacidades mejorarán significativamente la forma en que los desarrolladores y las empresas crean aplicaciones con IA y les dan escala.

Hemos optimizado Gemini 1.0 —nuestra primera versión— en tres tamaños diferentes:

Gemini Ultra – nuestro modelo más potente y de mayor tamaño, para tareas de gran complejidad.
Gemini Pro – nuestro mejor modelo para escalar en una amplia gama de tareas.
Gemini Nano – nuestro modelo más eficiente para ejecutar tareas directamente en un dispositivo.

Rendimiento avanzado

Hemos estado probando de forma rigurosa nuestros modelos Gemini y evaluando su rendimiento en una amplia variedad de tareas. Desde la comprensión de imágenes naturales, audio y vídeo hasta el razonamiento matemático, el rendimiento de Gemini Ultra supera los resultados más avanzados en 30 de las 32 cotas académicas de uso generalizado, utilizadas en la investigación y el desarrollo de grandes modelos lingüísticos (LLM).

Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas.

Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas con respecto a la primera impresión.

Gemini supera el rendimiento de los modelos más avanzados en una gran variedad de cotas de referencia, que van desde texto hasta código de programación.

abla: Gemini supera el rendimiento de los modelos más avanzados en una gran variedad de cotas de referencia, que van desde texto hasta código de programación.

Gemini Ultra también logra una puntuación del 59,4% en la nueva cota de referencia MMMU, que consiste en realizar tareas multimodales en diferentes ámbitos para los que requieren un razonamiento deliberado.

Con las imágenes de referencia que probamos, Gemini Ultra superó a los modelos anteriores más avanzados sin ayuda de sistemas de reconocimiento óptico de caracteres de objetos (OCR) que extraen texto de las imágenes para su posterior procesamiento. Estas referencias resaltan la multimodalidad nativa de Gemini y apuntan los primeros indicios de capacidades de razonamiento multimodal más complejas.

Para más información, consulta el informe técnico de Gemini.

Gemini supera el rendimiento de los modelos más avanzados en una serie de cotas de referencias multimodales.

Capacidades de nueva generación

Hasta ahora, el enfoque estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades y luego unirlos para imitar grosso modo algunas de estas funciones. Estos modelos pueden ser buenos a la hora de realizar determinadas tareas, como describir imágenes, pero tienen dificultades con el razonamiento más conceptual y complejo.

Diseñamos Gemini para que sea multimodal de forma nativa, preentrenado desde el principio en diferentes modalidades. Después lo perfeccionamos con datos multimodales adicionales para refinar aún más su eficacia. Este planteamiento ayuda a Gemini a entender y razonar a la perfección sobre todo tipo de entradas, mucho mejor que los modelos multimodales existentes, y sus capacidades son punteras en casi todos los ámbitos.

Más información sobre las capacidades de Gemini y cómo funciona.

Razonamiento sofisticado

Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información escrita y visual compleja. Así, resulta excepcionalmente hábil para extraer conocimientos difíciles de identificar entre ingentes cantidades de datos.

Su notable capacidad para extraer conclusiones a partir de cientos de miles de documentos mediante la lectura, el filtrado y la comprensión de la información puede ayudar a conseguir nuevos avances a velocidades digitales en muchos campos, desde las ciencias a las finanzas.

Comprender texto, imágenes, audio y más

Gemini 1.0 fue capacitado para reconocer y comprender texto, imágenes, audio, etc a la vez, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en materias complejas como matemáticas y física.

Escritura avanzada de código de programación

Nuestra primera versión de Gemini puede entender, explicar y generar código de alta calidad en los lenguajes de programación más populares del mundo, como Python, Java, C++ y Go. Su capacidad para trabajar con los lenguajes y razonar sobre información compleja lo convierte en uno de los principales modelos básicos del mundo para escribir código.

Gemini Ultra destaca en varias pruebas comparativas de codificación, como HumanEval, una importante prueba comparativa estándar del sector para tareas de codificación, y Natural2Code, nuestra propia prueba comparativa de codificación de conjuntos de datos.

Gemini también puede utilizarse como motor para sistemas de escritura de código más avanzados. Hace dos años, presentamos AlphaCode, el primer sistema de generación de código de IA que alcanzó un nivel competitivo en concursos de programación.

Con una versión especializada de Gemini, hemos creado un sistema de generación de código más avanzado, llamado AlphaCode 2, que se desempeña muy bien en la resolución de problemas de programación competitivos que van más allá de la escritura de código y que implican matemáticas complejas o comprensión teórica de la ciencia de la computación.

Al evaluarlo en la misma plataforma que el AlphaCode original, AlphaCode 2 muestra enormes mejoras. Es capaz de resolver casi el doble de problemas, y estimamos que rinde mejor que el 85% de los participantes de la competencia (cuando AlphaCode ya lo hacía mejor que el casi 50% de ellos). Cuando los programadores colaboran con AlphaCode 2 definiendo determinadas propiedades para que las sigan las muestras de código, su rendimiento es aún mejor.

Nos encanta la idea de que los programadores utilicen cada vez más modelos de IA altamente capaces como herramientas de colaboración. Les ayudan a razonar sobre los problemas, proponen diseños de código y prestan asistencia en la implantación. Como resultado, se diseñan mejores servicios y se lanzan aplicaciones más rápidamente.

Para más información, consulta el informe técnico de AlphaCode 2.

Más fiable, escalable y eficiente

Entrenamos a Gemini 1.0 a escala en nuestra infraestructura optimizada de IA con las unidades de procesamiento tensorial (TPU) v4 y v5e que hemos diseñado internamente en Google. Y lo diseñamos para que fuera nuestro modelo más fiable y escalable para entrenar, y más eficiente a la hora de dar servicio.

En las TPU, Gemini funciona significativamente más rápido que los modelos anteriores, más pequeños y menos capaces. Estos aceleradores de IA diseñados a medida han sido esenciales en los productos asistidos por IA de Google que atienden a miles de millones de usuarios en plataformas como las del Buscador, YouTube, Gmail, Google Maps, Google Play y Android. Asimismo, han permitido que empresas de todo el mundo entrenen de forma rentable modelos de IA a gran escala.

Hoy también anunciamos el sistema TPU más potente, eficiente y escalable hasta la fecha, Cloud TPU v5p diseñado para el entrenamiento de modelos de IA avanzados. Esta TPU de nueva generación acelerará el desarrollo de Gemini y ayudará a los desarrolladores y clientes empresariales a entrenar con mayor rapidez modelos de IA generativa a gran escala, lo que permitirá —a su vez— que lleguen antes a los clientes nuevos productos y capacidades.

Superordenadores aceleradores de IA Cloud TPU v5p en un centro de datos de Google.

La responsabilidad y la seguridad como ejes centrales

En Google, nos comprometemos a impulsar una IA ambiciosa y responsable en todo lo que hacemos. Basándonos en los Principios de IA de Google y las sólidas políticas de seguridad con las que desarrollamos nuestros productos, estamos añadiendo nuevas protecciones adaptadas a las capacidades multimodales de Gemini. En cada fase de desarrollo, consideramos los riesgos potenciales y trabajamos para probarlos y mitigarlos.

Gemini cuenta con las evaluaciones de seguridad más exhaustivas de todos los modelos de IA de Google hasta la fecha, incluidas medidas contra sesgos y toxicidad. Hemos realizado investigaciones novedosas en posibles áreas de riesgo, como la ciberdelincuencia, la persuasión y la autonomía, y hemos aplicado las mejores técnicas de pruebas de adversarios de Google Research para identificar problemas de seguridad críticos antes del despliegue de Gemini.

Para detectar los puntos ciegos de nuestro enfoque de evaluación interna, también trabajaremos con un grupo diverso de expertos y socios externos, que se encargan de poner a prueba nuestros modelos en distintas situaciones.

Para diagnosticar los problemas de seguridad de los contenidos durante las fases de entrenamiento de Gemini y garantizar que sus resultados se ajustan a nuestras políticas, utilizamos referencias como Real Toxicity Prompts, un conjunto de 100.000 mensajes con distintos grados de toxicidad extraídos de la web y desarrollados por expertos del Instituto Allen para la Inteligencia Artificial. Pronto daremos más detalles sobre este trabajo.

Con el fin de limitar los daños, creamos clasificadores de seguridad específicos para identificar, etiquetar y clasificar los contenidos que implican, por ejemplo, violencia o estereotipos negativos. Junto con filtros sólidos, este enfoque por capas está diseñado para hacer que Gemini resulte más seguro y más inclusivo para todos. Y seguimos abordando retos conocidos para los modelos, como la facticidad, la fundamentación, la atribución y la verificación.

La responsabilidad y la seguridad siempre serán fundamentales en el desarrollo y la implantación de nuestros modelos. Es un compromiso a largo plazo que requiere un trabajo cooperativo. Precisamente por eso, estamos colaborando con el sector y el ecosistema en general para definir las mejores prácticas y establecer parámetros de seguridad a través de organizaciones como MLCommons, el Foro Frontier Model y su Fondo de Seguridad de IA, y nuestro Marco Seguro para la IA (SAIF), que fue diseñado para ayudar a mitigar los riesgos de seguridad específicos de los sistemas de IA en los sectores público y privado.

A medida que desarrollemos Gemini, seguiremos colaborando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo.

Gemini, accesible para todos

Gemini 1.0 se está implantando en una serie de productos y plataformas:

Gemini Pro en los productos de Google

Gemini llegará a miles de millones de personas a través de los productos de Google.

A partir de hoy, Bard utilizará una versión perfeccionada de Gemini Pro para razonamientos más avanzados, planificación, comprensión y mucho más. Se trata de la mayor actualización de Bard desde su lanzamiento.

Estará disponible en inglés en más de 170 países y territorios, y tenemos previsto ampliarlo a distintas modalidades y dar soporte a nuevos lugares e idiomas en un futuro cercano.

También estamos incorporando Gemini a Pixel. Pixel 8 Pro es el primer smartphone diseñado para ejecutar Gemini Nano, que hace posibles nuevas funciones como Resumir en la Grabadora o utilizar la Respuesta inteligente de Gboard desde WhatsApp. El año próximo extenderemos esta función a otras aplicaciones de mensajería.

En los próximos meses, Gemini estará disponible en otros productos y servicios como el Buscador, Ads, Chrome y Duet AI.

Ya estamos experimentando con Gemini en la Búsqueda, donde está haciendo que la Experiencia Generativa de Búsqueda (SGE) sea más rápida para los usuarios, con una reducción del 40% en la latencia en inglés en EE. UU., además de mejoras en la calidad.

Construir con Gemini

A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API Gemini en Google AI Studio o Vertex AI.

Google AI Studio es una herramienta de desarrollo gratuita basada en web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API. Cuando llega el momento de una plataforma de IA totalmente gestionada, Vertex AI permite la personalización de Gemini con un control total de los datos y se beneficia de funciones adicionales de Google Cloud para la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos por parte de las empresas.

A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo. AICore es una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro. Puedes inscribirte para ver un avance.

Gemini Ultra, próximamente

En el caso de Gemini Ultra, estamos llevando a cabo comprobaciones exhaustivas de confianza y seguridad, incluidas pruebas de Red Team a cargo de colaboradores externos de confianza. Asimismo, estamos perfeccionando el modelo con ajustes de precisión y un aprendizaje por refuerzo basado en feedback humano (RLHF), antes de su lanzamiento.

Como parte de este proceso, pondremos Gemini Ultra a disposición de determinados clientes, desarrolladores, socios y expertos en seguridad y responsabilidad para que sean los primeros en probarlo y nos den su opinión, antes de ponerlo a disposición de todos los desarrolladores y clientes empresariales en los primeros meses del próximo año.

A principios del año que viene, también lanzaremos Bard Advanced, una nueva e innovadora experiencia de IA que te dará acceso a nuestros mejores modelos y funciones, empezando por Gemini Ultra.

La era Gemini: un futuro de innovación

Todo esto es un hito significativo en el desarrollo de la IA. El comienzo de una nueva era para nosotros en Google, en la que no dejamos de innovar y avanzar de forma responsable en las capacidades de nuestros modelos.

Ya hemos hecho grandes progresos con Gemini y actualmente estamos trabajando duro para ampliar aún más sus capacidades en futuras versiones, incluyendo avances en la planificación y la memoria, y el aumento de la ventana de contexto para procesar aún más información para dar mejores respuestas.

Nos entusiasman las increíbles posibilidades de un mundo responsablemente potenciado por la IA: un futuro de innovación que mejorará la creatividad, ampliará el conocimiento, hará avanzar la ciencia y transformará la forma de vivir y trabajar de miles de millones de personas en todo el mundo.

Publicado en: