Acceder al contenido

Gemini abre nuevos caminos: un modelo más rápido, un contexto más amplio y asistentes de IA

[]

Gemini abre nuevos caminos: un modelo más rápido, un contexto más amplio y asistentes de IA

May 14, 2024

Demis_headshot

Demis Hassabis

CEO of Google DeepMind, on behalf of the Gemini team

Imagen de redes conectadas

En diciembre lanzamos Gemini 1.0, nuestro primer modelo multimodal nativo, en tres tamaños: Ultra, Pro y Nano. Hoy, unos meses más tarde, presentamos la versión 1.5 Pro, con un rendimiento mejorado y una extensa ventana de contexto de 1 millón de tokens.

Los desarrolladores y clientes empresariales han estado utilizando 1.5 Pro de formas increíbles y encuentran mayor utilidad en su ventana de contexto larga, sus capacidades de razonamiento multimodal y su impresionante rendimiento general.

Por los comentarios de los usuarios sabemos que algunas aplicaciones necesitan menor latencia y costo de servicio. Esto nos ha inspirado a seguir innovando. Por eso, hoy presentamos Gemini 1.5 Flash, un modelo más ligero que 1.5 Pro y diseñado para ser rápido y eficaz a gran escala.

Tanto 1.5 Pro como 1.5 Flash están disponibles en versión preliminar pública con una ventana de contexto de 1 millón de tokens en Google AI Studio y Vertex AI. Una ventana de contexto de 2 millones de tokens está habilitada para los desarrolladores que utilicen la API y para los clientes de Google Cloud a través de la lista de espera. Además, estamos integrando 1.5 Pro tanto en los productos de Google, como en Gemini Advanced y en las aplicaciones de Workspace.

También anunciamos nuestra próxima generación de modelos abiertos, Gemma 2, y compartimos los avances en el futuro de los asistentes de Inteligencia Artificial con Proyecto Astra.

Longitudes de contexto de los principales modelos de cimentación comparadas con la capacidad de Gemini 1.5 de 2 millones de tokens.

Actualizaciones en toda nuestra familia de modelos Gemini

1.5 Flash: un modelo más rápido y eficaz

1.5 Flash es la última incorporación a la familia de modelos Gemini y el modelo Gemini más rápido que se ofrece a través de la API. Está optimizado para tareas de gran volumen y frecuencia a escala, tiene un costo de servicio más eficiente e incluye nuestra innovadora ventana de contexto larga.

Aunque es un modelo más ligero que 1.5 Pro, es altamente capaz de hacer razonamientos multimodales a través de grandes cantidades de información y ofrece una calidad impresionante para su tamaño.

El nuevo modelo Gemini 1.5 Flash está optimizado para velocidad y eficiencia y es altamente capaz de razonamientos multi-modales.

Imagen del modelo Gemini 1.5 Flash

Este modelo se destaca en resúmenes, aplicaciones de chat, subtitulado de imágenes y vídeos, extracción de datos de documentos largos y tablas, y mucho más. Esto se debe a que ha sido entrenado por 1.5 Pro mediante un proceso denominado “destilación”, en el que los conocimientos y habilidades más esenciales de un modelo más grande se transfieren a un modelo más pequeño y eficaz.

Para más información sobre 1.5 Flash, se puede ingresar a nuestro informe técnico actualizado de Gemini 1.5 y en la página de tecnología de Gemini. Conoce la disponibilidad y los precios de 1.5 Flash.

Un 1.5 aún más útil

En los últimos meses, hemos mejorado significativamente 1.5 Pro, nuestro mejor modelo para un rendimiento general en una amplia gama de tareas. Además de extender su ventana de contexto a 2 millones de tokens, hemos optimizado la generación de código, el razonamiento lógico y la planificación, la conversación multivuelta y la comprensión de audio e imágenes mediante mejoras en datos y algoritmos

La última versión de 1.5 Pro logra mejoras significativas en evaluaciones públicas en varios ámbitos, como el razonamiento y la codificación, así como un rendimiento de vanguardia en múltiples pruebas de referencia de comprensión de imágenes y vídeos, que incluyen: MMMU, AI2D, MathVista, ChartQA, DocVQA, InfographicVQA y EgoSchema.

1.5 Pro ahora puede seguir instrucciones cada vez más complejas y matizadas, incluidas las que especifican el comportamiento a nivel de producto, que implican función, formato y estilo. Hemos mejorado el control sobre las respuestas del modelo para casos de uso específicos, como la elaboración de la persona y el estilo de respuesta de un agente de chat, o la automatización de flujos de trabajo a través de múltiples llamadas a funciones. Además, hemos permitido a los usuarios dirigir el comportamiento del modelo estableciendo instrucciones del sistema.

También, agregamos la comprensión de audio en la API de Gemini y Google AI Studio, por lo que 1.5 Pro ahora puede razonar a través de imagen y audio para vídeos subidos en Google AI Studio.

Obtén más información sobre 1.5 Pro en nuestro informe técnico actualizado de Gemini 1.5 y en la página de tecnología de Gemini.

Actualizaciones de Gemini Nano, nuestro modelo para dispositivos

Gemini Nano se está expandiendo más allá de las entradas de texto para incluir también imágenes. Empezando por Pixel, las aplicaciones que utilicen Gemini Nano con multimodalidad podrán entender el mundo como lo hacen las personas, no sólo mediante la introducción de texto, sino también a través de la vista, el sonido y el lenguaje hablado.

Conoce más sobre Gemini 1.0 Nano en Android.

La próxima generación de modelos abiertos

Hoy también anunciamos una serie de actualizaciones de Gemma, nuestra familia de modelos abiertos construidos a partir de la misma investigación y tecnología utilizadas para crear los modelos Gemini.

Presentamos Gemma 2, nuestra nueva generación de modelos abiertos para la innovación responsable de la IA. Tiene una nueva arquitectura diseñada para ofrecer un rendimiento y una eficiencia sin precedentes, y estará disponible en nuevos tamaños.

La familia Gemma también se amplía con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado en PaLI-3. También hemos actualizado nuestro “Responsible Generative AI Toolkit con LLM Comparator” para evaluar la calidad de las respuestas de los modelos.

Lee más información en el blog para desarrolladores.

Nuestros avances para el futuro de los asistentes de IA

Como parte de la misión de Google DeepMind de construir una IA responsable que beneficie a la humanidad, siempre hemos querido desarrollar agentes de IA universales que puedan ser útiles en la vida cotidiana. Por eso hoy compartimos el Proyecto Astra: nuestra visión del futuro de los asistentes de IA.

Para ser verdaderamente útil, un agente necesita comprender y responder al complejo y dinámico mundo tal como lo hacen las personas, asimilando y recordando lo que ve y escucha para comprender el contexto y tomar acciones. También, necesita ser proactivo, didáctico y personal, para que los usuarios puedan hablarle con naturalidad, sin retrasos ni demoras.

Si bien hemos progresado increíblemente en el desarrollo de sistemas de Inteligencia Artificial capaces de comprender información multimodal, reducir el tiempo de respuesta a un nivel conversacional, es un complejo desafío de ingeniería. En los últimos años, hemos trabajado para mejorar la forma en la que nuestros modelos perciben, razonan y conversan para que el ritmo y la calidad de la interacción resulten más naturales.

Estos agentes fueron construidos en base a nuestro modelo Gemini y otros modelos específicos de tareas, y se han diseñado para procesar información más rápido al codificar continuamente cuadros de vídeo, que combinan la entrada de video, la voz en una línea de tiempo de eventos y el almacenamiento en caché de esta información para una recuperación eficiente.

Al aprovechar nuestros destacados modelos de voz, también mejoramos su sonido, dotando a los agentes de una gama más amplia de entonaciones. Estos agentes pueden entender mejor el contexto en el que se utilizan y responder rápidamente en una conversación, haciendo que sea más fluida.

Es fácil imaginar un futuro en el que cada persona pueda tener un asistente experto a su lado a través del teléfono o lentes. Algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini, a finales de este año.

Exploración continua

Hemos logrado un increíble progreso con nuestra familia de modelos Gemini, y siempre nos esforzamos por avanzar aún más en el desarrollo de esta tecnología. Al invertir en una línea de producción de innovación incesante, somos capaces de explorar nuevas ideas al tiempo que descubrimos la posibilidad de nuevos y apasionantes casos de uso de Gemini.

Obtén más información sobre Gemini y sus capacidades aquí.

Publicado en: