Nuestro modelo de próxima generación: Gemini 1.5
Una nota del director ejecutivo de Google y Alphabet, Sundar Pichai
La semana pasada lanzamos nuestro modelo más capaz, Gemini 1.0 Ultra, y dimos un importante paso adelante para hacer que los productos de Google sean más útiles, comenzando con Gemini Advanced . A partir de hoy, los desarrolladores y clientes de la nube también pueden comenzar a construir con Gemini 1.0 Ultra, a través de nuestra API Gemini en AI Studio y Vertex AI .
Nuestros equipos continúan superando las fronteras de nuestros últimos modelos poniendo la seguridad en el centro. Y están progresando rápidamente. De hecho, estamos listos para presentar la próxima generación: Gemini 1.5 con mejoras espectaculares en varias dimensiones y 1.5 Pro que logra una calidad comparable a la de 1.0 Ultra, utilizando menos capacidad de cómputo.
Esta nueva generación también ofrece un gran avance en la comprensión del contexto, aun cuando es ampliamente largo.. Aumentamos significativamente la cantidad de información que nuestros modelos pueden procesar: ejecutan hasta 1 millón de tokens de manera constante y logran la ventana de contexto más larga de cualquier modelo básico a gran escala hasta el momento.
Las ventanas de contexto más largas nos muestran la promesa de lo que es posible. Permitirán capacidades completamente nuevas y ayudarán a los desarrolladores a crear modelos y aplicaciones mucho más útiles. Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales. Demis comparte más información sobre capacidades, seguridad y disponibilidad a continuación.
—Sundar
Presentamos Gemini 1.5
Por Demis Hassabis, director ejecutivo de Google DeepMind, en nombre del equipo de Gemini
Este es un momento emocionante para la IA. Los nuevos avances en este campo tienen el potencial de hacer que la IA sea más útil para miles de millones de personas en los próximos años. Desde que presentamos Gemini 1.0 , hemos estado probando, refinando y mejorando sus capacidades.
Hoy anunciamos nuestro modelo de próxima generación: Gemini 1.5.
Gemini 1.5 ofrece un rendimiento drásticamente mejorado. Representa un cambio radical en nuestro enfoque, basándose en innovaciones de investigación e ingeniería en casi todas las partes de nuestra infraestructura y desarrollo de modelos básicos. Esto incluye hacer que Gemini 1.5 sea más eficiente para capacitar y brindar servicios, con una nueva arquitectura de Mezcla de Expertos (MoE).
El primer modelo Gemini 1.5 que lanzaremos para pruebas iniciales es Gemini 1.5 Pro. Es un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas y funciona a un nivel similar al 1.0 Ultra, nuestro modelo más grande hasta la fecha. También introduce una característica experimental innovadora en la comprensión de contextos prolongados.
Gemini 1.5 Pro viene con una ventana de contexto estándar de 128,000 tokens. Pero a partir de hoy, un grupo limitado de desarrolladores y clientes empresariales pueden probarlo con una ventana contextual de hasta 1 millón de tokens a través de AI Studio y Vertex AI en vista previa privada.
A medida que implementamos la ventana de contexto completa de 1 millón de tokens, estamos trabajando activamente en optimizaciones para mejorar la latencia, reducir los requisitos computacionales y mejorar la experiencia del usuario. Estamos entusiasmados de que la gente pruebe esta innovadora capacidad y compartamos más detalles sobre la disponibilidad futura a continuación.
Estos avances continuos en nuestros modelos de próxima generación abrirán nuevas posibilidades para que las personas, los desarrolladores y las empresas creen, descubran y construyan utilizando la IA.
Arquitectura altamente eficiente
Gemini 1.5 se basa en nuestra investigación líder sobre arquitectura Transformer y MoE . Mientras que un Transformer tradicional funciona como una gran red neuronal, los modelos MoE se dividen en redes neuronales "expertas" más pequeñas.
Dependiendo del tipo de información proporcionada, los modelos MoE aprenden a activar selectivamente sólo las vías expertas más relevantes en su red neuronal. Esta especialización mejora enormemente la eficiencia del modelo. Google ha sido uno de los primeros en adoptar y pionero de la técnica MoE para el aprendizaje profundo a través de investigaciones como Sparsely-Gated MoE , GShard-Transformer , Switch-Transformer, M4 y muchos más.
Nuestras últimas innovaciones en arquitectura de modelos permiten a Gemini 1.5 aprender tareas complejas más rápidamente y mantener la calidad, al mismo tiempo que es más eficiente para capacitar y prestar servicios. Estas eficiencias están ayudando a nuestros equipos a iterar, entrenar y entregar versiones más avanzadas de Gemini más rápido que nunca, y estamos trabajando en mayores optimizaciones.
Mayor contexto, capacidades más útiles
La “ventana contextual” de un modelo de IA está formada por tokens, que son los componentes básicos utilizados para procesar la información. Los tokens pueden ser partes enteras o subsecciones de palabras, imágenes, vídeos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil.
A través de una serie de innovaciones de aprendizaje automático, hemos aumentado la capacidad de la ventana de contexto de 1.5 Pro mucho más allá de los 32,000 tokens originales de Gemini 1.0. Ahora podemos ejecutar hasta 1 millón de tokens en producción.
Esto significa que 1.5 Pro puede procesar grandes cantidades de información de una sola vez, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras. En nuestra investigación, también probamos con éxito hasta 10 millones de tokens.
Razonamiento complejo sobre grandes cantidades de información.
1.5 Pro puede analizar, clasificar y resumir sin problemas grandes cantidades de contenido dentro de un mensaje determinado. Por ejemplo, cuando se le dan las transcripciones de 402 páginas de la misión del Apolo 11 a la luna, puede razonar sobre conversaciones, eventos, imágenes y detalles que se encuentran en el documento.
Mejor comprensión y razonamiento entre modalidades.
1.5 Pro puede realizar tareas de comprensión y razonamiento altamente sofisticadas para diferentes modalidades, incluido el vídeo. Por ejemplo, cuando se les presenta una película muda de Buster Keaton de 44 minutos, el modelo puede analizar con precisión varios puntos y eventos de la trama, e incluso razonar sobre pequeños detalles de la película que fácilmente podrían pasarse por alto.
Resolución de problemas relevantes con bloques de código más largos
1.5 Pro puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos. Cuando se le presenta un mensaje con más de 100,000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código.
Rendimiento mejorado
Cuando se probó en un panel completo de evaluaciones de texto, código, imagen, audio y video, 1.5 Pro supera a 1.0 Pro en el 87% de los puntos de referencia utilizados para desarrollar nuestros modelos de lenguajes grandes (LLM). Y en comparación con el 1.0 Ultra en los mismos puntos de referencia, su rendimiento es muy similar.
Gemini 1.5 Pro mantiene altos niveles de rendimiento incluso cuando aumenta su ventana de contexto. En la evaluación Needle In A Haystack (NIAH), donde un pequeño fragmento de texto que contiene un hecho o declaración particular se coloca intencionalmente dentro de un largo bloque de texto, 1.5 Pro encontró el texto incrustado el 99% de las veces, en bloques de datos como hasta 1 millón de tokens.
Gemini 1.5 Pro también muestra impresionantes habilidades de “aprendizaje en contexto”, lo que significa que puede aprender una nueva habilidad a partir de información proporcionada en un mensaje largo, sin necesidad de ajustes adicionales. Probamos esta habilidad en el punto de referencia de traducción automática de One Book (MTOB), que muestra qué tan bien el modelo aprende de información que nunca antes había visto. Cuando se le da un manual de gramática de Kalamang , un idioma con menos de 200 hablantes en todo el mundo, el modelo aprende a traducir inglés a Kalamang a un nivel similar al de una persona que aprende con el mismo contenido.
Como la ventana de contexto larga de 1.5 Pro es la primera de su tipo entre los modelos a gran escala, estamos desarrollando continuamente nuevas evaluaciones y puntos de referencia para probar sus novedosas capacidades.
Para obtener más detalles, consulte nuestro informe técnico Gemini 1.5 Pro .
Extensas pruebas de ética y seguridad
De acuerdo con nuestros principios de IA y nuestras sólidas políticas de seguridad, nos aseguramos de que nuestros modelos se sometan a exhaustivas pruebas de ética y seguridad. Luego integramos estos aprendizajes de la investigación en nuestros procesos de gobernanza y desarrollo y evaluación de modelos para mejorar continuamente nuestros sistemas de IA.
Desde que presentamos 1.0 Ultra en diciembre, nuestros equipos han seguido perfeccionando el modelo, haciéndolo más seguro para un lanzamiento más amplio. También llevamos a cabo investigaciones novedosas sobre riesgos de seguridad y desarrollamos técnicas de formación de equipos rojos para evaluar una variedad de daños potenciales.
Antes del lanzamiento de 1.5 Pro, hemos adoptado el mismo enfoque de implementación responsable que adoptamos para nuestros modelos Gemini 1.0, realizando evaluaciones exhaustivas en áreas que incluyen la seguridad del contenido y los daños a la representación, y continuaremos ampliando estas pruebas. Más allá de esto, estamos desarrollando más pruebas que tengan en cuenta las novedosas capacidades de contexto largo de 1.5 Pro.
Construye y experimenta con modelos Gemini.
Estamos comprometidos a llevar cada nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas de todo el mundo de manera responsable.
A partir de hoy, ofrecemos acesso limitado a Gemini 1.5 Pro para desarrolladores y clientes empresariales a través de AI Studio y Vertex AI . Lea más sobre esto en nuestro blog de Google para desarrolladores y en el blog de Google Cloud .
También presentaremos 1.5 Pro con una ventana de contexto estándar de 128,000 tokens cuando el modelo esté listo para un lanzamiento más amplio. Próximamente, planeamos introducir niveles de precios que comienzan en la ventana de contexto estándar de 128,000 y escale hasta 1 millón de tokens, a medida que mejoremos el modelo.
Los primeros evaluadores pueden probar la ventana de contexto de 1 millón de tokens sin costo durante el período de prueba, aunque deberían esperar tiempos de latencia más largos con esta característica experimental. También se vislumbran mejoras significativas en la velocidad.
Los desarrolladores interesados en probar 1.5 Pro pueden registrarse ahora en AI Studio, mientras que los clientes empresariales pueden comunicarse con su equipo de cuentas de Vertex AI.