Transformando Vertex AI en la plataforma de AI generativa mas preparada para la

Jun 27, 2024

Amin Vahdat

VP/GM, ML, Systems & Cloud AI

Ha sido sorprendente ver las cosas impresionantes que los clientes están haciendo con la IA generativa y los agentes. Hace menos de tres meses, compartimos 101 casos de uso de IA generativa de las principales organizaciones del mundo. Desde entonces, para que las empresas puedan desplegar con mayor rapidez agentes de IA atractivos, Google DeepMind ha seguido trabajando en ser pionero en avances de modelos de lenguaje, en particular con Gemini e Imagen, y ha proporcionado docenas de funciones innovadoras en nuestra plataforma de IA empresarial, Vertex AI.

Los clientes están haciendo grandes cosas con IA generativa, como UberEats, Ipsos, Jasper, Shutterstock, Quora y muchas otras organizaciones están acelerando el hacer realidad sus casos de uso de IA generativa con Google Cloud.

Por ejemplo, antes de Gemini 1.5 Pro, era imposible llevar a cabo la mayoría de los casos de uso multimodal, como enviar un vídeo y simplemente hacer preguntas al respecto. Pero desde su lanzamiento, hemos visto ejemplos innovadores de clientes que conversan con sus datos, como:

Un minorista de comida rápida está utilizando Gemini para analizar secuencias de video de sus tiendas para identificar los períodos de mayor tráfico y optimizar los diseños de las tiendas para mejorar la experiencia del cliente. El minorista también planea combinar este análisis de video con datos de ventas para comprender mejor los factores que impulsan un servicio eficiente y exitoso.

Una institución financiera está procesando imágenes escaneadas de identificación con formularios de datos enviados, aprovechando la multimodalidad de Gemini para procesar automáticamente (y rápidamente) imágenes y texto con el objetivo de comparar la información para mayor precisión y ayudar a los clientes a abrir y acceder a cuentas de manera más conveniente.

Una empresa de deportes está aprovechando Gemini para analizar el swing de un jugador. Al superponer los conocimientos de Gemini a su aplicación existente, el análisis de la IA mejora la funcionalidad de su herramienta de análisis de swing.

Ahora, las compañías de seguros pueden analizar las grabaciones de las cámaras de los accidentes con Gemini para comprender y describir mejor los escenarios. Este análisis puede ayudar a calcular puntuaciones de riesgo e incluso proporcionar consejos de conducción personalizados basados en los comportamientos observados.

Una empresa de servicios de publicidad y marketing está revolucionando las soluciones de descripción de videos mediante el desarrollo de capacidades de transmisión en tiempo real tanto para descripción como para narración. Esta innovación agiliza la creación de videos, aumenta la eficiencia y permite contenido personalizado.

Y eso es solo analizando de manera multimodal con ventanas de contexto largo: Gemini es igualmente poderoso con bases de código, documentos largos con imágenes embebidas, entrevistas de audio, y mucho más.

Además de la recepción por parte de los clientes, ha sido alentador ver que los analistas de la industria nos reconocen. Por ejemplo, solo en los últimos dos meses, Forrester Research nombró a Google líder en The Forrester Wave™: AI Foundation Models for Language, Q2 2024 y Gartner ® nombró a Google líder en el Magic Quadrant™ 2024 para servicios de desarrolladores de IA en la ¹ y el Magic Quadrant™ 2024 para plataformas de ciencia de datos y aprendizaje ² .

Hoy, para acelerar este impulso, anunciamos avances significativos en modelos y capacidades de plataformas empresariales con Vertex AI.

Empecemos por los modelos.

Gemini 1.5 Flash : Líderes en el mercado en la relación costo-beneficio y baja latencia

Anunciado el mes pasado en public preview y ahora disponible de forma generalizada, Gemini 1.5 Flash combina baja latencia, precios competitivos y nuestra innovadora ventana de contexto de 1 millón de tokens, lo que lo convierte en una excelente opción para una amplia variedad de casos de uso escalables, desde agentes conversacionales para minoristas, procesamiento de documentos a agentes de investigación que puedan sintetizar repositorios completos.

Lo más importante de todo es que las potentes capacidades, la baja latencia y la rentabilidad de Gemini 1.5 Flash se han convertido rápidamente en los favoritos de nuestros clientes, ofreciendo muchas ventajas de peso sobre modelos comparables como GPT 3.5 Turbo:

Ventana de contexto de 1 millón de tokens , que es aproximadamente 60 veces más grande que la ventana contextual proporcionada por GPT-3.5 Turbo.
En promedio, es un 40% más rápido que GPT-3.5 Turbo cuando se ingresan 10 mil ³ .
Precio de entrada hasta 4 veces menor que GPT-3.5 Turbo, con almacenamiento en caché de contexto habilitado para entradas de más de 32 mil caracteres.

"En UberEats, estamos reinventando activamente la forma en que las personas obtienen las cosas que quieren y necesitan", dijo Narendran Thangarajan, ingeniero de software de Uber. "Como resultado, creamos el asistente de inteligencia artificial de Uber Eats que permite a nuestros usuarios aprender, idear, descubrir y comprar cosas en nuestro catálogo sin problemas a través de conversaciones en lenguaje natural. Con Gemini 1.5 Flash, estamos viendo tiempos de respuesta casi un 50% más rápidos, lo que es fundamental para la experiencia general de los clientes. Estamos interesados en saber el impacto que tendrá el modelo en la eficiencia y la satisfacción del cliente y las nuevas oportunidades que se abrirán con ventanas de contexto multimodales y más largas”.

"Gemini 1.5 Flash nos facilita seguir con nuestra fase de ampliación de aplicación de IA generativa en tareas de gran volumen, sin tener que sacrificar la calidad de la salida, o la ventana de contexto, incluso para casos de uso multimodal", afirmó JC. Escalante, director global de IA generativa de la firma de investigación de mercado Ipsos. "Gemini Flash crea oportunidades para gestionar mejor el retorno de la inversión".

“Como una empresa que prioriza la IA y se enfoca en capacitar a los equipos de marketing empresarial para que realicen el trabajo más rápido, es imperativo que utilicemos modelos multimodales de alta calidad que sean rentables y rápidos, para que nuestros clientes puedan crear contenido sorprendente, rápida y sencilla y reinventar los activos existentes”, dijo Suhail Nimji, director de estrategia de Jasper.ai. "Con Gemini 1.5 Pro y ahora 1.5 Flash, seguiremos elevando el nivel de generación de contenido, garantizando el cumplimiento de las pautas de marketing y voz de la marca, mejorando al mismo tiempo la productividad en el proceso".

Las empresas y los desarrolladores pueden hacer clic aquí para iniciarse con Gemini 1.5 Flash en Vertex AI.

Gemini 1.5 Pro: Liderando para ventanas de contexto de 2 millones de tokens

Ahora disponible con una ventana contextual líder en la industria de hasta 2 millones de tokens, Gemini 1.5 Pro está equipado para desbloquear casos de uso multimodal únicos y que ningún otro modelo puede manejar.

Tan sólo procesar seis minutos de video requiere más de 100 mil tokens y las bases de código grandes pueden superar un millón de tokens, ya sea que el caso de uso implique encontrar errores en innumerables líneas de código, localizar la información correcta en bibliotecas de investigación o analizar horas de audio o video, la ventana contextual ampliada de Gemini 1.5 Pro está ayudando a las organizaciones a abrir nuevos caminos.

Las empresas y los desarrolladores pueden hacer clic aquí para comenzar ahora con Gemini 1.5 Pro con capacidades de contexto de 2 millones de tokens.

Imagen 3 : Generación de imágenes más rápida, comprensión superior

Imagen 3 es el último modelo básico de generación de imágenes de Google. Ofrece una calidad de imagen excepcional junto con varias mejoras con respecto a Imagen 2, incluida una generación de prototipos e iteraciones un 40% más rápida, , una mejor comprensión y seguimiento de instrucciones, generaciones fotorrealistas de grupos de personas y un mayor control sobre la representación del texto dentro de una imagen.

Imagen 3, que se lanza en versión preliminar para los clientes de Vertex AI con acceso temprano, también incluye soporte en varios idiomas, funciones de seguridad integradas como la marca de agua digital SynthID de Google DeepMind y soporte para múltiples relaciones de aspecto.

"Los primeros resultados de los modelos Imagen 3 nos sorprendieron gratamente con su calidad y velocidad en nuestras pruebas", dijo Gaurav Sharma, jefe de investigación de IA de Typeface, una startup que se especializa en aprovechar la IA generativa para la creación de contenido empresarial. “Aporta mejoras en la generación de detalles, así como imágenes del estilo de vida de los humanos. Como primeros socios de los modelos fundamentales de Google, esperamos explorar más a fondo los nuevos modelos Imagen y Gemini en el viaje que tenemos por delante juntos”.

“Facilitamos a nuestros usuarios convertir sus ideas en presentaciones, sitios web y otros documentos visuales llamativos generados con el poder de la IA. Para permitir una personalización y creatividad aún mayores y al mismo tiempo reducir las tareas manuales, ofrecemos las capacidades de conversión de texto a imagen de alta calidad de Imagen”, dijo Jon Noronha, cofundador de Gamma. "Nuestros usuarios ya han generado más de 4 millones de imágenes con Imagen y estamos entusiasmados de cómo Imagen 3 les permitirá crear imágenes aún más rápido, incluir texto en las imágenes y mejorar de forma segura la generación de imágenes fotorrealistas con personas".

“Desde que agregamos Imagen a nuestro generador de imágenes de IA, nuestros usuarios han generado millones de imágenes con el modelo. Estamos entusiasmados con las mejoras que promete Imagen 3, ya que permite a nuestros usuarios ejecutar sus ideas más rápido sin sacrificar la calidad. Como mejora importante al lanzamiento por parte de Shutterstock del primer generador de imágenes de IA de origen ético, apreciamos cómo se incorpora la seguridad, y que el contenido que se crea está protegido bajo la indemnización de Google Cloud para la IA generativa”, dijo Justin Hiza, vicepresidente de Servicios de Datos, Shutterstock.

Los clientes pueden hacer clic aquí para solicitar acceso a Imagen 3 en Vertex AI.

Modelos abiertos y de terceros: Ofreciendo una mayor variedad de modelos con Vertex AI

En Google Cloud, estamos comprometidos a potenciar la elección y la innovación de los clientes a través de nuestra colección seleccionada de modelos propios, abiertos y de terceros disponibles en Vertex AI. Es por eso que estamos encantados de haber agregado recientemente el modelo recién lanzado de Anthropic, Claude 3.5 Sonnet , a Vertex AI. Los clientes pueden comenzar a experimentar o implementar en producción Claude 3.5 Sonnet en Google Cloud desde ahora. A finales de este verano, profundizaremos nuestra asociación con Mistral con la incorporación de Mistral Small, Mistral Large y Mistral Codestral para Vertex AI Model Garden.

Continuando con nuestro esfuerzo por llegar a los clientes en el lugar que estén, a principios de este año presentamos Gemma, una familia de modelos abiertos y livianos de última generación construidos a partir de la misma investigación y tecnología utilizadas para crear los modelos Gemini. Lanzaremos oficialmente Gemma 2 a investigadores y desarrolladores de todo el mundo. Disponible en tamaños de parámetros de 9 mil millones (9B) y 27 mil millones (27B), Gemma 2 es mucho más potente y eficiente que la primera generación, con importantes avances de seguridad incorporados. A partir del próximo mes, los clientes podrán acceder a Gemma 2 en Vertex AI. Comenzando el mes próximo, nuestros clientes podrán acceder a Gemma 2 en Vertex AI.

Costos más bajos: Almacenamiento en caché de contexto para Gemini 1.5 Pro y Flash

Para ayudar a nuestros clientes a aprovechar de manera eficiente las amplias ventanas de contexto de Gemini, a partir de hoy implementaremos el almacenamiento en caché de contexto, en public preview, tanto para 1.5 Pro como para Flash. A medida que aumenta la cantidad del contexto, puede resultar costoso y lento obtener respuestas para aplicaciones de contexto largo, lo que dificulta su implementación en producción. El almacenamiento en caché de contexto de Vertex AI ayuda a los clientes a reducir significativamente los costos de entrada, en un 75 por ciento, aprovechando los datos almacenados en el caché del contexto de uso frecuente. Hoy en día, Google es el único proveedor que ofrece API de almacenamiento en caché de contexto.

Rendimiento predecible: Rendimiento aprovisionado para modelos Gemini

Disponible de forma general hoy, con lista de acceso, el rendimiento aprovisionado permite a los clientes escalar de manera responsable su uso de los modelos propios de Google, como 1.5 Flash, brindando garantías tanto de capacidad como de precio. Esta característica de Vertex AI brinda previsibilidad y confiabilidad a las cargas de trabajo de producción de los clientes, brindándoles la seguridad necesaria para escalar agresivamente las cargas de trabajo de IA generativa.

Brindar verdad empresarial : Anclar con la ayuda de la Búsqueda de Google Search y, ahora, con datos de terceros

La preparación empresarial requiere más que el modelo. Las empresas necesitan maximizar la factualidad y minimizar drásticamente las alucinaciones, lo que significa basar la salida del modelo en datos y verdades web, propios y de terceros, al tiempo que cumplen con estrictos estándares de preparación empresarial, como la gobernanza y la soberanía de los datos.

En Google I/O, anunciamos la disponibilidad general de Grounding with Google Search en Vertex AI . Ahora que el servicio está disponible de forma generalizada, las empresas de todo tipo pueden aumentar los resultados de Gemini con la base de Google Search, brindando a los modelos acceso a información nueva y de alta calidad. Los clientes pueden integrar fácilmente los modelos Gemini mejorados en sus agentes de IA.

“Gemini 1.5 Flash crea oportunidades para gestionar mejor el retorno de la inversión (ROI) en el futuro. Con la capacidad de modelar respuestas en las Búsqueda de Google, podemos aumentar mejor la relevancia de los resultados de nuestra experiencia conversacional, Ipsos Facto, con datos nuevos”, dijo JC Escalante de Ipsos. "Esta capacidad es un componente clave en nuestros esfuerzos por mejorar la calidad de los resultados y la experiencia de los investigadores".

"La conexión con Google Search se traduce en respuestas más precisas, actualizadas y confiables", dijo Spencer Chan, líder de producto de Quora, que ofrece Grounding con Google Search en su plataforma Poe. "Estamos encantados con los comentarios positivos hasta ahora, ya que los usuarios ahora pueden interactuar con agentes Gemini con aún mayor confianza".

Los clientes pueden hacer clic aquí para comenzar a utilizar grounding con la Búsqueda de Google

Además, hoy anunciamos que a partir del próximo trimestre, Vertex AI ofrecerá un nuevo servicio que permitirá a los clientes conectar sus agentes de IA con datos especializados de terceros. Esto ayudará a las empresas a integrar datos de terceros en sus agentes de IA generativa para desbloquear casos de uso únicos e impulsar una mayor veracidad empresarial en sus experiencias de IA. Estamos trabajando con proveedores de primer nivel como Moody's, MSCI, Thomson Reuters y Zoominfo para llevar sus datos a este servicio.

"Las ofertas de grounding de datos de terceros de Google Cloud abrirán nuevas aplicaciones para KPMG y nuestros clientes", dijo Brad Brown, CTO Legal y Fiscal Global de KPMG. "Al integrar perfectamente datos especializados de terceros de líderes de la industria en nuestras ofertas de IA generativa, podemos reducir el tiempo para obtener información, impulsar una toma de decisiones más informada y, en última instancia, ofrecer mayor valor utilizando fuentes de datos altamente confiables".

Más respuestas objetivas: Modo grounding con alta fidelidad

En industrias con uso intensivo de datos, como los servicios financieros, la salud y los seguros, los casos de uso de IA generativa a menudo requieren que la respuesta generada provenga únicamente del contexto proporcionado, no del conocimiento mundial del modelo. Grounding con alta fidelidad , anunciado en una vista previa experimental, está diseñado específicamente para respaldar dichos casos de uso de grounding, incluido el resumen en múltiples documentos, la extracción de datos contra un conjunto de datos financieros o el procesamiento en un conjunto predefinido de documentos. El modo de alta fidelidad funciona con una versión de Gemini 1.5 Flash que ha sido ajustada para utilizar únicamente contenido proporcionado por el cliente para generar respuestas y garantiza altos niveles de factibilidad en la respuesta.

Mejores opciones para la soberanía de los datos: Residencia de datos para datos almacenados en reposo y procesamiento de ML limitado a la región

Los clientes, especialmente aquellos de industrias reguladas, exigen control sobre dónde se almacenan y procesan sus datos cuando utilizan capacidades de IA generativa. Para cumplir con estos requisitos de soberanía de datos , tenemos garantías de residencia de datos almacenados en reposo en 23 países (de los cuales 13 se agregaron en 2024: España, Italia, Israel, Suiza, Polonia, Finlandia, Brasil, India, Taiwán, Hong Kong, Australia, KSA , Qatar.), con garantías adicionales para limitar el procesamiento de ML relacionado a los EE. UU. y la UE. También estamos trabajando para ampliar nuestros compromisos de procesamiento de lavado de dinero a ocho países más, comenzando con cuatro países en 2024.

Comience hoy con Vertex AI

Como lo demuestran las historias de clientes que hemos compartido hoy, Vertex AI ayuda a las empresas a convertir el poder de la IA generativa en resultados tangibles y transformadores. Esperamos seguir ofreciendo innovaciones como Gemini 1.5 Flash y Grounding with Google Search a nuestros clientes, y hacer de Vertex AI la plataforma de IA generativa más preparada para empresas.

Para obtener más información sobre cómo Vertex AI puede ayudar a su organización, haga clic aquí y para obtener más información sobre cómo los clientes de Google Cloud están innovando con IA generativa, lea Cómo 7 empresas están poniendo en práctica las innovaciones de IA de Google Cloud .

Publicado en:

Gartner, Cuadrante Mágico de Servicios para Desarrolladores de IA en la Nube, Jim Scheibmeir, Arun Batchu, Mike Fang - 29 de abril de 2024. GARTNER es una marca comercial registrada y una marca de servicio de Gartner, Inc. y/o sus afiliados en los EE. UU. e internacionalmente, y MAGIC QUADRANT es una marca registrada de Gartner Inc. y/o sus afiliados y se utilizan en este documento con permiso. Reservados todos los derechos. Gartner no respalda a ningún proveedor, producto o servicio descrito en sus publicaciones de investigación y no recomienda a los usuarios de tecnología que seleccionen sólo aquellos proveedores con las calificaciones más altas u otra designación. Las publicaciones de investigación de Gartner consisten en opiniones de la organización de investigación de Gartner y no deben interpretarse como declaraciones de hechos. Gartner renuncia a todas las garantías, expresas o implícitas, con respecto a esta investigación, incluidas las garantías de comerciabilidad o idoneidad para un propósito particular.

Gartner, Cuadrante Mágico de Gartner para plataformas de ciencia de datos y aprendizaje automático, Afraz Jaffri, Aura Popa, Peter Krensky, Jim Hare, Raghvender Bhati, Maryam Hassanlou y Tong Zhang - 17 de junio de 2024. GARTNER es una marca comercial registrada y una marca de servicio de Gartner, Inc. y/o sus afiliados en los EE. UU. e internacionalmente, y MAGIC QUADRANT es una marca registrada de Gartner Inc. y/o sus afiliados y se utilizan en este documento con permiso. Reservados todos los derechos. Gartner no respalda a ningún proveedor, producto o servicio descrito en sus publicaciones de investigación y no recomienda a los usuarios de tecnología que seleccionen sólo aquellos proveedores con las calificaciones más altas u otra designación. Las publicaciones de investigación de Gartner consisten en opiniones de la organización de investigación de Gartner y no deben interpretarse como declaraciones de hechos. Gartner renuncia a todas las garantías, expresas o implícitas, con respecto a esta investigación, incluidas las garantías de comerciabilidad o idoneidad para un propósito particular.

Según el estudio publicado por el equipo de Gemini el 14 de junio de 2024 Gemini 1.5: Desbloquear la comprensión multimodal a través de millones de tokens de contexto