Nuevos modelos y herramientas generativos creados por y para creadores

14, May, 2024

Presentamos Veo, nuestro modelo más eficaz hasta el momento para generar vídeo de alta definición, e Imagen 3, nuestro modelo de texto a imagen de mayor calidad hasta el momento para generar imágenes. También compartimos nuevas grabaciones de demostración con nuestro Music IA Sandbox.

Douglas Eck

Senior Research Director

Eli Collins

VP, Product Management

Imagen que muestra a un fabricante de vestuario trabajando en su estudio, con las palabras "Da vida a las ideas creativas" escritas sobre la imagen.

En el último año hemos hecho grandes avances para mejorar la calidad de nuestras tecnologías multimedia generativas. Hemos colaborado estrechamente con la comunidad creativa para explorar cómo la IA generativa puede ayudar en el proceso creativo y para asegurarnos de que nuestras herramientas de IA son lo más útiles posible en cada etapa.

Hoy hemos presentado Veo, nuestro modelo de generación de vídeo más eficaz, e Imagen 3, nuestro modelo de texto a generación de imágenes de mayor calidad hasta el momento.

También mostramos algunas de nuestras colaboraciones recientes con el artista Donald Glover y su estudio creativo, Gilga, y nuevas demos grabadas por Wyclef Jean, Marc Rebillet y el compositor Justin Tranter con la ayuda de nuestro Music AI Sandbox.

Veo: nuestro modelo de generación de vídeo más eficaz

Veo es nuestro modelo de generación de vídeo más eficaz hasta el momento y puede generar vídeos de alta calidad con una resolución de 1080p que pueden ser de más de un minuto, con una gran diversidad de estilos visuales y cinematográficos.

Veo tiene un análisis avanzado del lenguaje natural y la semántica visual, y puede convertir peticiones en vídeos que representen la visión creativa del usuario, renderizando con exactitud detalles en peticiones largas y captando bien el tono.

El modelo responde con precisión a peticiones de términos cinematográficos como timelapse o tomas aéreas de paisajes, proporcionando un nivel sin precedentes de control creativo. Crea imágenes consistentes y coherentes: personas, animales y objetos se mueven de manera realista a través de las tomas.

Para descubrir cómo Veo puede ayudar en el proceso creativo de los usuarios, hemos invitado a diversos cineastas y creadores a experimentar con él. Además, estas colaboraciones nos permiten mejorar cómo diseñamos, creamos y desplegamos nuestras tecnologías para asegurarnos de que los creadores tengan voz en cómo se desarrollan.

Aquí encontrarás un avance de nuestro trabajo con el creador de películas Donald Glover y su estudio creativo, Gilga, que ha probado Veo para un proyecto cinematográfico.

Veo se cimenta en años de trabajo con vídeo generativo, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, que combinan arquitectura, normas de escalado y otras técnicas novedosas para mejorar la latencia y la resolución del vídeo generado.

Con Veo, hemos mejorado las técnicas con las que el modelo aprende a analizar los contenidos de un vídeo, renderizar imagen y sonido de alta definición o emular el comportamiento físico de nuestro mundo, entre otras cosas de las que es capaz. Estos aprendizajes permitirán avances en nuestra investigación en IA y nos permitirá crear productos aún más útiles para que la gente interactúe y se comunique de formas nuevas y diferentes.

A partir de hoy, Veo está disponible en una versión preliminar privada a través de VideoFX. En el futuro, también llevaremos algunas de sus capacidades a YouTube Shorts y otros productos.

Descubre más información sobre las capacidades de Veo.

Imagen 3: nuestro modelo de mayor calidad de generación de imágenes

En el último año hemos progresado de un modo impresionante para mejorar la calidad y la exactitud de nuestros modelos y herramientas de generación de imágenes.

Imagen 3 es nuestro modelo de mayor calidad hasta el momento para generar imágenes a partir de texto. Genera un nivel de detalle increíble para producir imágenes fotorrealistas vívidas con muchos menos artefactos visuales que en nuestros modelos anteriores.

Un retrato en primer plano de un lobo gris con intensos ojos amarillos. El lobo tiene un pelaje grueso, gris y marrón y una nariz negra. Está mirando directamente al espectador con una expresión tranquila pero alerta. El fondo es un cielo azul y gris borroso.

Una ardilla curiosa se asoma desde una bota de montaña embarrada, contra un fondo borroso de montañas.

Un ancho río serpentea a través de un profundo desfiladero tallado en una exuberante y verde cadena montañosa bajo un cielo azul claro. El río está tranquilo y refleja el paisaje circundante. El sol brilla intensamente, proyectando sombras en las laderas y resaltando las texturas de las rocas.

Imagen 3 entiende mejor el lenguaje natural y la intención de tu petición, además de tener en cuenta pequeños detalles de peticiones largas, lo que hace que domine diversos estilos.

También es nuestro mejor modelo para renderizar texto, lo cual ha sido todo un reto para los modelos de generación de imágenes. Esta capacidad abre las posibilidades de generar mensajes personalizados para felicitar un cumpleaños, titular diapositivas en una presentación y más.

Una foto de un hombre negro con pelo corto y barba sonriendo. Al fondo hay árboles y edificios borrosos.

Un boceto al carboncillo de una bailarina capturándola en medio de un movimiento dinámico. El boceto está realizado sobre papel pergamino envejecido.

La mano de una persona mientras sostiene una pequeña figura de arcilla de un pájaro en una mano y la esculpe con una herramienta de modelado en la otra. Sus manos están cubiertas de polvo de arcilla. El escultor viste una chaqueta polar gris y una bufanda marrón y burdeos.

Un robot de madera cubierto de musgo se encuentra en un campo de flores silvestres y le tiende la mano a un pequeño pájaro azul posado sobre él. Una cascada cae por un acantilado al fondo.

Un pequeño elefante de juguete gris de ganchillo se encuentra en un camino de tierra en un campo de hierba. El elefante tiene colmillos y uñas de los pies blancos y ojos negros. El fondo es un borrón de follaje verde y marrón, con el sol poniéndose a lo lejos.

A partir de hoy, Imagen 3 está disponible para creadores seleccionados como una vista previa privada dentro ImageFX, en la que puedes registrarte para unirte a la lista de espera, y pronto llegará a Vertex AI.

La entrada a un gran edificio de piedra con las palabras "Biblioteca Central" grabadas encima de la entrada. El portal está enmarcado por dos columnas y presenta un conjunto de grandes puertas de madera con cristales.

La palabra "luz" se formó a partir de plumas de colores dispuestas sobre un fondo negro.

Una ilustración en pixel art del transbordador espacial STS-1 lanzándose hacia un cielo azul, dejando un rastro de humo y llamas. El texto "STS-1" está en la parte inferior de la imagen.

Una escena realizada íntegramente en arcilla que representa a una anciana vestida con un top rojo vaporoso y una falda color topo. Ella camina por un sendero recto en un jardín, con plantas exuberantes creciendo a ambos lados del sendero. Ella sostiene una gran regadera de color naranja en su mano derecha y la usa para regar las plantas.

Más información sobre las capacidades de Imagen 3.

Nuestras colaboraciones con la comunidad musical

Como parte de nuestra constante exploración para entender mejor el papel de la IA en la creación artística y musical, trabajamos con músicos, compositores y productores, en colaboración con YouTube.

Estas colaboraciones también sirven de base para el desarrollo de nuestras tecnologías de música generativa, incluida Lyria, nuestra gama más avanzada de modelos para generar música con IA.

Como parte de este trabajo, hemos diseñado y creado una suite de herramientas de música llamada Music IA Sandbox. Estas herramientas están pensadas para que más personas puedan poner en práctica su creatividad, permitiéndoles crear nuevas piezas instrumentales desde cero, transformar el sonido de nuevas maneras y mucho más.

Actualmente, seguimos con esa experimentación musical con el galardonado con varios premios Grammy Wyclef Jean, el músico electrónico Marc Rebillet y el compositor Justin Tranter. Todos ellos participantes en un programa piloto con el que lanzaron en sus canales de YouTube nuevas demos creadas con ayuda de nuestras herramientas musicales de IA.

Responsabilidad a través del diseño, el desarrollo y el despliegue

Somos conscientes de la importancia de que la innovación se produzca de forma responsable. Por ese motivo, tomamos medidas para abordar los retos planteados por las tecnologías generativas y damos herramientas a las personas y a las organizaciones a trabajar de forma responsable con el contenido generado con IA.

En cada una de estas tecnologías, hemos colaborado con la comunidad creativa y la industria, teniendo en cuenta sus ideas y opiniones para ayudarnos a mejorar y desplegar nuestras tecnologías de un modo seguro y responsable.

Llevamos a cabo pruebas de seguridad, aplicamos filtros, establecemos límites y trabajamos con nuestros equipos de seguridad y responsabilidad del contenido en todas las etapas del desarrollo. Nuestros equipos también están innovando con herramientas pioneras, como SynthID, que puede integrar marcas de agua digitales imperceptibles en imágenes, sonidos, textos y vídeos [insert link to new SynthID blog] generados con IA. Y a partir de hoy, todos los vídeos generados por Veo en VideoFX tendrán una marca de agua de SynthID.

El potencial creativo de la IA generativa es inmenso y estamos deseando ver cómo se materializan las ideas de personas de todo el mundo gracias a nuestros modelos y herramientas.

Publicado en:

Nuevos modelos y herramientas generativos creados por y para creadores

Veo: nuestro modelo de generación de vídeo más eficaz

Imagen 3: nuestro modelo de mayor calidad de generación de imágenes

Nuestras colaboraciones con la comunidad musical

Responsabilidad a través del diseño, el desarrollo y el despliegue

Historias relacionadas