Neue generative Modelle und Tools – erstellt mit und für Creator
In den vergangenen Jahren haben wir unglaubliche Fortschritte bei der Verbesserung der Qualität unserer generativen Medientechnologien gemacht. Dabei haben wir eng mit der Creator Community zusammengearbeitet, um herauszufinden, wie deren kreativer Prozess sich am besten mit künstlicher Intelligenz unterstützen lässt und wie unsere KI-Tools in jeder Phase sinnvoll unterstützen können.
Heute präsentieren wir Veo, unser fortschrittlichstes Modell für die Erstellung von Videos sowie Imagen 3, unser aktuell hochwertigstes Text-zu-Bild-Generierungsmodell.
Wir stellen auch Werke aus der jüngsten Zusammenarbeit mit dem Künstler Donald Glover und seinem Kreativstudio Gilga vor – sowie neue Demoaufnahmen, die von den Künstlern Wyclef Jean, Marc Rebillet und Songwriter Justin Tranter, mit Hilfe der Music AI-Sandbox entstanden sind.
Veo: unser leistungsstärkstes Modell für die Generierung von Videos
Veo generiert hochwertige Videos mit einer Auflösung von 1080p und bietet zahlreiche filmische und visuelle Stilelemente.
Dank Fortschritten beim Verständnis der menschlichen Sprache sowie visueller Semantik kann Veo Prompts in ein Video verwandeln, welches der kreativen Vision der Nutzerin oder des Nutzers sehr nahe kommt. Dabei versteht Veo nicht nur den Prompt, sondern kann auch Details aus längeren Prompts wiedergeben sowie den Ton der Eingabe treffen.
Das Modell versteht zudem filmische Begriffe wie Zeitraffer oder Landschaftsaufnahmen aus der Luft, was ganz neue Möglichkeiten für die kreative Steuerung eröffnet. So entsteht Bildmaterial, das einheitlich und kohärent ist: Menschen, Tiere und Objekte bewegen sich realistisch in den Aufnahmen.
Um herauszufinden, wie Veo den kreativen Prozess am besten unterstützen kann, haben wir eine Reihe von Filmschaffenden und Creators eingeladen, um mit dem Modell zu experimentieren. So konnten wir das Design unserer Technologien, ihre Entwicklung und Bereitstellung verbessern und sicherstellen, dass Creator im Entwicklungsprozess involviert und gehört werden.
Hier ist eine Vorschau auf unsere Arbeit mit Filmemacher Donald Glover und seinem Kreativstudio Gilga, die Veo für ein Filmprojekt ausprobiert haben.
Veo baut auf Jahren der Arbeit mit Modellen für die Generierung von Videos auf, wie zum Beispiel Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere — wobei Latenz und Ausgabeauflösung durch die Abstimmung von Architektur, Skalierungsregeln und anderen modernen Techniken verbessert wurden.
Mit Veo haben wir die Techniken verbessert, über die das Modell versteht, was im Video passiert, wie Bild und Ton in HD gerendert werden, wie die physischen Kräfte unserer Welt simuliert werden können und vieles mehr. Diese Erkenntnisse werden unserer KI-Forschung zugutekommen und werden uns ermöglichen, noch nützlichere Produkte zu entwickeln, die Menschen dabei unterstützen, neue Wege der Kommunikation und Interaktion zu gehen.
Ab heute ist Veo als private Vorschau über VideoFX verfügbar. In Zukunft werden wir einige der Fähigkeiten von Veo auch für YouTube Shorts und andere Produkte bereitstellen.
Erfahrt mehr über Veos Funktionen.
Imagen 3: unser hochwertiges Modell für die Generierung von Bildern
Im vergangenen Jahr haben wir unglaubliche Fortschritte bei der Verbesserung der Qualität und Detailtreue unserer Modelle und Tools für die Generierung von Bildern gemacht.
Imagen 3 ist bis dato unser hochwertigstes Text-zu-Bild-Modell. Es erstellt unglaublich detaillierte Bilder, die so lebensecht und realistisch wie Fotos wirken, mit wesentlich weniger ablenkenden visuellen Artefakten als bei vorherigen Modellen.
Imagen 3 versteht die menschliche Sprache besser und damit die Absicht hinter euren Prompts. Das fortschrittliche Verständnisfähigkeiten des Modells hilft ihm dabei, eine Reihe von Stilen zu beherrschen und Details aus längeren Prompts zu berücksichtigen.
Es ist auch unser bis dato bestes Modell für das Rendern von Text, was für derartige Modelle zuvor immer eine Herausforderung war. Dies eröffnet etwa neue Möglichkeiten für personalisierte Geburtstagsbotschaften oder Titel von Präsentationsfolien, um nur ein paar Beispiele zu nennen.
Ab heute ist Imagen 3 für ausgewählte Creator als private Vorschau innerhalb ImageFX verfügbar und auch ihr könnt euch auf die Warteliste setzen lassen, denn es ist bald bei Vertex AI.
Erfahrt mehr über die Fähigkeiten von Imagen 3.
KI-Tools für Musik: unsere Zusammenarbeit mit der Musik-Community
Als Teil unserer fortlaufenden Bemühungen, die Bedeutung von künstlicher Intelligenz für Kunst und Musik besser zu verstehen, arbeiten wir mit einigen ausgezeichneten Musiker*innen, Songwritern und Produzent*innen zusammen. Dies erfolgt im Rahmen einer Partnerschaft mit YouTube.
Auch die Entwicklung unserer Technologien für die Generierung von Musik wurde durch diese Zusammenarbeit beeinflusst. Ein Beispiel ist Lyria, unsere fortschrittlichste Modellfamilie für die Generierung von Musik mithilfe von künstlicher Intelligenz.
Als Teil dieser Arbeit haben wir eine Reihe von KI-Tools für Musik entwickelt – die Music AI-Sandbox. Diese Tools sollen Creators eine ganz neue Spielwiese für Kreativität bieten, die ihnen erlaubt, von Grund auf neue instrumentale Einlagen zu kreieren, Töne in neue Richtungen zu transformieren und vieles mehr.
Heute setzen wir unsere Musikexperimente fort: mit dem Grammy-Gewinner Wyclef Jean, dem Elektromusiker Marc Rebillet und dem Grammy-nominierten Songwriter Justin Tranter. Alle waren Teilnehmer am Inkubator und haben auf ihren YouTube-Kanälen neue Demoaufnahmen veröffentlicht, die mithilfe unserer KI-Tools für Musik entstanden sind.
Verantwortung bei Design, Entwicklung und Bereitstellung
Wir sind uns dessen bewusst, dass wir nicht nur an Fortschritt, sondern auch an die damit verbundene Verantwortung denken müssen. Deshalb ergreifen wir Maßnahmen, um die Herausforderungen zu meistern, die mit der künstlichen Intelligenz einhergehen. Menschen und Unternehmen sollten in der Lage sein, verantwortungsbewusst mit KI-generierten Inhalten umzugehen.
Bei der Entwicklung all dieser Technologien haben wir mit der Kreativ-Community und weiteren Interessenten zusammengearbeitet. Wir haben Erkenntnisse und Feedback gesammelt und damit die Sicherheit unserer Technologien verbessert und ihren verantwortungsbewussten Einsatz gestärkt.
Wir haben Sicherheitstests durchgeführt, Filter eingesetzt, Regeln aufgestellt und unsere Sicherheitsteams in den Mittelpunkt unserer Entwicklungsarbeit gestellt. So entstanden wegweisende Tools wie SynthID, das unsichtbare digitale Wasserzeichen auf Bildern, in Audioaufnahmen sowie in Text und Video einbettet, die mithilfe von künstlicher Intelligenz erstellt wurden. Ab heute werden alle Videos, die von Veo in VideoFX generiert wurden, durch SynthID mit einem Wasserzeichen versehen.
Das kreative Potenzial von generativer KI ist immens. Wir freuen uns darauf zu erleben, wie Menschen auf der ganzen Welt mit unseren neuen Modellen und Tools ihre Ideen zum Leben erwecken.