Werdet kreativ mit neuen generativen KI-Modellen und Tools

Wir stellen heute unsere neuesten generativen Medien-Modelle vor, die einen wichtigen Durchbruch für die Medienproduktion bedeuten. Diese Modelle erstellen faszinierende Bilder, Videos und Musik und versetzen Künstler*innen so in die Lage, ihren kreativen Visionen Gestalt zu verleihen. Sie bilden darüber hinaus die Grundlage für neuartige Tools, mit denen sich jede und jeder selbst ausdrücken kann.
Veo 3 und Imagen 4, unsere neuesten Modelle zum Generieren von Videos und Bildern, bieten Nutzer*innen in den USA neue Funktionen, die bei der Erstellung von Medien ganz neue Möglichkeiten eröffnen. Außerdem erweitern wir den Zugriff auf Lyria 2 und geben Musiker*innen so mehr Tools für das Kreieren von Musik an die Hand. Zudem können Nuzter*innen in den USA Flow ausprobieren, unser neues KI-Tool für die Filmproduktion. Flow greift auf führende Modelle von Google DeepMind zurück, mit denen ihr Kinofilmsequenzen erstellen könnt – und ihr profitiert dabei von einer noch detaillierteren Steuerung von Charakteren, Szenen und Stilen, um ihre Geschichten zum Leben zu erwecken.
Bei der Entwicklung dieser Modelle haben wir eng mit Partner*innen in der Kreativindustrie – Filmemacher*innen, Musiker*innen, Künstler*innen und YouTube-Creator*innen – zusammengearbeitet, um dafür zu sorgen, dass die Produkte verantwortungsvoll gestaltet werden und Kunstschaffende neue Tools erhalten, mit denen sie das Potenzial der künstlichen Intelligenz in der Kunst für sich nutzen können.
Veo 3: KI-generierte Videos mit Audio
Veo 3, unser neues Modell zur Videogenerierung, bietet nicht einfach nur noch bessere Qualität als Veo 2, sondern ermöglicht es auch zum ersten Mal, Videos mit Audio zu generieren – von Verkehrsgeräuschen im Hintergrund einer Straßenszene über das Zwitschern von Vögeln im Park bis hin zu Dialogen zwischen den Charakteren.
Veo 3 punktet dabei in jeder Beziehung – ob Text- und Bild-Prompting, realitätsnahe Darstellungen oder präzise Lippensynchronisation. Das Modell glänzt beim Verstehen: Erzählt in eurem Prompt einfach eine kurze Geschichte und das Modell setzt diese direkt in einen Clip um. Veo 3 kann ab heute im Rahmen eines Google AI Ultra-Abos in den USA in Gemini 1 und in Flow (dazu später mehr) genutzt werden und steht über Vertex AI auch Enterprise-Nutzer*innen zur Verfügung.
Veo 2-Updates: Neue Funktionen – mit Filmschaffenden für Filmschaffende entwickelt
Wir haben aber nicht nur Veo 3 entwickelt, sondern auch gemeinsam mit Creatorn sowie Filmschaffenden unser beliebtes Modell Veo 2 weiterentwickelt. Viele der dabei entstandenen Funktionen könnt ihr ab heute in Veo 2 nutzen:
- Hochmoderne Videogenerierung auf der Basis von Referenzen: Für zusätzliche kreative Kontrolle und Konsistenz könnt ihr Veo Bilder von Charakteren, Szenen, Objekten und sogar Stilen zur Verfügung stellen.
- Kamerasteuerung: Neue Kamera-Steuerungsfunktionen erlauben es euch, Kamerabewegungen, wie Schwenks, Dolly-Fahrten und Zooms, präzise zu steuern und so für tolle Bilder zu sorgen.
- Outpainting: Mit dieser neuen Funktion könnt ihr das Bild in der Breite erweitern und aus einem Hochformat- ein Querformatvideo machen, wobei die Szene intelligent mit zusätzlichem Material angereichert wird. So kann sich euer Video besser an die verschiedenen Bildschirmgrößen anpassen.
- Hinzufügen und Entfernen von Objekten: Ihr könnt euren Videos Objekte hinzufügen und Objekte aus ihnen entfernen – Veo versteht die Einstellungsgrößen, Interaktionen und Schatten und nutzt dieses Verständnis dafür, natürliche und realistisch aussehende Szenen zu schaffen.
Videogenerierung auf der Basis von Referenzen und Kamerasteuerungsfunktionen sind ab jetzt in Flow verfügbar (dazu gleich mehr). In den kommenden Wochen werden alle diese neuen Funktionen auch in der Vertex AI API und in den nächsten Monaten in weiteren Produkten ergänzt werden.
Flow: Eigenes KI-Filmproduktions-Tool für Veo
Flow ist ein KI-Tool für die Filmproduktion, das wir mit Kreativen für Kreative entwickelt haben und das die leistungsfähigsten Modelle von Google DeepMind – Veo, Imagen und Gemini – zusammenbringt, sodass ihr auf einfache Weise Filmclips, Szenen und Stories erstellen könnt. Ihr könnt Flow in natürlicher Weise beschreiben, wie die Szene aussehen und ablaufen soll, bequem die „Zutaten“ für eure Story, wie Cast, Drehorte, Objekte und Stile, an einem zentralen Ort verwalten und in wunderschöne Szenen umsetzen lassen.
Flow kann ab heute im Rahmen des Google AI Pro- und Ultra-Abos in den USA genutzt werden. Weitere Länder folgen demnächst.
Imagen 4: Herausragende Qualität und exzellente Typografie
Unser neuestes Imagen-Modell kombiniert Geschwindigkeit mit Präzision und kann so beeindruckende Bilder erzeugen. Selbst kleinste Strukturen in Stoffen, Wassertropfen oder das Fell von Tieren werden außergewöhnlich detailreich dargestellt und das Modell überzeugt sowohl bei fotorealistischen als auch bei abstrakten Stilen. Imagen 4 kann Bilder in verschiedenen Seitenverhältnissen und mit einer Auflösung von bis zu 2K erstellen – bei Print-Dokumenten und Präsentationen liegt die erreichbare Auflösung sogar noch höher. Auch bei Rechtschreibung und Typografie wurden große Fortschritte gemacht, sodass es sich hervorragend für die Gestaltung eigener Grußkarten, Poster oder sogar Comics eignet.
Imagen 4 ist ab heute (für Nutzer*innen in den USA) in Gemini , in Whisk, in Vertex AI und in Workspace (u. a. in Google Präsentationen, Google Vids und Google Docs) verfügbar.
Demnächst wird es auch eine schnelle Variante von Imagen 4 geben, die bis zu 10-mal schneller als Imagen 3 ist, damit ihr eure Ideen noch schneller ausprobieren und umsetzen könnt.
Lyria 2: Wirkungsvolle Kompositionen und endlose Entdeckungen
Seit April bieten wir erweiterten Zugriff auf Music AI Sandbox an, welche auf Lyria 2 basiert. Music AI Sandbox bietet Musiker*innen, Produzent*innen und Songwriter*innen eine Reihe von Tools in der Entwicklungsphase, die ihnen neue kreative Möglichkeiten eröffnen können und sie dabei unterstützen, einzigartige musikalische Ideen zu entwickeln. Das Wissen der Musikindustrie und das wertvolle Feedback, das wir von dort erhalten, helfen uns dabei sicherzustellen, dass unsere Tools von den Künstler*innen als Unterstützung angesehen werden und sie einladen, das Potenzial der künstlichen Intelligenz für ihre Arbeit zu nutzen.
Lyria 2 bietet leistungsfähige Funktionen fürs Komponieren und endlose Entdeckungen und kann jetzt von Creatorn in YouTube Shorts und von Unternehmen in Vertex AI genutzt werden. Außerdem ist Lyria RealTime, das interaktive Modell zum Generieren von Musik, das die Basis für MusicFX DJ bildet, über eine API und in AI Studio verfügbar. Mit Lyria RealTime können Nutzer*innen in Echtzeit und interaktiv generative Musik erschaffen, steuern und aufführen.
Verantwortungsbewusst und in Zusammenarbeit mit der kreativen Community
SynthID hat seit seiner Einführung 2023 über 10 Milliarden Bilder, Videos, Audiodateien und Texte mit einem digitalen Wasserzeichen versehen, um KI-generierte Inhalte einfacher als solche erkennbar zu machen und die Möglichkeiten zu Falschinformationen und Falschzuschreibungen zu reduzieren. Auch in Zukunft werden die von Veo 3, Imagen 4 und Lyria 2 generierten Inhalte mit einem SynthID-Wasserzeichen versehen sein.
Ab heute steht mit SynthID Detector ein Verifizierungsportal zur Verfügung, das dabei hilft, KI-generierte Inhalte als solche zu erkennen, indem es von Nutzer*innen hochgeladene Dateien prüft. SynthID Detector kann erkennen, ob entweder die gesamte Datei oder nur ein Teil von ihr ein SynthID-Wasserzeichen enthält.
Bei allen unseren generativen KI-Modellen ist es unser Ziel, die Kreativität von Menschen zu fördern und es Künstler*innen sowie Creatorn zu ermöglichen, ihre Ideen schneller und einfacher als bisher zum Leben zu erwecken.