Model dan alat media generatif baru, dibuat bersama dan untuk kreator

21 Mei 2024

Oleh Eli Collins

VP, Product Management dan Douglas Eck, Senior Research Director

Perkenalkan Veo, model tercanggih kami untuk membuat video definisi tinggi, dan Imagen 3, model text-to-image kami yang paling berkualitas. Dalam artikel ini kami juga akan menampilkan demo rekaman yang dibuat dengan Music AI Sandbox.

Selama setahun terakhir, upaya kami dalam meningkatkan kualitas teknologi media generatif telah mencapai kemajuan yang luar biasa. Kami bekerja sama erat dengan komunitas kreatif untuk mengeksplorasi berbagai cara AI generatif dapat mendukung proses kreatif, dan untuk memastikan bahwa alat AI kami berguna di setiap tahapannya.

Hari ini, kami memperkenalkan Veo, model pembuatan video kami yang terbaru dan tercanggih, serta Imagen 3, model text-to-image terbaik kami saat ini.

Dalam artikel ini kami juga akan memperlihatkan beberapa kolaborasi terbaru bersama pembuat film Donald Glover dan studio kreatifnya, Gilga, serta rekaman demo baru yang dirilis oleh artis Wyclef Jean, Marc Rebillet, dan penulis lagu Justin Tranter, yang dibuat dengan Music AI Sandbox kami.

Veo: model pembuatan video kami yang tercanggih

Veo dapat membuat video beresolusi 1080p berkualitas tinggi dalam berbagai gaya sinematik dan visual serta berdurasi lebih dari satu menit. Dengan pemahaman tingkat lanjut tentang bahasa alami dan semantik visual, Veo dapat membuat video yang hampir mewakili visi kreatif pengguna. Model ini dapat menangkap konteks dan nuansa yang ada di dalam perintah serta menampilkan detail yang disebutkan dalam perintah yang panjang.

Model ini memberikan kendali kreatif yang jauh lebih besar, dan memahami istilah-istilah sinematik seperti “timelapse” atau “aerial shot dari suatu landscape”. Veo juga membuat video yang konsisten dan koheren sehingga manusia, hewan, dan objek terlihat bergerak secara realistis sepanjang adegan.

Untuk mencari tahu bagaimana Veo dapat mendukung proses kreatif di bidang pembuatan film secara maksimal, kami mengundang sejumlah pembuat film dan kreator untuk bereksperimen dengan model ini. Kolaborasi ini juga membantu memperbaiki cara kami merancang, membangun, dan menerapkan teknologi kami supaya kreator juga dapat ikut aktif mengembangkannya.

Berikut ini contoh karya kami bersama pembuat film, Donald Glover dan studio kreatifnya, Gilga, yang bereksperimen membuat film dengan Veo.

Veo dibangun berdasarkan karya model video generatif kami selama bertahun-tahun, termasuk Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, dan Lumiere — menggabungkan arsitektur, hukum penskalaan, dan teknik baru lainnya untuk meningkatkan kualitas dan resolusi output video.

Dengan Veo, kami telah meningkatkan teknik cara model belajar memahami isi video, merender gambar definisi tinggi, menyimulasikan hukum fisika untuk menghasilkan gambar yang dinamis, dan lain-lain. Hasil pembelajaran ini akan semakin memajukan penelitian AI sehingga kami dapat membuat produk yang lebih bermanfaat serta membantu orang-orang berinteraksi dan berkomunikasi dengan cara baru.

Mulai hari ini, Veo tersedia untuk kreator terpilih dalam mode private preview di VideoFX dengan bergabung ke daftar tunggu. Nantinya, kami juga akan menghadirkan sejumlah kemampuan Veo ke YouTube Shorts dan produk lainnya.

Pelajari lebih lanjut apa saja yang dapat dilakukan Veo.

Imagen 3: model text-to-image dengan kualitas tertinggi

Selama setahun terakhir, upaya kami dalam meningkatkan kualitas serta fidelitas model dan alat pembuatan gambar kami juga mencapai kemajuan yang luar biasa.

Imagen 3 adalah model text-to-image kami dengan kualitas tertinggi. Model ini menghasilkan tingkat detail yang luar biasa, membuat gambar fotorealistik dan hidup, dengan jauh lebih minim artefak visual yang mengganggu dibandingkan model sebelumnya.

Visual model text-to-image perintah gambar srigala

Perintah: Gambar close up seekor serigala yang berpose anggun dengan latar belakang abu-abu, dalam foto beresolusi tinggi dengan detail gambar yang halus, dengan gaya foto stok dan gradasi warna dalam gaya hiper-realistis

Imagen 3 dapat memahami natural language dengan lebih baik, maksud yang terkandung dalam perintah, dan memasukkan detail-detail kecil dari perintah yang panjang. Pemahaman tingkat lanjut yang dimiliki model ini membantunya menguasai berbagai macam gaya visual.

Perintah: Foto pria berambut pendek dan berjanggut tersenyum ke arah kamera. Latar belakangnya buram dan memperlihatkan pepohonan dan bangunan dalam warna terang.

Visual model text-to-image perintah gambar pria berambut pendek dan berjanggut tersenyum

Perintah: Foto pria berambut pendek dan berjanggut tersenyum ke arah kamera. Latar belakangnya buram dan memperlihatkan pepohonan dan bangunan dalam warna terang.

Imagen 3 juga merupakan model terbaik kami untuk merender teks, yang selama ini menjadi tantangan bagi model pembuatan gambar. Dengan kemampuan ini, model kami kini dapat membuat pesan ulang tahun kustom, memberi judul pada presentasi, dan lain-lain.

Perintah: Foto pintu masuk perpustakaan megah dengan tulisan “Central Library” terukir di batunya.

Visual model text-to-image perintah gambar pintu masuk perpustakaan megah dengan tulisan “Central Library” terukir di batunya.

Mulai hari ini, Veo tersedia untuk kreator terpilih dalam mode private preview di ImageFX dengan bergabung ke daftar tunggu. Imagen 3 juga akan segera hadir di Vertex AI.

Pelajari lebih lanjut apa saja yang dapat dilakukan Imagen 3.

Kolaborasi kami dengan komunitas musik

Kami terus mengeksplorasi bagaimana AI dapat berperan dalam proses pembuatan seni dan musik. Untuk itu, melalui kemitraan dengan YouTube, kami berkolaborasi bersama sejumlah musisi, penulis lagu, dan produser musik yang luar biasa. Kolaborasi ini juga membantu proses pengembangan teknologi musik generatif kami, termasuk Lyria, model tercanggih kami untuk pembuatan musik AI.

Sebagai bagian dari kolaborasi ini, kami telah mengembangkan serangkaian alat musik AI bernama Music AI Sandbox. Alat-alat ini dirancang untuk membuka ruang kreativitas baru, memungkinkan para musisi untuk membuat musik instrumental baru dari awal, mentransformasi suara dengan cara baru, dan banyak lagi.

Kami berpartner dengan musisi, penulis lagu, dan produser untuk mencari tahu peran menarik apa saja yang dapat dilakukan AI dalam proses penciptaan musik.

Hari ini, kami melanjutkan eksperimen musik tersebut bersama musisi pemenang Grammy Wyclef Jean, penulis lagu peraih nominasi Grammy Justin Tranter, dan musisi elektronik Marc Rebillet — yang merilis rekaman demo baru yang dibuat dengan bantuan alat AI musik di channel YouTube mereka masing-masing.

Wyclef Jean, Justin Tranter, dan Marc Rebillet adalah tiga orang pertama yang merilis demo baru menggunakan Music AI Sandbox, dan demo tersebut dapat didengarkan di channel YouTube mereka masing-masing.

Bertanggung jawab sedari desain hingga penerapan

Kami sangat berhati-hati agar tidak hanya memajukan teknologi terkini, tetapi juga melakukannya secara bertanggung jawab. Oleh karena itu, kami mengambil sejumlah langkah untuk mengatasi tantangan yang muncul dari teknologi generatif, serta membantu masyarakat dan organisasi untuk berkarya secara bertanggung jawab dengan konten buatan AI.

Untuk masing-masing teknologi ini, kami bekerja sama dengan komunitas kreatif dan pemangku kepentingan eksternal lainnya, mengumpulkan insight dan mendengarkan masukan untuk membantu kami meningkatkan dan menerapkan teknologi kami secara aman dan bertanggung jawab.

Kami telah melakukan uji keselamatan, menerapkan filter, memasang pengaman, dan melibatkan tim kami dalam proses inti pengembangan. Tim kami juga membuat alat-alat baru, seperti SynthID, yang dapat menyematkan watermark transparan pada gambar, audio, teks, dan video yang dibuat AI. Dan mulai hari ini, semua video yang dihasilkan oleh Veo di VideoFX akan diberi watermark oleh SynthID.

Potensi kreatif AI generatif sangat besar dan kami tidak sabar ingin melihat bagaimana orang-orang di seluruh dunia mewujudkan ide mereka dengan model dan alat-alat baru kami.

Diposting di:

Model dan alat media generatif baru, dibuat bersama dan untuk kreator

Veo: model pembuatan video kami yang tercanggih

Imagen 3: model text-to-image dengan kualitas tertinggi

Kolaborasi kami dengan komunitas musik

Bertanggung jawab sedari desain hingga penerapan

Artikel terkait