Video-ControlNet: Model Text-to-Video Baru yang Mengubah Permainan dan Membentuk Masa Depan Generasi Video yang Dapat Dikendalikan

Meningkatnya Kemampuan Generasi Konten Visual Berbasis Teks

Dalam beberapa tahun terakhir, perkembangan generasi konten visual berbasis teks mengalami kemajuan pesat. Dengan dilatih menggunakan pasangan gambar-teks dalam skala besar, model Text-to-Image (T2I) yang ada saat ini telah menunjukkan kemampuan impresif dalam menghasilkan gambar berkualitas tinggi berdasarkan teks yang diberikan pengguna. Keberhasilan dalam generasi gambar juga telah diperluas ke generasi video. Beberapa metode memanfaatkan model T2I untuk menghasilkan video dalam satu kali atau tanpa instruksi, namun video yang dihasilkan dari model-model ini masih tidak konsisten atau kurang bervariasi. Dengan memperluas data video, model Text-to-Video (T2V) diffusion dapat menciptakan video-video yang konsisten dengan teks sebagai petunjuk. Namun, model-model ini menghasilkan video yang kurang memiliki kontrol terhadap konten yang dihasilkan.

Video-ControlNet: Solusi Generasi Video Kontrolabel

Untuk mengatasi masalah ini, Video-ControlNet, sebuah model T2V yang dapat dikontrol, telah diperkenalkan. Video-ControlNet menawarkan beberapa keunggulan, antara lain: peningkatan konsistensi melalui penggunaan prioritas gerakan dan peta kontrol, kemampuan untuk menghasilkan video dengan panjang yang sewenang-wenang dengan menggunakan strategi kondisioning frame pertama, generalisasi domain dengan mentransfer pengetahuan dari gambar ke video, dan efisiensi sumber daya dengan konvergensi yang lebih cepat menggunakan ukuran batch terbatas.

Arsitektur Video-ControlNet

Video-ControlNet dikembangkan dengan merombak model T2I yang dapat dikontrol yang telah dilatih sebelumnya, dengan menambahkan lapisan temporal yang dapat dilatih, dan memperkenalkan mekanisme self-attention spasial-temporal yang memfasilitasi interaksi yang halus antara frame. Pendekatan ini memungkinkan pembuatan video yang konsisten dalam hal konten, bahkan tanpa pelatihan yang intensif.

Konsistensi Struktur Video

Untuk memastikan konsistensi struktur video, penulis memperkenalkan pendekatan yang memadukan prioritas gerakan dari video sumber ke dalam proses denoising pada tahap inisialisasi noise. Dengan memanfaatkan prioritas gerakan dan peta kontrol, Video-ControlNet dapat menghasilkan video yang kurang berkedip dan lebih mirip dengan perubahan gerakan dalam video input, sambil menghindari penyebaran kesalahan pada metode-metode berbasis gerakan lainnya akibat dari proses denoising multi-langkah.

Generasi Video Berbasis Frame Pertama

Selain metode sebelumnya yang melatih model untuk langsung menghasilkan seluruh video, skema pelatihan inovatif diperkenalkan dalam penelitian ini, di mana video dihasilkan berdasarkan frame awal. Dengan strategi yang sederhana namun efektif ini, proses pembelajaran konten dan temporal menjadi lebih mudah, karena konten disajikan dalam frame pertama dan teks instruksi. Model hanya perlu belajar bagaimana menghasilkan frame selanjutnya, mewarisi kemampuan generatif dari domain gambar dan mengurangi kebutuhan akan data video. Selama inferensi, frame pertama dihasilkan dengan kondisi peta kontrol frame pertama dan teks instruksi. Kemudian, frame berikutnya dihasilkan dengan kondisi frame pertama, teks, dan peta kontrol selanjutnya. Keuntungan lain dari strategi ini adalah bahwa model dapat menghasilkan video dengan panjang yang tak terbatas secara oto-regresif dengan memperlakukan frame terakhir iterasi sebelumnya sebagai frame awal.

Keunggulan Video-ControlNet dalam Generasi Video T2V

Video-ControlNet adalah model T2V yang inovatif dengan kualitas terbaik dan konsistensi temporal. Dalam penelitian ini, penulis melaporkan hasil yang detail dan melampirkan perbandingan dengan pendekatan terkini. Model ini menawarkan kontrol yang lebih baik terhadap konten yang dihasilkan, menghasilkan video-video yang konsisten dengan teks dan peta kontrol referensi. Dengan pendekatan yang telah dikembangkan, Video-ControlNet dapat menghasilkan video dengan kualitas tinggi, beragam, dan konsisten dalam hal konten, bahkan dengan pelatihan yang terbatas.

Secara keseluruhan, generasi konten visual berbasis teks telah mengalami kemajuan pesat dalam beberapa tahun terakhir. Dengan adanya model-model seperti Video-ControlNet, generasi video dengan kontrol yang baik dan kualitas yang tinggi semakin menjadi kenyataan. Model ini menawarkan solusi yang efektif dalam mengatasi kendala-kendala yang dihadapi sebelumnya, seperti konsistensi struktur video, panjang video yang sewenang-wenang, dan variasi konten yang dihasilkan. Dengan kemampuan-kemampuan ini, Video-ControlNet membawa generasi konten visual berbasis teks ke level yang lebih tinggi dengan hasil yang konsisten dan berkualitas.

Disarikan dari: Sumber