Alibaba dan Ant Group Perkenalkan VideoComposer, Model AI untuk Menghasilkan Video dengan Menggabungkan Berbagai Modality

Alibaba Group dan Ant Group merilis VideoComposer, sebuah program yang dapat menghasilkan video dengan kontrol spasial dan temporal yang lebih tinggi. Menggunakan model difusi laten, program ini mampu merekonstruksi video input dengan menggunakan tiga elemen utama: kondisi teks, kondisi spasial, dan kondisi temporal yang kritis. Hasilnya, video yang dihasilkan memiliki tingkat kreativitas yang luar biasa.

Kelebihan VideoComposer

VideoComposer didasarkan pada paradigma komposisional yang memungkinkan program ini untuk membuat gambar dengan rentang input yang luas dan fleksibilitas yang sangat tinggi. Selain itu, program ini dilengkapi dengan encoder spasial-temporal yang terpadu (STC-encoder) yang menggunakan mekanisme attention cross-frame untuk menangkap hubungan spasial-temporal dalam input berurutan. Dengan demikian, VideoComposer dapat menyesuaikan diri dengan berbagai pengaturan dan menjaga kualitas sintesis yang konsisten.

Satu kelebihan utama dari VideoComposer adalah kemampuannya untuk memanipulasi pola gerakan dengan gerakan tangan yang relatif sederhana, seperti anak panah yang menunjukkan lintasan bulan. Dalam beberapa penelitian kualitatif dan kuantitatif, program ini menunjukkan efektivitasnya dengan mencapai tingkat kreativitas yang luar biasa dalam berbagai aktivitas generatif.

Kendala Pengembangan VideoComposer

Meskipun demikian, pengembangan VideoComposer juga menghadapi beberapa kendala. Salah satu kendala utama adalah karakteristik khusus dari data video. Struktur temporal multilayered dari film harus mengakomodasi berbagai dinamika temporal yang berbeda sambil menjaga konsistensi antara bingkai individual. Oleh karena itu, penggabungan kondisi temporal yang tepat dengan petunjuk spasial menjadi sangat penting untuk mengizinkan sintesis video yang dapat diprogram.

Dalam hal ini, VideoComposer memecahkan masalah dengan menggunakan vektor gerakan video sebagai panduan temporal selama sintesis video. Dengan menerapkan panduan ini, VideoComposer dapat merekam dinamika antar-kerangka secara eksplisit dan memberikan kontrol langsung pada gerakan internal.

Namun, penggunaan kondisi temporal ini mungkin memerlukan bantuan pada produksi video karena memerlukan pemahaman khusus tentang karakteristik data video. Maka dari itu, pengembangan lebih lanjut pada teknik penggabungan kondisi temporal dengan petunjuk spasial dapat membantu meningkatkan kualitas sintesis video.

Kesimpulan

VideoComposer merupakan sebuah program yang inovatif dan memiliki potensi besar untuk menghasilkan video dengan kontrol spasial dan temporal yang lebih tinggi. Dengan menggabungkan tiga elemen utama – kondisi teks, kondisi spasial, dan kondisi temporal – program ini dapat merekonstruksi input video dengan tingkat kreativitas yang luar biasa.

Meskipun demikian, pengembangan lebih lanjut pada teknik penggabungan kondisi temporal dan petunjuk spasial dapat membantu meningkatkan kualitas sintesis video. Namun, VideoComposer tetap menjadi langkah maju yang signifikan dalam pengembangan teknologi sintesis video yang dapat diprogram.

Disarikan dari: Citation