Membuat Video Lebih Mudah dengan Teknologi Text-to-Video Baru
Teknologi video sudah menjadi hal yang umum digunakan untuk menampilkan pengalaman visual yang menarik. Dengan penggunaan smartphone dan kamera digital yang semakin meluas, merekam acara langsung menjadi lebih mudah. Namun, proses produksi video untuk mewakili ide secara visual menjadi lebih sulit dan mahal. Hal ini sering memerlukan pengalaman profesional dalam grafik komputer, pemodelan, dan pembuatan animasi.
Namun, perkembangan terbaru dalam teknologi text-to-video telah membuat prosedur ini lebih mudah dengan hanya menggunakan instruksi teks. Teknologi ini dapat menghasilkan film yang koheren secara temporal dengan memperhatikan tujuan yang telah ditetapkan. Teknologi ini dapat diterapkan di beberapa aplikasi, seperti menghasilkan video dari realitas ke dalam video, pemodelan dinamis 3D ke dalam video, dan pengulangan video dengan membangun panduan struktur dari berbagai sumber.
Penggunaan bahasa adalah alat deskripsi yang fleksibel, tetapi mungkin perlu lebih berhasil dalam memberikan kontrol yang tepat. Sebaliknya, bahasa lebih unggul dalam mengkomunikasikan konteks global yang abstrak. Oleh karena itu, penelitian ini disarankan untuk membuat video yang disesuaikan dengan menggunakan teks untuk mendeskripsikan pengaturan dan gerakan dalam arah tertentu.
Teknologi ini menggunakan frame-wise depth maps sebagai data 2D yang dapat dioperasikan sebagai data 3D untuk tugas pembuatan video. Teknologi ini dipilih untuk menggambarkan struktur gerakan. Struktur arah dalam metodenya mungkin relatif sederhana sehingga non-ahli dapat dengan mudah mempersiapkannya.
Sub-Topik 1: Teknologi dan Model Generatif
Teknologi ini memberikan kebebasan pada model generatif untuk menghasilkan konten yang realistis tanpa bergantung pada masukan yang rumit. Contohnya, menghasilkan lingkungan luar yang fotorealistik dapat dipandu oleh pengaturan skenario yang menggunakan barang-barang yang ditemukan di kantor. Benda fisik dapat diganti dengan bagian geometri tertentu atau aset 3D yang tersedia menggunakan perangkat lunak pemodelan 3D.
Untuk dapat menyesuaikan video sesuai dengan yang diinginkan pengguna, teknologi ini menggabungkan instruksi teks dan struktural. Teknologi ini menggunakan Latent Diffusion Model (LDM) yang mengadopsi model difusi dalam ruang laten yang lebih rendah untuk mengurangi biaya pemrosesan.
Sub-Topik 2: Pembelajaran Mesin dan Evaluasi Kualitatif
Pembelajaran mesin dalam teknologi ini mengadopsi pemisahan pelatihan modul spasial (untuk sintesis gambar) dan modul temporal (untuk koherensi temporal) untuk model produksi video yang terbuka. Desain ini didasarkan pada dua faktor utama: (i) pelatihan komponen model secara terpisah mengurangi kebutuhan sumber daya komputasi, yang sangat penting untuk tugas yang membutuhkan sumber daya intensif; dan (ii) karena dataset gambar mencakup beragam konsep visual daripada dataset video yang ada, pra-pelatihan model untuk sintesis gambar membantu mewarisi konsep visual yang beragam dan mentransfernya ke generasi video.
Evaluasi kualitatif dan kuantitatif menunjukkan bahwa teknologi ini menghasilkan kinerja yang lebih baik dibandingkan dengan teknologi lain, terutama dalam hal koherensi temporal dan ketepatan pada instruksi pengguna. Keefektifan desain yang diusulkan, yang sangat penting untuk operasi pendekatan ini, didukung oleh eksperimen ablation. Selain itu, teknologi ini juga menunjukkan beberapa aplikasi menarik yang mungkin terjadi melalui metodologi ini, dan hasilnya menunjukkan potensi untuk aplikasi dunia nyata.
Kesimpulannya, teknologi text-to-video baru ini memberikan kemudahan dalam membuat video dengan instruksi teks. Teknologi ini memanfaatkan mixed spatial dan temporal attention yang menjadikan video yang dihasilkan lebih koheren dan sesuai dengan instruksi pengguna. Teknologi ini memberikan kemudahan bagi mereka yang ingin memproduksi video dengan kualitas yang baik dan koheren secara temporal.
Disarikan dari: Citation