Peneliti CMU Usulkan STF: Pendekatan AI Baru Menggabungkan Zero-Shot Text-to-Video Generation Dengan ControlNet Untuk Meningkatkan Output Model Ini.

Revolution in Video Creation: Sketching the Future (STF)

Sebuah penelitian baru dari para peneliti Universitas Carnegie Mellon menawarkan framework yang kuat dan fleksibel untuk menciptakan dan mengelola konten video dengan memanfaatkan sumber daya yang paling sedikit. Mereka menggabungkan keuntungan dari Text-to-Video Zero dan ControlNet. Teknologi ini menciptakan peluang baru untuk menciptakan video dengan efektif dan efisien yang dapat melayani berbagai bidang aplikasi. Teknologi Sketching the Future (STF) yang inovatif ini membungkus produksi video zero-shot text-to-video dengan ControlNet yang kuat.

Kelebihan Teknologi Sketching the Future

Teknologi ini dapat membantu para profesional kreatif dalam film, animasi, dan desain grafis. Metode mereka dapat mempercepat proses kreatif dan mengurangi waktu dan usaha yang dibutuhkan untuk menciptakan konten video berkualitas tinggi dengan memungkinkan pengembangan konten video dari frame yang digambar dan instruksi tertulis. Teknologi ini dapat bermanfaat untuk menghasilkan video yang dipersonalisasi dengan cepat dan efektif untuk inisiatif periklanan dan pemasaran. STF dapat membantu bisnis dalam mengembangkan bahan promosi yang menarik dan terfokus yang akan membantu mereka terhubung dan lebih mudah mencapai target pelanggan mereka. STF juga dapat digunakan untuk membuat sumber daya pendidikan yang sesuai dengan kebutuhan pelatihan atau tujuan pembelajaran. Metode mereka dapat mengarah pada pengalaman pendidikan yang lebih efisien dan menarik dengan menghasilkan materi video yang sesuai dengan hasil pembelajaran yang ditargetkan.

Selain itu, teknologi STF dapat meningkatkan aksesibilitas konten video bagi orang dengan keterbatasan. Metode mereka dapat membantu mengembangkan konten video dengan teks terjemahan atau bantuan visual lainnya, menjadikan informasi dan hiburan lebih inklusif dan dapat dijangkau oleh khalayak yang lebih luas.

Kerugian Teknologi Sketching the Future

Namun, teknologi STF juga menimbulkan beberapa kekhawatiran, seperti kemungkinan penyebaran informasi yang salah dan video deepfake karena kemampuan untuk menghasilkan konten video yang realistis dengan menggunakan instruksi teks dan gambar yang digambar. Pelaku jahat dapat menggunakan STF untuk menciptakan materi video yang meyakinkan tetapi palsu yang dapat digunakan untuk menyampaikan informasi yang salah atau mempengaruhi opini publik. Selain itu, penggunaan STF untuk tujuan pemantauan atau pengawasan dapat melanggar privasi orang. Metode mereka juga dapat menimbulkan masalah moral dan hukum terkait izin dan perlindungan data jika digunakan untuk menciptakan materi video yang menampilkan orang atau lokasi yang dapat dikenali.

Selain itu, penggunaan luas STF dalam sektor yang mengandalkan pembuatan konten video manual juga dapat menimbulkan penggusuran pekerjaan bagi beberapa spesialis. Metode mereka dapat mempercepat produksi video, tetapi juga dapat mengurangi permintaan untuk pekerjaan tertentu dalam sektor kreatif, termasuk animator dan editor video.

Bagaimana Teknologi Sketching the Future Bekerja

Metode mereka didasarkan pada arsitektur Text-to-Video Zero, yang menggunakan teknik sintesis gambar-teks lainnya untuk menghasilkan video dengan biaya minimal. Perubahan utama yang mereka buat adalah penambahan dinamika gerakan ke kode laten frame yang dihasilkan dan repogrammed frame-level self-attention menggunakan mekanisme cross-frame attention yang baru. Penyesuaian ini menjamin keseragaman identitas, konteks, dan penampilan objek depan di seluruh adegan dan latar belakang. Mereka menyertakan kerangka kerja ControlNet untuk meningkatkan kontrol atas materi video yang dibuat. Edge maps, segmentation maps, dan key points adalah beberapa kondisi input yang berbeda yang dapat diterima oleh ControlNet. Ini juga dapat dilatih end-to-end pada dataset kecil.

Sebelum menjalankan Text-to-Video Zero, mereka menginterpolasi frame antara gambar yang dimasukkan dan menggunakan video hasil interpolasi frame sebagai metode kontrol. Pendekatan mereka dapat digunakan untuk berbagai tugas, termasuk produksi video berdasarkan kondisi tertentu dan konten tertentu, dan Video Instruct-Pix2Pix, editing video yang dipandu instruksi, dan sintesis teks-to-video. Meskipun perlu dilatih pada data video tambahan, eksperimen menunjukkan bahwa teknologi mereka dapat menghasilkan output video berkualitas tinggi dan konsisten dengan biaya yang sedikit.

Disarikan dari: Source