“Perkaya Adaptasi Tugas-Spesifik pada Model Dasar Video: Perkenalkan Video Adapter sebagai Kerangka Probabilistik untuk Menyesuaikan Model Teks-ke-Video”

Video Adapter: Metode Baru untuk Membuat Video Kustom dengan Menggunakan Model Pra-pelatihan

Sebuah tim peneliti dari Google DeepMind, UC Berkeley, MIT, dan University of Alberta telah mengembangkan sebuah metode baru yang disebut Video Adapter untuk menghasilkan video khusus tugas dengan menggunakan model teks-ke-video pra-pelatihan yang besar sebagai probabilitas awal. Model besar ini biasanya menghasilkan film berkualitas tinggi dari deskripsi tertulis secara acak, namun penyesuaian model besar yang telah dipelatihkan mungkin terlalu mahal dan sulit untuk diadaptasi ke aplikasi dengan data domain yang terbatas, seperti video animasi atau robotika.

Keunggulan Video Adapter

Video Adapter dapat menghasilkan model-video kecil yang khusus tugas dengan menggunakan hanya 1,25 persen parameter model pra-pelatihan yang besar, sementara dapat mempertahankan pengetahuan yang luas dan memelihara kualitas yang tinggi dari model video pra-pelatihan besar. Dengan menggunakan Video Adapter, video khusus tugas yang berkualitas tinggi dapat dihasilkan untuk berbagai kegunaan, termasuk tetapi tidak terbatas pada animasi, modeling egosentris, dan pemodelan data robotika dunia nyata dan simulasi.

Penelitian tentang Video Adapter

Para peneliti telah melakukan tes pada berbagai tugas pembuatan video dengan menggunakan Video Adapter. Dalam tes pada data Ego4D yang sulit dan data Bridge robotik, Video Adapter menghasilkan video dengan FVD dan Skor Inception yang lebih baik daripada model video besar pra-pelatihan berkualitas tinggi sementara menggunakan hingga 80x lebih sedikit parameter. Peneliti juga menunjukkan bahwa Video Adapter memungkinkan produksi video genre-spesifik seperti yang ditemukan dalam fiksi ilmiah dan animasi.

Keterbatasan Video Adapter

Meskipun Video Adapter dapat dengan efektif mengadaptasi model teks-ke-video pra-pelatihan yang besar, namun model video kecil yang khusus tugas masih perlu dilatih pada data domain-spesifik. Oleh karena itu, Video Adapter tidak sepenuhnya bebas pelatihan. Namun, Video Adapter memberikan kemudahan akses pada lembaga industri dan akademis yang kekurangan akses terhadap bobot model dan efisiensi komputasi.

Menyimpulkan

Video Adapter adalah metode baru yang efektif untuk menghasilkan film khusus tugas dengan menggunakan model teks-ke-video pra-pelatihan yang besar sebagai probabilitas awal. Video Adapter dapat menghasilkan video berkualitas tinggi dan mudah disesuaikan dalam berbagai disiplin dan estetika yang diinginkan tanpa memerlukan penyetelan lebih lanjut dari model pra-pelatihan yang besar. Dengan Video Adapter, model pra-pelatihan yang besar dapat mengambil karakteristik visual dari model animasi yang lebih kecil. Video Adapter juga dapat digunakan untuk memproduksi berbagai jenis video dalam berbagai genre dan gaya, termasuk video dengan gerakan egosentris berdasarkan manipulasi dan navigasi, video dengan genre individual seperti animasi dan fiksi ilmiah, dan video dengan gerakan robotik simulasi dan nyata. Bagi Anda yang tertarik dengan kecerdasan buatan, Anda juga dapat bergabung dengan komunitas AI MarkTechPost untuk mempelajari berita terbaru tentang kecerdasan buatan yang menarik dan berbagai proyek AI keren lainnya.

Disarikan dari: Link