Kemampuan model generatif untuk menghasilkan informasi dari modalitas yang berbeda telah berkembang pesat dalam beberapa tahun terakhir. Model ini mampu menghasilkan teks, gambar, atau audio dari input yang diberikan. Namun, model-model ini memiliki keterbatasan dalam aplikasi praktisnya ketika beberapa modalitas ada dan berinteraksi. Misalnya, jika kita ingin menghasilkan gambar berdasarkan deskripsi teks seperti “anjing lucu tidur di sofa kulit”. Selain itu, kita juga ingin mendengar bagaimana suara dari situasi tersebut, misalnya suara anjing tidur di sofa. Dalam hal ini, kita membutuhkan model lain untuk mengubah teks atau gambar yang dihasilkan menjadi suara. Menghubungkan beberapa model generatif tertentu dalam skenario generasi multi-langkah memungkinkan, tetapi pendekatan ini bisa memakan waktu dan merepotkan. Selain itu, aliran unimodal yang dihasilkan secara independen akan kehilangan konsistensi dan kesejajaran ketika digabungkan dalam proses pascapemrosesan, seperti menyinkronkan video dan audio.
Untuk mengatasi keterbatasan ini, sebuah model any-to-any yang komprehensif dan serbaguna telah dikembangkan. Model ini mampu secara simultan menghasilkan video, audio, dan deskripsi teks yang koheren, meningkatkan pengalaman secara keseluruhan dan mengurangi waktu yang dibutuhkan. Model ini disebut Composable Diffusion (CoDi).
Pertama, CoDi melibatkan pelatihan model difusi laten (LDM) untuk setiap modalitas, seperti teks, gambar, video, dan audio. LDM ini dapat dilatih secara independen dan paralel, sehingga menghasilkan kualitas generasi yang sangat baik untuk setiap modalitas individual menggunakan data pelatihan spesifik modalitas yang tersedia. Data ini terdiri dari input dengan satu atau lebih modalitas dan modalitas output.
Untuk generasi lintas-modalitas yang bersyarat, di mana kombinasi modalitas terlibat, seperti menghasilkan gambar menggunakan audio dan teks sebagai input, modalitas input diproyeksikan ke dalam ruang fitur bersama. Mekanisme kondisioning ini mempersiapkan model difusi untuk mengkondisikan modalitas atau kombinasi modalitas apa pun tanpa memerlukan pelatihan langsung untuk pengaturan tertentu. LDM output kemudian berfokus pada fitur input yang digabungkan, memungkinkan generasi lintas-modalitas. Pendekatan ini memungkinkan CoDi untuk mengatasi berbagai kombinasi modalitas dengan efektif dan menghasilkan output berkualitas tinggi.
Tahap kedua pelatihan dalam CoDi memfasilitasi kemampuan model untuk menangani strategi generasi banyak-ke-banyak, yang memungkinkan generasi simultan dari berbagai kombinasi modalitas output. CoDi menjadi model AI pertama yang memiliki kemampuan ini. Hal ini dimungkinkan dengan memperkenalkan modul perhatian silang ke setiap diffuser dan pemetaan lingkungan V, yang memproyeksikan variabel laten dari LDM yang berbeda ke dalam ruang laten bersama.
Selama tahap ini, parameter LDM dibekukan, dan hanya parameter perhatian silang dan V yang dilatih. Karena pemetaan lingkungan menyelaraskan representasi modalitas yang berbeda, LDM dapat melakukan perhatian silang dengan setiap set modalitas yang digenerate bersama dengan interpolasi representasi output menggunakan V. Integrasi yang mulus ini memungkinkan CoDi untuk menghasilkan kombinasi modalitas secara sembarang tanpa perlu dilatih pada setiap kombinasi generasi yang mungkin. Akibatnya, jumlah tujuan pelatihan berkurang dari eksponensial menjadi linear, memberikan efisiensi yang signifikan dalam proses pelatihan.
Dengan menggunakan CoDi, hasil keluaran yang dihasilkan oleh model ini memiliki kualitas yang sangat baik. Model ini mampu menghasilkan kombinasi modalitas apa pun dengan tingkat akurasi yang tinggi. Ini menjadikan CoDi sebagai model AI yang inovatif dan efisien dalam generasi lintas-modalitas.
Dalam penelitian ini, para peneliti telah mencoba mencapai tujuan tersebut dengan mengembangkan CoDi, sebuah model generasi lintas-modalitas yang efisien dan berkualitas tinggi. CoDi memiliki potensi besar dalam berbagai aplikasi, seperti pembuatan film, penghasilan konten multimedia, dan banyak lagi. Dengan kemampuan untuk menghasilkan kombinasi modalitas apa pun dengan kualitas tinggi, CoDi memberikan pengalaman yang lebih kaya dan mempercepat proses generasi. Model ini dapat mengatasi keterbatasan model generatif sebelumnya dan membuka jalan menuju generasi lintas-modalitas yang lebih efisien dan fleksibel.
Kelebihan CoDi dalam Generasi Lintas-Modalitas
CoDi memiliki beberapa kelebihan yang membedakannya dari model generatif lainnya. Pertama, CoDi mampu menghasilkan kombinasi modalitas apa pun dengan kualitas tinggi. Model ini dilatih menggunakan data pelatihan yang beragam untuk memastikan hasil yang konsisten dan berkualitas. Selain itu, CoDi memiliki kemampuan untuk menghasilkan generasi lintas-modalitas yang bersyarat, seperti menghasilkan gambar menggunakan audio dan teks sebagai input. Hal ini memungkinkan aplikasi yang lebih luas dan fleksibilitas dalam penggunaan model ini.
Kedua, CoDi menggunakan pendekatan pelatihan yang efisien. Dengan memproyeksikan modalitas input ke dalam ruang fitur bersama, model ini dapat mengatasi kombinasi modalitas yang berbeda tanpa pelatihan langsung untuk setiap kombinasi. Hal ini mengurangi jumlah tujuan pelatihan dari eksponensial menjadi linear, sehingga mempercepat proses pelatihan dan meningkatkan efisiensi.
Aplikasi Potensial CoDi
CoDi memiliki potensi besar dalam berbagai aplikasi. Salah satu aplikasi yang mungkin adalah dalam pembuatan film. Dengan kemampuan untuk menghasilkan kombinasi audio, video, dan teks secara bersamaan, CoDi dapat menghasilkan film pendek dengan kualitas tinggi dan pengalaman multimedia yang lebih kaya. Model ini juga dapat digunakan dalam pembuatan konten multimedia yang lebih interaktif, seperti video game atau pengalaman virtual reality.
Selain itu, CoDi dapat digunakan dalam pengenalan suara dan pengenalan wajah. Model ini dapat mengubah deskripsi teks tentang suara atau wajah menjadi gambar atau audio yang sesuai. Hal ini dapat digunakan dalam aplikasi keamanan, pengenalan wajah dalam video pengawasan, atau pengenalan suara dalam aplikasi pengenalan kata-kata.
Dalam kesimpulan, CoDi adalah model generasi lintas-modalitas yang efisien dan berkualitas tinggi. Dengan kemampuan untuk menghasilkan kombinasi modalitas apa pun dengan tingkat akurasi yang tinggi, CoDi membuka banyak peluang dalam berbagai industri. Dengan adanya CoDi, generasi lintas-modalitas dapat dilakukan dengan lebih efisien, menghemat waktu, dan memberikan pengalaman yang lebih kaya. Model ini merupakan terobosan dalam penelitian AI dan memiliki potensi besar dalam aplikasi praktis di masa depan.
Disarikan dari: Link