Persahabatan Berakhir dengan Satu Moda – Kini Multi-Moda adalah Sahabat Terbaik Saya: CoDi adalah Model AI yang Dapat Mencapai Generasi Apapun melalui Difusi Komposabel

Generative AI menjadi topik yang sering kita dengar saat ini. Saya bahkan tidak ingat berapa banyak paper yang telah saya baca dan ringkas tentang generative AI di sini. Kemampuan mereka terlihat luar biasa dan seakan-akan memiliki unsur sihir, dan dapat digunakan dalam banyak aplikasi. Kita dapat menghasilkan gambar, video, audio, dan banyak lagi hanya dengan menggunakan teks sebagai input.

Kemajuan signifikan yang dicapai dalam model generative AI dalam beberapa tahun terakhir telah memungkinkan penggunaan kasus yang sebelumnya dianggap tidak mungkin. Dimulai dengan model teks-ke-gambar, dan ketika terlihat bahwa hasil yang dihasilkan sangat bagus. Setelah itu, permintaan untuk model AI yang mampu mengolah beberapa modality sekaligus meningkat.

Baru-baru ini, permintaan untuk model yang dapat mengambil kombinasi berbagai input (misalnya, teks + audio) dan menghasilkan berbagai kombinasi output modalitas (misalnya, video + audio) juga meningkat. Beberapa model telah diusulkan untuk mengatasi hal ini, namun model-model ini memiliki keterbatasan dalam aplikasi dunia nyata yang melibatkan banyak modalitas yang hidup dan saling berinteraksi.

Meskipun memungkinkan untuk menggabungkan bersama-sama model generative unimodal dalam proses multi-langkah, kekuatan generasi dari setiap langkah tetap terbatas, sehingga menghasilkan pendekatan yang rumit dan lambat. Selain itu, unimodal stream yang dihasilkan secara independen mungkin kurang konsisten dan tidak selaras ketika digabungkan, sehingga membuat sinkronisasi pasca-pemrosesan menjadi sulit.

Melatih sebuah model untuk menangani kombinasi modalitas input apa pun dan menghasilkan kombinasi output apa pun dengan fleksibilitas yang tinggi memerlukan komputasi dan data yang signifikan. Jumlah kombinasi input-output yang mungkin meningkat secara eksponensial, sementara data latih yang selaras untuk banyak kelompok modalitas jarang atau bahkan tidak ada.

Mari kita berkenalan dengan CoDi, yang diusulkan untuk mengatasi tantangan ini. CoDi adalah arsitektur neural yang baru yang memungkinkan pemrosesan dan generasi simultan dari kombinasi modalitas apa pun.

CoDi mengusulkan untuk menyelaraskan beberapa modalitas baik dalam kondisi input maupun langkah difusi generasi. Selain itu, CoDi memperkenalkan strategi “Bridging Alignment” untuk pembelajaran kontras, yang memungkinkannya untuk secara efisien memodelkan jumlah eksponensial kombinasi input-output dengan jumlah objektif latihan yang linear.

Inovasi utama dari CoDi terletak pada kemampuannya untuk mengatasi generasi apa pun-ke-apa pun dengan memanfaatkan kombinasi model difusi laten (LDM), mekanisme kondisioanl multmodal, dan modul cross-attention. Dengan melatih LDM terpisah untuk setiap modalitas dan memproyeksikan modalitas input ke dalam ruang fitur bersama, CoDi dapat menghasilkan modalitas apa pun atau kombinasi modalitas tanpa pelatihan langsung untuk pengaturan tersebut.

Pengembangan CoDi membutuhkan desain model yang komprehensif dan pelatihan pada sumber daya data yang beragam. Pertama, pelatihan dimulai dengan model difusi laten (LDM) untuk setiap modalitas, seperti teks, gambar, video, dan audio. Model-model ini dapat dilatih secara independen secara paralel, sehingga menghasilkan kualitas generasi modality tunggal yang luar biasa dengan menggunakan data pelatihan khusus modalitas. Untuk generasi lintas modalitas bersyarat, di mana gambar dihasilkan menggunakan prompt audio + bahasa, modalitas input diproyeksikan ke dalam ruang fitur bersama, dan LDM output menghadiri kombinasi fitur input. Mekanisme kondisi multmodal ini mempersiapkan model difusi untuk menangani modalitas atau kombinasi modalitas apa pun tanpa pelatihan langsung untuk pengaturan tersebut.

Pada tahap pelatihan kedua, CoDi menangani strategi generasi banyak-ke-banyak yang melibatkan generasi simultan dari kombinasi modalitas output apa pun. Hal ini dicapai dengan menambahkan modul cross-attention ke setiap diffuser dan pengkode lingkungan untuk memproyeksikan variabel laten dari LDM yang berbeda ke dalam ruang laten bersama. Kemampuan generasi yang mulus ini memungkinkan CoDi untuk menghasilkan kelompok modalitas apa pun tanpa melatih pada semua kombinasi generasi yang mungkin, mengurangi jumlah tujuan pelatihan dari eksponensial menjadi linear.

Dalam kesimpulan, CoDi adalah langkah maju yang signifikan dalam bidang generative AI. Dengan kemampuannya untuk menghasilkan kombinasi modalitas apa pun secara simultan, CoDi membuka pintu bagi aplikasi yang lebih luas dalam bidang pengenalan pola, pemrosesan data, dan kreativitas.

Disarikan dari: Citation