ONE-PEACE: Model Representasi Universal yang Mampu Mengintegrasikan Modalitas Berbeda
Dalam pengembangan ilmu kecerdasan buatan, model representasi telah menjadi fokus perhatian di bidang komputer vision, pengolahan bahasa alami, dan lain-lain. Model representasi mampu mempelajari data dalam jumlah besar dan mampu menghasilkan hasil generalisasi yang tinggi pada berbagai tugas downstream. Dalam beberapa tahun terakhir, terdapat lonjakan permintaan akan model representasi khususnya setelah kemunculan model bahasa besar dengan skala besar (large-scale language model/LLMs).
Penelitian terbaru menunjukkan bahwa model representasi memiliki peran penting dalam membantu LLMs berinteraksi dengan modalitas lain seperti vision. Namun, penelitian sebelumnya lebih difokuskan pada pengembangan model representasi unimodal dengan topologi dan tugas pretraining yang berbeda-beda tergantung pada jenis modalitas.
Belakang hal tersebut, para peneliti dari DAMO Academy dan Huazhong University of Science and Technology mengusulkan ONE-PEACE, sebuah model dengan 4 miliar parameter yang mampu mengintegrasikan representasi dari modalitas visual, audio, dan bahasa. Arsitektur ONE-PEACE terdiri dari modality fusion encoder dan banyak modality adapters. Adaptor setiap modalitas bertugas untuk mengubah input awal menjadi urutan fitur, sedangkan modality fusion encoder menggunakan urutan fitur berbasis arsitektur Transformer.
Pada setiap blok Transformer, terdapat lapisan self-attention yang digunakan untuk memungkinkan interaksi antara fitur multi-modal, dan beberapa modality Feed Forward Networks (FFNs) digunakan untuk mengekstraksi informasi dalam modalitas masing-masing.
Peningkatan Performa pada Tugas Multi-modal
Penggunaan pretraining pada ONE-PEACE terdiri dari dua metode utama, yaitu cross-modal contrastive learning dan intra-modal denoising contrastive learning. Keduanya bertujuan untuk menghasilkan representasi yang seragam dan mampu mengintegrasikan modalitas berbeda.
Metode cross-modal contrastive learning menggabungkan kontras pembelajaran vision-language dan audio-language untuk menghasilkan ruang semantik dari tiga modalitas yaitu visual, audio, dan bahasa. Sedangkan metode intra-modal denoising contrastive learning menggabungkan prediksi masked dan kontras pengetahuan.
Hasil uji coba ONE-PEACE menunjukkan bahwa model ini mampu menghasilkan performa terbaik pada tugas multi-modal tanpa menggunakan model pre-training pada bahasa atau vision untuk inisialisasi pada tugas uni-modal maupun multi-modal.
Skalabilitas dalam Modalitas Berbeda
Salah satu keunggulan dari ONE-PEACE adalah mudahnya penambahan modalitas baru dengan menambahkan adaptor dan FFNs. Hal ini memungkinkan pengembangan model representasi universal yang dapat mengakomodasi jumlah modalitas yang tak terbatas. Selain itu, ONE-PEACE juga menghilangkan kebutuhan akan rencana modalitas khusus karena model ini dapat digunakan pada semua modalitas.
Dalam penelitian selanjutnya, ONE-PEACE diharapkan mampu diaplikasikan pada data multi-modal seperti image-text dan audio-text pairings sehingga memungkinkan pengembangan aplikasi yang lebih luas.
Secara keseluruhan, pengembangan model representasi seperti ONE-PEACE menunjukkan potensi besar dalam membantu pengembangan aplikasi kecerdasan buatan yang dapat memperoleh informasi dari modalitas yang berbeda. Dengan kemampuan yang skalabel dan pretraining yang efektif, ONE-PEACE dapat menjadi solusi bagi pengembang aplikasi yang membutuhkan interaksi antar-modalitas.
Disarikan dari: Source