Menentukan Masa Depan Kecerdasan Buatan: Survei Komprehensif tentang Model Pre-Training Visi-Bahasa dan Peran Mereka dalam Tugas Uni-Modal dan Multi-Modal

Masa Depan Pretraining Vision-Language (VLP) dalam Kecerdasan Mesin

Dalam rilis terbaru makalah yang diterbitkan di Machine Intelligence Research, sebuah tim peneliti mendalami bidang pretraining vision-language (VLP) dan aplikasinya dalam tugas-tugas multi-modal. Makalah ini menjelajahi ide dari pelatihan uni-modal dan bagaimana hal itu berbeda dari adaptasi multi-modal. Lalu, laporan ini memperlihatkan lima area penting VLP: ekstraksi fitur, arsitektur model, tujuan pretraining, dataset pretraining, dan tugas downstream. Para peneliti kemudian mengulas model-model VLP yang ada dan bagaimana mereka beradaptasi dan muncul di berbagai bidang. Bidang kecerdasan buatan (AI) selalu mencoba melatih model-model sedemikian rupa agar mereka dapat mempersepsikan, berpikir, dan memahami pola dan nuansa seperti manusia. Berbagai upaya telah dilakukan untuk memasukkan sebanyak mungkin bidang data masukan, seperti data visual, audio, atau teks. Namun, sebagian besar pendekatan ini telah mencoba untuk memecahkan masalah “pemahaman” dalam arti uni-modal. Pendekatan uni-modal adalah pendekatan di mana Anda menilai suatu situasi hanya dengan satu aspek saja, seperti dalam sebuah video, Anda hanya fokus pada audionya atau transkripnya, sementara dalam pendekatan multi-modal, Anda mencoba menargetkan sebanyak mungkin fitur yang tersedia dan menggabungkannya ke dalam model. Misalnya, saat menganalisis sebuah video, Anda menggunakan audio, transkripsi, dan ekspresi wajah pembicara untuk benar-benar “memahami” konteksnya.

Pendekatan multi-modal menjadi tantangan karena sumber daya yang dibutuhkan cukup besar dan juga karena sulitnya mendapatkan jumlah data berlabel yang cukup untuk melatih model-model yang mumpuni. Model-model pretraining berdasarkan struktur transformer telah mengatasi masalah ini dengan memanfaatkan pembelajaran mandiri dan tugas-tugas tambahan untuk mempelajari representasi universal dari data tanpa label dalam skala besar. Model-model pretraining secara uni-modal, dimulai dengan BERT dalam NLP, telah menunjukkan efektivitas yang luar biasa dengan penyesuaian halus menggunakan data terbatas yang berlabel untuk tugas-tugas downstream. Para peneliti telah mengeksplorasi kelayakan pretraining vision-language (VLP) dengan memperluas filosofi desain yang sama ke bidang multi-modal. VLP menggunakan model-model pretraining pada dataset yang berskala besar untuk mempelajari korespondensi semantik antara modalitas. Para peneliti mengulas kemajuan yang dibuat dalam pendekatan VLP di lima area utama. Pertama, mereka membahas bagaimana model-model VLP memproses dan merepresentasikan gambar, video, dan teks untuk mendapatkan fitur-fitur yang sesuai, dengan menyoroti berbagai model yang digunakan. Kedua, mereka juga mengeksplorasi dan memeriksa perspektif aliran-tunggal dan penggabungan aliran-ganda serta desain hanya-penyandi versus desain penyandi-dekoder. Makalah ini menjelajahi lebih lanjut tentang pretraining model-model VLP, mengkategorikannya menjadi penyelesaian, pencocokan, dan tipe tertentu. Tujuan-tujuan ini penting karena mereka membantu menentukan representasi universal vision-language. Para peneliti kemudian memberikan gambaran tentang dua kategori utama dari pretraining dataset, yaitu model gambar-bahasa dan model video-bahasa. Makalah ini menekankan bagaimana pendekatan multi-modal membantu mencapai pemahaman dan akurasi yang lebih baik dalam hal memahami konteks dan menghasilkan konten yang lebih terhubung dengan baik. Terakhir, artikel ini menyajikan tujuan dan rincian tugas-tugas downstream dalam VLP, dengan menekankan pentingnya dalam mengevaluasi efektivitas dari model-model pretraining.

Makalah ini menyajikan gambaran rinci tentang model-model VLP terkini. Makalah ini mencantumkan model-model tersebut dan menyoroti fitur-fitur kunci dan kinerjanya. Model-model yang disebutkan dan dibahas adalah dasar yang kuat untuk kemajuan teknologi terkini dan dapat digunakan sebagai tolak ukur untuk pengembangan di masa depan. Berdasarkan penelitian ini, masa depan arsitektur VLP tampak menjanjikan dan dapat diandalkan. Mereka telah mengusulkan berbagai bidang perbaikan, seperti menggabungkan informasi akustik, pembelajaran yang berpengetahuan dan kognitif, penyetelan prompt, kompresi dan percepatan model, serta pretraining di luar domain. Bidang perbaikan ini dimaksudkan untuk menginspirasi para peneliti baru untuk maju dalam bidang VLP dan menghasilkan pendekatan-pendekatan terobosan.

Artikel ini memberikan gambaran yang detail tentang model-model VLP terkini dalam era state-of-the-art (SOTA). Artikel ini mencantumkan model-model tersebut dan menyoroti fitur-fitur kunci dan kinerjanya. Model-model yang disebutkan dan dibahas menjadi dasar yang kuat bagi kemajuan teknologi terkini dan dapat digunakan sebagai tolak ukur untuk pengembangan di masa depan. Dalam penelitian ini, masa depan arsitektur VLP tampak menjanjikan dan dapat diandalkan. Para peneliti telah mengusulkan berbagai bidang perbaikan, seperti menggabungkan informasi akustik, pembelajaran yang berpengetahuan dan kognitif, penyetelan prompt, kompresi dan percepatan model, serta pretraining di luar domain. Bidang perbaikan ini dimaksudkan untuk menginspirasi para peneliti baru untuk maju dalam bidang VLP dan menghasilkan pendekatan-pendekatan terobosan.

[Seksi Pertama: Pendekatan Multi-modal dalam Kecerdasan Mesin]

Dalam era kecerdasan buatan (AI), upaya untuk melatih model-model sedemikian rupa agar mereka dapat memahami konteks seperti manusia telah menjadi fokus utama. Berbagai pendekatan telah diambil, namun sebagian besar berfokus pada pemahaman uni-modal, yakni hanya satu aspek dari data yang dievaluasi. Pendekatan multi-modal, di sisi lain, mencoba untuk memanfaatkan sebanyak mungkin fitur yang tersedia, seperti visual, audio, dan teks, untuk mencapai pemahaman yang lebih baik.

Dalam sebuah video, misalnya, analisis multi-modal akan melibatkan evaluasi audio, transkripsi, dan ekspresi wajah pembicara untuk memahami konteks secara menyeluruh. Pendekatan ini memerlukan sumber daya yang lebih besar dan juga sulit untuk mendapatkan jumlah data berlabel yang cukup untuk melatih model-model yang mumpuni.

[Seksi Kedua: Pretraining Vision-Language (VLP) dan Kemajuan dalam Bidang Multi-modal]

Untuk mengatasi tantangan ini, para peneliti telah mengembangkan model-model pretraining vision-language (VLP) yang menggunakan dataset yang berskala besar untuk mempelajari korespondensi semantik antara modalitas. Model-model VLP ini memproses dan merepresentasikan gambar, video, dan teks untuk mendapatkan fitur-fitur yang sesuai. Ada juga berbagai desain model, seperti single-stream versus dual-stream fusion dan encoder-only versus encoder-decoder.

Selain itu, model-model VLP juga memanfaatkan tujuan pretraining yang berbeda, seperti penyelesaian, pencocokan, dan tipe tertentu, untuk menghasilkan representasi universal vision-language. Dalam hal dataset, terdapat dua kategori utama yang digunakan dalam pretraining, yaitu model gambar-bahasa dan model video-bahasa.

Hasil dari pendekatan multi-modal ini adalah pemahaman dan akurasi yang lebih baik dalam hal memahami konteks dan menghasilkan konten yang lebih terhubung dengan baik. Para peneliti juga telah menyoroti beberapa bidang perbaikan untuk pengembangan masa depan, seperti penggabungan informasi akustik, pembelajaran yang berpengetahuan dan kognitif, penyetelan prompt, kompresi dan percepatan model, serta pretraining di luar domain.

Makalah ini memberikan pandangan yang detail tentang model-model VLP terkini dan menjadi dasar yang kuat bagi kemajuan teknologi dalam bidang ini. Diharapkan bahwa dengan adanya penelitian ini, para peneliti baru akan terinspirasi untuk maju dalam bidang VLP dan menghasilkan terobosan yang baru.

Disarikan dari: Link