Large Language Models (LLMs) telah mengubah pemahaman bahasa alami dalam beberapa tahun terakhir, dengan menunjukkan kemampuan yang luar biasa dalam pemahaman semantik, pemecahan masalah kueri, dan produksi teks, terutama dalam lingkungan zero-shot dan few-shot. Beberapa metode telah diajukan untuk menggunakan LLM dalam tugas yang melibatkan visi. Salah satunya adalah dengan melatih pengkode optik untuk merepresentasikan setiap gambar sebagai serangkaian embedding yang kontinu, sehingga LLM dapat memahaminya. Metode lain menggunakan pengkodean visi yang dibekukan yang dilatih secara kontras, sementara menambahkan lapisan tambahan pada LLM yang dibekukan dan kemudian dipelajari dari awal.
Metode lainnya merekomendasikan pelatihan sebuah transformer ringan untuk menyelaraskan pengkodean visual yang dibekukan (dilatih secara kontras) dan LLM yang dibekukan. Meskipun telah ada kemajuan dalam penelitian di atas, masih sulit untuk membenarkan biaya komputasi tahap-tahap pretraining tambahan. Selain itu, diperlukan pangkalan data besar, termasuk teks, foto, dan video, untuk menyelaraskan modalitas visual dan linguistik dengan LLM yang sudah ada. Flamingo menambahkan lapisan-lapisan cross-attention baru ke dalam LLM yang telah dilatih sebelumnya untuk menambahkan fitur visual.
Tahap pretraining multimodal ini membutuhkan 2 miliar pasangan gambar-teks yang menakjubkan dan 43 juta situs web, yang dapat memakan waktu hingga 15 hari, bahkan dengan menggunakan pengkode gambar yang telah dilatih sebelumnya dan LLM yang dibekukan. Sebagai gantinya, dengan menggunakan berbagai “modul visi”, mereka dapat mengekstrak informasi dari input visual dan menghasilkan representasi teks yang terperinci (seperti tag, atribut, tindakan, dan hubungan, antara lain), yang kemudian dapat mereka berikan langsung ke LLM untuk menghindari kebutuhan pretraining multimodal tambahan. Peneliti dari Contextual AI dan Stanford University memperkenalkan LENS (Large Language Models Enhanced to See), sebuah strategi modular yang menggunakan LLM sebagai “modul penalaran” dan berfungsi di berbagai “modul visi” terpisah.
Mereka pertama-tama mengekstraksi informasi teks yang kaya dalam teknik LENS menggunakan modul visi yang telah dilatih seperti model kontras dan model captioning gambar. Teks tersebut kemudian dikirim ke LLM, memungkinkannya untuk melakukan tugas-tugas seperti pengenalan objek, visi, dan bahasa (V&L). LENS menjembatani kesenjangan antara modalitas secara gratis dengan menghilangkan kebutuhan tahapan pretraining multimodal atau data tambahan. Menggabungkan LENS memberi mereka sebuah model yang beroperasi di berbagai domain tanpa perlu pretraining lintas domain tambahan. Selain itu, integrasi ini memungkinkan penggunaan langsung perkembangan terbaru dalam pengolahan citra dan pemrosesan bahasa alami, memaksimalkan keuntungan yang terkait dengan kedua disiplin tersebut.
Mereka memberikan kontribusi berikut:
1. Mereka memperkenalkan LENS, sebuah metode modular yang menangani tantangan pengolahan citra melalui kemampuan belajar dalam konteks model bahasa yang sedikit, dengan menggunakan deskripsi bahasa alami dari masukan visual.
2. LENS memberikan kemampuan kepada LLM apa pun yang sudah ada untuk melihat tanpa pelatihan atau data tambahan.
3. Mereka menggunakan LLM yang dibekukan untuk menangani pengenalan objek dan tugas penalaran visual tanpa penyesuaian lintas bahasa dan data multimodal tambahan. Hasil eksperimen menunjukkan bahwa pendekatan mereka mencapai performa zero-shot yang kompetitif atau lebih unggul dibandingkan dengan model yang dilatih bersama seperti Kosmos dan Flamingo.
Dengan menggunakan LENS, mereka dapat mengatasi kendala biaya dan kebutuhan akan data pretraining multimodal tambahan. Ini memungkinkan penggunaan langsung dari LLM yang sudah ada tanpa perlu melakukan tahapan pretraining tambahan. Selain itu, integrasi LLM dengan modul-modul visi memungkinkan pemanfaatan kemajuan terbaru dalam pengolahan citra dan pemrosesan bahasa alami. Ini membuka peluang baru dalam penggunaan LLM untuk pemahaman multimodal dan meningkatkan keahlian dalam memahami dan memanipulasi data visual dan teks.
Disarikan dari: Source