Video-LLaMA: Kerangka Multi-Modal Yang Memampukan Model Bahasa Besar Memahami Konten Visual Dan Auditory Dalam Video.

Generative Artificial Intelligence atau kecerdasan buatan generatif semakin populer belakangan ini. Sebagai subset dari AI, teknologi ini memungkinkan Large Language Models (LLMs) untuk menghasilkan data baru dengan belajar dari data teks yang tersedia dalam jumlah besar. LLMs memahami dan mengikuti instruksi pengguna melalui percakapan berbasis teks. Model ini meniru tingkah laku manusia untuk menghasilkan konten baru dan kreatif, merangkum paragraf teks yang panjang, menjawab pertanyaan dengan tepat, dan lain sebagainya. Namun, LLMs terbatas pada percakapan berbasis teks, yang menjadi batasan karena interaksi hanya melalui teks tidaklah menjadi bentuk komunikasi yang optimal bagi asisten AI atau chatbot yang kuat.

Sub-topik 1: Integrasi Pemahaman Visual pada LLMs

Para peneliti telah berusaha untuk mengintegrasikan kemampuan pemahaman visual pada LLMs, seperti kerangka kerja BLIP-2, yang melakukan pra-pelatihan visual-bahasa dengan menggunakan enkoder gambar pra-pelatihan beku dan dekoder bahasa. Namun, integrasi video yang menjadi kontributor besar konten di media sosial saat ini, masih menjadi tantangan. Hal ini karena sulit untuk memahami adegan visual yang tidak statis dengan efektif dan lebih sulit untuk menutup kesenjangan modal antara gambar dan teks daripada menutup kesenjangan modal antara video dan teks karena hal ini membutuhkan pemrosesan input visual dan audio.

Sub-topik 2: Pengenalan Video-LLaMA

Untuk mengatasi tantangan ini, tim peneliti dari DAMO Academy, Alibaba Group, memperkenalkan Video-LLaMA, sebuah model bahasa audio-visual yang disesuaikan dengan instruksi untuk memahami video. Kerangka multi-modal ini meningkatkan model bahasa dengan kemampuan untuk memahami konten visual dan audio dalam video. Video-LLaMA secara eksplisit mengatasi kesulitan dalam mengintegrasikan informasi audio-visual dan tantangan dari perubahan temporal dalam adegan visual, berbeda dengan LLMs sebelumnya yang hanya berfokus pada pemahaman gambar statis.

Tim peneliti juga memperkenalkan Video Q-former yang menangkap perubahan temporal dalam adegan visual. Komponen ini memasang enkoder gambar pra-pelatihan ke dalam enkoder video dan memungkinkan model untuk memproses bingkai video. Dengan tugas generasi video-teks, model dilatih pada koneksi antara video dan deskripsi teks. ImageBind telah digunakan untuk mengintegrasikan sinyal audio-visual sebagai enkoder audio pra-pelatihan. Ini adalah model embedding universal yang menyelaraskan berbagai modalitas dan dikenal karena kemampuannya dalam mengatasi berbagai jenis input dan menghasilkan embedding yang seragam. Audio Q-former juga digunakan di atas ImageBind untuk mempelajari embedding kueri auditori yang wajar untuk modul LLM.

Video-LLaMA telah dilatih pada pasangan video dan keterangan gambar skala besar untuk menyelaraskan output dari enkoder visual dan audio dengan ruang embedding LLM. Data pelatihan ini memungkinkan model untuk belajar korespondensi antara informasi visual dan teks. Video-LLaMA disesuaikan kembali pada dataset tuning instruksi visual yang menyediakan data berkualitas tinggi untuk melatih model untuk menghasilkan respons yang didasarkan pada informasi visual dan auditori.

Hasil eksperimen menunjukkan bahwa Video-LLaMA dapat mempersepsi dan memahami konten video, dan menghasilkan balasan yang berpengaruh oleh data audio-visual yang disediakan dalam video. Secara keseluruhan, Video-LLaMA memiliki potensi sebagai prototipe asisten AI audio-visual yang dapat bereaksi terhadap input visual dan audio dalam video dan dapat memberdayakan LLMs dengan kemampuan pemahaman audio dan video.

Dalam era yang semakin canggih ini, integrasi kemampuan audio-visual pada AI menjadi semakin penting. Dengan Video-LLaMA, teknologi AI semakin dekat dengan kemampuan manusia dalam memahami dan merespon dunia yang ada di sekitarnya.

Disarikan dari: Source