VideoChat: Sistem Pemahaman Video Berbasis Obrolan Yang Menggabungkan Model Bahasa Dan Visual

Baru-baru ini, kelompok peneliti dari Shanghai AI Laboratory’s OpenGVLab, Nanjing University, University of Hong Kong, Shenzhen Institute of Advanced Technology, dan Chinese Academy of Sciences mengembangkan sistem VideoChat yang revolusioner. Sistem VideoChat menerapkan pemodelan spasial temporal dengan menggunakan model pemahaman bahasa dan video terkini untuk meningkatkan pemahaman dan penerapan video secara umum.

Sistem VideoChat dapat digunakan untuk melakukan kegiatan terkait gambar melalui dialog multi-putaran dengan pertanyaan pengguna melalui leveransir bahasa yang sudah belajar (LLM), pemendek gambar, dan modul yang dapat dipelajari tambahan untuk mengatasi masalah video-centric dalam pengolahan data dengan machine learning.

Dataset berisi ribuan video dan deskripsi yang disertai diskusi yang diberikan kepada ChatGPT secara kronologis kemudian dikembangkan oleh kelompok untuk melatih sistem VideoChat. Dataset ini sangat berguna untuk melatih sistem dialog multimodal berbasis video yang fokus pada objek spasial temporal, tindakan, peristiwa, dan hubungan sebab-akibat.

Metode yang diperlukan untuk mengembangkan sistem VideoChat dari perspektif data disediakan oleh sistem yang diusulkan, yang menggabungkan model dasar video terkini dengan LLM dalam antarmuka saraf yang dapat dipelajari. Model dasar bahasa dan video digabungkan dengan antarmuka token video-bahasa yang dapat dipelajari (VLTF) yang diatur dengan data video-teks untuk mengkodekan video sebagai embedding.

Keuntungan dan Masalah yang Dihadapi

Sistem ini memberikan sumbangsih dalam pengembangan pemahaman dan penerapan video secara umum karena model dasar yang digunakan dapat digunakan pada berbagai aplikasi dunia nyata. Namun, masih terdapat beberapa masalah yang perlu diatasi, diantaranya:

Video yang berdurasi lebih dari 1 menit cukup sulit untuk dikelola baik dalam VideoChat-Text maupun VideoChat-Embed. Oleh karena itu, diperlukan investigasi lebih lanjut tentang bagaimana memodelkan konteks video yang lebih panjang dengan efisien dan efektif. Selain itu, hal ini mungkin sulit untuk dilakukan agar dapat memberikan interaksi yang ramah pengguna ketika memproses video yang lebih panjang karena keseimbangan waktu respons, penggunaan memori GPU, dan ekspektasi pengguna terhadap kinerja sistem.
Kemampuan pemodelan spasial temporal dan hubungan sebab-akibat masih dalam tahap awal pengembangan dalam sistem. Hal ini disebabkan oleh keterbatasan data dan metode yang digunakan untuk menghasilkan data untuk sistem dan model yang digunakan.
Prediksi instruksi tugas egosentris dan pemantauan cerdas adalah contoh aplikasi yang sensitif terhadap waktu dan kinerja yang menjadi masalah yang terus menerus.

Focus ke Depan

Tim pengembang VideoChat bertujuan untuk membuka jalan bagi berbagai aplikasi dunia nyata di berbagai bidang dengan memajukan integrasi pengolahan bahasa alami dan video untuk pemahaman dan penalaran video. Beberapa titik fokus ke depan yang dipaparkan oleh tim pengembang adalah:

Meningkatkan pemodelan spasial temporal model dasar video dengan mengembangkan kapasitas dan data mereka.
Data pelatihan multimodal dan penilaian penalaran dengan fokus pada video untuk penilaian skala besar.
Metode pengolahan video untuk jangka panjang.

Sistem VideoChat menyarankan metode baru dalam pengolahan video dengan pendekatan data-centric menggunakan machine learning. Sebagian besar masalah terkait pemodelan spasial temporal dan hubungan sebab-akibat masih dalam tahap awal pengembangan dan perlu diselesaikan secara efektif. Namun, sistem ini memperkenalkan kemajuan yang signifikan dalam pengembangan pemahaman dan penerapan video secara umum dan dapat menjadi langkah penting ke depannya.

Disarikan dari: Citation