“Paxion: Kerangka Kerja Baru untuk Memperbaiki Pemahaman Aksi dalam Model Bahasa-Video”

VidLMs Butuh Peningkatan Pemahaman Aksi

Model bahasa-video terbaru (VidLMs) menunjukkan kinerja luar biasa dalam berbagai tugas bahasa-video. Namun, model multimodal ini memiliki kekurangan. Beberapa penelitian menunjukkan bahwa model tersebut kesulitan memahami hubungan komposisi dan urutan dalam gambar, memperlakukan gambar sebagai kumpulan objek, dan banyak uji coba video-bahasa populer yang dapat diselesaikan dengan melihat satu frame saja. Keterbatasan tersebut menunjukkan bahwa kesadaran model terhadap koneksi objek dan pemahaman aksi, yang mungkin membutuhkan banyak struktur, harus ditingkatkan.

Untuk menguji hipotesis ini, para peneliti dari UIUC dan UNC memperkenalkan Action Dynamics Benchmark (ActionBench) untuk mengukur pemahaman aksi model. ActionBench mencakup dua tugas yang menantang: mengidentifikasi (1) film asli dan terbalik dan (2) keterangan video dengan kata kerja aksi yang digantikan dengan antonimnya. Tantangan dasar untuk meminimalkan efek negatif ketidakcocokan domain dan memeriksa potensi bias yang menguntungkan objek juga termasuk dalam benchmark. Tantangan dasar ini adalah membedakan antara teks video asli dan versi yang diedit dengan penggantian item sembarang.

Model VidLMs modern hampir acak pada tugas pemantauan yang berorientasi pada aksi, tetapi sangat baik pada tes dasar berorientasi pada objek. Hal ini menunjukkan kebutuhan akan pemahaman aksi dalam VidLMs. Kinerja luar biasa mereka pada benchmark lain mungkin disebabkan oleh keterampilan identifikasi objek mereka daripada pemahaman aksi. Para peneliti menawarkan kerangka unik yang disebut PAXION (Patching Actions) untuk memperbaiki kekurangan ini.

Sub-topik 1: Solusi untuk Peningkatan Pemahaman Aksi pada VidLMs

PAXION terdiri dari dua bagian utama, yaitu Knowledge Patcher dan Knowledge Fuser. Knowledge Patcher adalah modul ringan yang didasarkan pada Perceiver yang dikaitkan dengan tulang belakang VidLM yang dibekukan untuk menambahkan representasi yang sadar akan aksi. Tujuannya adalah memaksa model untuk mengidentifikasi korelasi antara penanda teks aksi dan representasi visual aksi.

Untuk menambahkan representasi yang sadar akan aksi ke VidLM, para peneliti menghadirkan objektif Discriminative Video Dynamics Modelling (DVDM). Tujuannya adalah memaksa model untuk mempelajari korelasi antara penanda teks aksi dan representasi visual aksi. Video-Action Contrastive (VAC) dan Action-Temporal Matching (ATM), dua fitur baru dalam DVDM, kompatibel dengan VTC tanpa memerlukan pengaturan yang berbeda.

Sub-topik 2: Penilaian Resilience PAXION

Para peneliti juga mengevaluasi resilience PAXION dalam pengaturan transfer domain lintas-nol pada dataset Moments-in-Time dan Kinetics. Mereka menemukan bahwa memasang PAXION dengan model tulang belakang dapat positif ditransfer ke domain baru sambil meningkatkan kekuatan pada perubahan domain.

Ini adalah studi pertama yang secara ketat menganalisis pemahaman aksi dan memasukkannya ke dalam model dasar bahasa-video sesuai kemampuan terbaik mereka. Tiga kontribusi utama para peneliti adalah Action Dynamics Benchmark, kerangka pembelajaran unik PAXION, dan tujuan DVDM yang mendorong model untuk memperbaiki pemahaman tentang benda dan aktivitas. PAXION dengan DVDM meningkatkan saling pemahaman benda dan aktivitas sambil tahan terhadap pergeseran domain.

Disarikan dari: Source