Peneliti UC Berkeley dan Meta AI Usulkan Model Pengenalan Tindakan Aksi Lagrangian dengan Menggabungkan Posisi 3D dan Penampilan Kontekstual pada Tracklet

Kekuatan dari Pemodelan Tindakan Lagrangian dalam Pemahaman Gerakan Manusia

Dalam bidang mekanika fluida, terdapat dua pendekatan yang umum digunakan dalam mempelajari aliran fluida, yaitu pendekatan Lagrangian dan pendekatan Eulerian. Pendekatan Lagrangian melibatkan pengamatan terhadap aliran fluida dengan mengikuti partikel fluida tertentu seiring dengan waktu dan ruang. Dalam hal ini, pengamat mengikuti partikel seolah-olah sedang mengapung di sungai dalam sebuah perahu. Sementara itu, pendekatan Eulerian lebih menekankan pada lokasi-lokasi dalam ruang di mana fluida mengalir seiring berjalannya waktu. Dalam hal ini, pengamat diam di tepi sungai dan mengamati air yang mengalir melewati titik tetap.

Konsep ini juga sangat penting dalam pemahaman tentang analisis rekaman aksi manusia. Dalam perspektif Eulerian, peneliti akan berkonsentrasi pada vektor fitur di lokasi tertentu, seperti (x, y) atau (x, y, z), dengan mempertimbangkan evolusi historis sambil tetap diam di tempat. Sementara itu, dalam perspektif Lagrangian, peneliti akan mengikuti pergerakan manusia sepanjang ruang dan waktu serta vektor fitur yang terkait. Pada awalnya, penelitian tentang pengenalan aktivitas sering menggunakan pandangan Lagrangian. Namun, dengan perkembangan jaringan saraf berbasis konvolusi 3D dalam metode terkini seperti SlowFast Networks, pandangan Eulerian telah menjadi norma. Pandangan Eulerian ini tetap dipertahankan bahkan setelah penggantian dengan sistem transformer.

Pendekatan ini memiliki signifikansi karena memberikan kesempatan bagi kita untuk mempertanyakan “apa yang harus menjadi lawan kata dari kata-kata dalam analisis video?” saat proses tokenisasi untuk transformer. Dosovitskiy et al. merekomendasikan penggunaan potongan gambar sebagai pilihan yang baik, dan konsep tersebut dapat diperluas ke video dengan menggunakan kubus spasial-temporal sebagai representasi video. Namun, dalam penelitian ini, peneliti lebih memilih pendekatan Lagrangian untuk mempelajari perilaku manusia. Hal ini menunjukkan bahwa mereka mempertimbangkan perjalanan suatu entitas sepanjang waktu. Entitas ini dapat berupa tingkat tinggi, seperti manusia, atau tingkat rendah, seperti piksel atau potongan gambar. Mereka memilih untuk bekerja pada tingkat “manusia-sebagai-entitas” karena mereka tertarik dalam memahami perilaku manusia.

Untuk mencapai tujuan ini, mereka menggunakan teknik yang menganalisis pergerakan seseorang dalam video dan menggunakannya untuk mengidentifikasi aktivitasnya. Mereka dapat mendapatkan lintasan pergerakan ini menggunakan teknik pelacakan 3D terbaru seperti PHALP dan HMR 2.0. PHALP digunakan untuk merekonstruksi lintasan orang dari video dengan mengubahnya menjadi representasi 3D, sehingga memungkinkan penghubungan orang dari beberapa frame dan mengakses representasi 3D mereka. Mereka menggunakan representasi 3D ini, yaitu pose dan lokasi 3D orang sebagai elemen dasar setiap token. Dengan demikian, mereka dapat membangun sistem yang fleksibel di mana model, dalam hal ini transformer, menerima token yang berasal dari berbagai individu dengan akses terhadap identitas, posisi 3D, dan lokasi 3D mereka sebagai input. Dengan menggunakan lokasi 3D individu dalam suatu situasi, kita dapat mempelajari interaksi antar individu.

Model berbasis token mereka mengungguli pendekatan dasar sebelumnya yang hanya menggunakan data posisi dan dapat menggunakan pelacakan 3D. Meskipun evolusi posisi seseorang sepanjang waktu adalah sinyal yang kuat, beberapa aktivitas membutuhkan pengetahuan latar belakang tambahan tentang lingkungan dan penampilan seseorang. Oleh karena itu, penting untuk menggabungkan posisi dengan data tentang penampilan orang dan konteks dari video yang diperoleh langsung dari piksel. Untuk mencapainya, mereka juga menggunakan model pengenalan aksi terbaru untuk menyediakan data tambahan berdasarkan penampilan terkontekstualisasi orang dan lingkungan dalam kerangka kerja Lagrangian. Mereka secara khusus mencatat atribut penampilan terkontekstualisasi yang berlokasi di sekitar setiap lintasan dengan menjalankan model-model tersebut secara intensif sepanjang lintasan.

Token yang mereka proses melalui tulang punggung pengenalan aksi mengandung informasi eksplisit tentang posisi 3D individu serta data penampilan yang diambil dari piksel secara detail. Dalam dataset AVA v2.2 yang sulit, sistem mereka secara keseluruhan mengungguli penelitian sebelumnya dengan selisih yang signifikan sebesar 2,8 mAP. Secara keseluruhan, kontribusi utama mereka adalah pengenalan metodologi yang menekankan manfaat pelacakan dan pose 3D dalam memahami gerakan manusia. Peneliti dari UC Berkeley dan Meta AI mengusulkan metode Lagrangian Action Recognition with Tracking (LART) yang menggunakan lintasan orang untuk memprediksi tindakan mereka. Versi dasar mereka mengungguli pendekatan dasar sebelumnya yang menggunakan informasi posisi menggunakan lintasan tanpa pelacakan dan representasi pose 3D individu dalam video. Selain itu, mereka juga menunjukkan bahwa pendekatan dasar yang hanya mempertimbangkan penampilan dan konteks dari video dapat dengan mudah diintegrasikan dengan pandangan Lagrangian dalam deteksi aksi, yang menghasilkan peningkatan yang signifikan dibandingkan dengan paradigma dominan.

Dengan demikian, pemodelan tindakan Lagrangian dalam memahami gerakan manusia memiliki kekuatan yang besar dalam mengungkap pola dan hubungan antar individu dalam aksi manusia. Pendekatan ini tidak hanya memberikan pemahaman yang lebih komprehensif tentang aktivitas manusia, tetapi juga membuka peluang untuk pengembangan metode baru dalam pengenalan aksi dan analisis video.

Disarikan dari: Source