TRACE: Pendekatan AI Baru untuk Estimasi Posisi dan Bentuk Tubuh Manusia 3D yang Akurat dengan Pelacakan Koordinat Global

Revolusi dalam Estimasi Pose dan Bentuk Manusia 3D

Pengembangan teknologi dalam estimasi pose dan bentuk manusia 3D (HPS) telah memberikan banyak manfaat dalam berbagai bidang. Namun, sebagian besar pendekatan yang ada hanya mempertimbangkan satu frame pada satu waktu, yang mana hanya dapat mengestimasi posisi manusia relatif terhadap kamera. Selain itu, teknik-teknik ini tidak dapat mengikuti individu seiring perjalanan mereka di seluruh dunia. Masalah ini semakin kompleks pada video yang diambil dengan kamera yang bergoyang dan tidak stabil.

Untuk mengatasi masalah ini, para peneliti dari Harbin Institute of Technology, Explore Academy of JD.com, Max Planck Institute for Intelligent Systems, dan HiDream.ai mengimplementasikan teknik TRACE yang inovatif dengan menggunakan representasi 5D (ruang, waktu, dan identitas) untuk melakukan penalaran tentang individu dalam situasi tertentu. TRACE memiliki fitur arsitektur yang inovatif, terutama menggunakan dua “Maps” yang baru untuk menalar tentang gerakan 3D manusia dalam ruang dan waktu, baik dari perspektif kamera maupun perspektif dunia. Dengan bantuan modul memori kedua, TRACE dapat melacak individu bahkan setelah absen dalam waktu yang lama. TRACE dapat memulihkan model manusia 3D dalam koordinat global dari kamera yang bergerak dalam satu langkah dan secara simultan melacak pergerakan mereka.

Tujuan utama dari penelitian ini adalah merekonstruksi koordinat global, posisi 3D, bentuk, identitas, dan gerakan setiap individu secara simultan. Untuk mencapai hal ini, TRACE pertama-tama mengekstraksi informasi temporal sebelum menggunakan jaringan otak yang didedikasikan untuk mendekode setiap sub-tugas. TRACE menggunakan dua sumbu paralel untuk mengkodekan video dan gerakan menjadi peta fitur terpisah, satu untuk gambar temporal (F’i) dan satu untuk gerakan (Oi). Dengan menggunakan fitur ini, sub-pohon Deteksi dan Pelacakan menjalankan pelacakan multi-subjek untuk merekonstruksi gerakan manusia 3D dalam koordinat kamera.

Salah satu fitur inovatif dari TRACE adalah peta offset gerakan 3D yang memperlihatkan gerakan relatif setiap subjek dalam ruang antara dua frame. Unit memori inovatif mengekstraksi identitas subjek dan membangun lintasan manusia dalam koordinat kamera menggunakan deteksi 3D yang diestimasi dan offset gerakan 3D. Cabang Dunia dari TRACE kemudian menghitung peta gerakan dunia untuk memperkirakan lintasan subjek dalam koordinat global.

Namun, tantangan dalam pelatihan dan evaluasi estimasi lintasan manusia global masih ada, terutama dalam mengumpulkan data dunia nyata. Oleh karena itu, tim peneliti mensimulasikan gerakan kamera untuk mengubah film liar yang diambil oleh kamera diam menjadi video dengan gerakan kamera dinamis (DynaCam) dan menghasilkan dataset baru. TRACE diuji menggunakan dataset DynaCam dan dua benchmark manusia multi-person di lingkungan alam liar. Hasil penelitian menunjukkan bahwa TRACE memberikan hasil terbaik pada dataset 3DPW dan mampu melacak manusia di bawah oklusi jangka panjang lebih baik daripada pendekatan berbasis representasi 3D sebelumnya dan metode pelacakan berdasarkan deteksi. TRACE juga berhasil mengungguli GLAMR pada DynaCam dalam menghitung keseluruhan lintasan 3D manusia dari video dengan gerakan kamera dinamis.

Perspektif Masa Depan dalam Estimasi Gerakan Kamera

Meskipun TRACE telah memberikan kemajuan yang signifikan dalam estimasi pose dan bentuk manusia 3D, masalah utama yang masih perlu ditangani adalah estimasi gerakan kamera yang eksplisit. Data pelatihan seperti BEDLAM dengan gerakan manusia yang kompleks, adegan 3D, dan gerakan kamera dapat digunakan untuk mengatasi masalah ini.

Dalam penelitian mendatang, diharapkan bahwa estimasi gerakan kamera yang eksplisit dapat diinvestigasi dengan menggunakan data pelatihan seperti BEDLAM. Hal ini akan memungkinkan pengembangan teknik yang lebih baik dalam estimasi gerakan kamera yang dapat meningkatkan kinerja sistem seperti TRACE. Dengan adanya teknik yang lebih baik dalam estimasi gerakan kamera, estimasi pose dan bentuk manusia 3D akan semakin akurat dan dapat digunakan dalam berbagai aplikasi di masa depan.

Dalam kesimpulan, TRACE merupakan terobosan penting dalam estimasi pose dan bentuk manusia 3D. Dengan menggunakan representasi 5D dan teknik penalaran yang inovatif, TRACE dapat merekonstruksi model manusia 3D dalam koordinat global dan melacak pergerakan mereka dalam video dengan gerakan kamera dinamis. Meskipun masih ada tantangan dalam estimasi gerakan kamera yang eksplisit, TRACE telah memberikan hasil yang sangat baik dalam benchmark dan dataset yang digunakan dalam penelitian ini. Diharapkan bahwa penelitian ini akan mendorong perkembangan lebih lanjut dalam bidang estimasi pose dan bentuk manusia 3D, membuka pintu bagi aplikasi yang lebih luas di masa depan.

Disarikan dari: Citation