HOSNeRF: Model AI Yang Bisa Membuat Video Anda Menjadi Lebih Dinamis Dengan Neural Radiance Fields

Teknologi media immersif menjadi topik yang hangat dibicarakan belakangan ini berkat kemajuan dalam metode rekonstruksi 3D. Terutama rekonstruksi video dan rendering sudut pandang bebas telah muncul sebagai teknologi yang kuat, memungkinkan keterlibatan pengguna yang lebih baik dan pembuatan lingkungan yang realistis. Metode-metode ini telah diterapkan dalam berbagai bidang, termasuk realitas virtual, telepresence, metaverse, dan produksi animasi 3D.

Namun, merekonstruksi video juga memiliki tantangan tersendiri. Hal ini terutama terjadi ketika berurusan dengan sudut pandang monokuler dan interaksi kompleks manusia dengan lingkungan. Jika semuanya sederhana, maka tantangan tersebut mudah diatasi, tapi kenyataannya interaksi kita dengan lingkungan virtual cukup sulit diprediksi, sehingga sulit untuk ditangani.

Namun, telah terjadi kemajuan signifikan dalam lapangan sintesis pandangan, dengan Neural Radiance Fields (NeRF) memainkan peran penting. NeRF awalnya diusulkan untuk merekonstruksi adegan 3D statis dari gambar multi-view. Namun, kesuksesannya yang besar telah menarik perhatian, dan sejak saat itu, telah ditingkatkan untuk mengatasi tantangan sintesis tampilan dinamis. Para peneliti telah mengusulkan beberapa pendekatan untuk menggabungkan elemen dinamis, seperti lapangan deformasi dan lapangan radiance spatiotemporal. Selain itu, telah ada fokus khusus pada pemodelan manusia neural yang dinamis, memanfaatkan pose manusia yang diestimasi sebagai informasi sebelumnya.

Meskipun kemajuan ini menunjukkan harapan, merekonstruksi video monokuler yang sulit dengan gerakan manusia-benda-lapangan yang cepat dan kompleks tetap merupakan tantangan besar. Oleh karena itu, diperlukan pengembangan lebih lanjut pada NeRFs agar dapat merekonstruksi interaksi manusia-lingkungan yang kompleks dengan akurasi yang tinggi.

Sub-topik 1: Pengembangan HOSNeRF

Human-Object-Scene Neural Radiance Fields (HOSNeRF) diperkenalkan untuk mengatasi batasan NeRF. HOSNeRF menangani tantangan yang terkait dengan gerakan objek yang kompleks dalam interaksi manusia-objek dan interaksi dinamis antara manusia dan berbagai objek pada waktu yang berbeda. Dengan menggabungkan tulang objek yang terhubung ke hierarki kerangka manusia, HOSNeRF memungkinkan estimasi deformasi objek yang akurat selama interaksi manusia-objek. Selain itu, dua embedding keadaan objek yang dapat dipelajari telah diperkenalkan untuk menangani penghapusan dan penambahan objek dinamis dalam model latar belakang statis dan model manusia-objek.

Sub-topik 2: Keunggulan HOSNeRF

Pengembangan HOSNeRF melibatkan eksplorasi dan identifikasi objektif dan strategi pelatihan yang efektif. Pertimbangan utama meliputi konsistensi siklus deformasi, supervisi aliran optik, dan rendering depan-belakang. HOSNeRF dapat mencapai sintesis pandangan baru dinamis dengan akurasi yang tinggi. Selain itu, memungkinkan untuk menunda video monokuler kapan saja dan merender semua detail adegan, termasuk manusia dinamis, objek, dan latar belakang, dari sudut pandang sembarang. Jadi, Anda benar-benar dapat menikmati adegan Neo menghindari peluru di film The Matrix.

HOSNeRF menyajikan kerangka kerja revolusioner yang mencapai sintesis pandangan bebas 360 derajat dengan akurasi tinggi untuk adegan dinamis dengan interaksi manusia-lingkungan, semuanya dari satu video. Pengenalan tulang objek dan representasi kondisional keadaan memungkinkan HOSNeRF untuk efektif menangani gerakan non-rigid dan interaksi yang kompleks antara manusia, objek, dan lingkungan.

Disarikan dari: Citation