Tim Peneliti Dari Google, Cornell, Dan UC Berkeley Mempersembahkan OmniMotion: Metode AI Revolusioner Untuk Estimasi Gerakan Padat Dan Jarak Jauh Dalam Video

Dalam dunia penelitian mengenai pergerakan dalam video, metode pelacakan fitur yang jarang atau aliran optik padat telah menjadi dua metodologi utama yang digunakan dalam algoritma estimasi gerak. Kedua jenis metode ini telah berhasil dalam aplikasi mereka masing-masing. Namun, kedua representasi ini tidak sepenuhnya mampu menggambarkan pergerakan dalam video dengan baik: pelacakan yang jarang tidak dapat menggambarkan pergerakan semua piksel. Sebaliknya, aliran optik berpasangan tidak dapat menangkap jejak pergerakan dalam rangkaian frame yang panjang. Untuk mengurangi kesenjangan ini, banyak metode telah digunakan untuk memprediksi trajektori piksel yang padat dan jarak-jauh dalam video. Metode-metode ini berkisar dari teknik penggabungan medan aliran optik dua frame sederhana hingga algoritma yang lebih canggih yang langsung memprediksi trajektori per piksel dalam beberapa frame.

Namun, semua pendekatan ini mengabaikan informasi dari konteks temporal atau geografis saat menghitung kecepatan. Lokalisasi ini dapat menyebabkan perkiraan gerakan memiliki inkonsistensi spasial-temporal dan kesalahan kumulatif dalam trajektori yang panjang. Bahkan ketika teknik-teknik sebelumnya mempertimbangkan konteks jarak-jauh, mereka melakukannya dalam domain 2D, yang menyebabkan hilangnya pelacakan saat situasi occlusion terjadi. Menciptakan trajektori padat dan jarak-jauh masih memiliki beberapa masalah, termasuk pelacakan titik melalui occlusions, mempertahankan koherensi dalam ruang dan waktu, dan menjaga pelacakan yang akurat dalam periode yang panjang. Dalam penelitian ini, para peneliti dari Cornell University, Google Research, dan UC Berkeley menyediakan metode komprehensif untuk memperkirakan trajektori gerakan sepanjang film untuk setiap piksel dalam video dengan menggunakan semua data video yang tersedia.

Pendekatan mereka, yang mereka sebut OmniMotion, menggunakan representasi quasi-3D di mana kumpulan bijeksi lokal-kanonis memetakan volume 3D kanonis menjadi volume lokal per frame. Bijeksi ini menggambarkan kombinasi gerakan kamera dan adegan sebagai relaksasi fleksibel dari geometri multi-tampilan dinamis. Mereka dapat memantau semua piksel, bahkan yang tersembunyi, dan representasi mereka memastikan konsistensi siklus (“Segalanya, Di Mana-mana”). Untuk secara bersamaan memecahkan gerakan dari seluruh video “Semuanya Sekaligus,” mereka mengoptimalkan representasi mereka untuk setiap video. Setelah optimalisasi, setiap koordinat kontinu dalam film dapat mengakses representasinya untuk mendapatkan trajektori gerakan yang mencakup keseluruhan video.

Dalam kesimpulannya, mereka menyediakan metode yang dapat mengatasi film di alam liar dengan kombinasi gerakan kamera dan adegan apa pun:

1. Menghasilkan trajektori gerakan sepanjang seluruh video yang konsisten secara global untuk semua titik.
2. Dapat melacak titik melalui occlusions.
3. Mampu melacak titik melalui occlusions.

Mereka mengilustrasikan secara statistik keunggulan-keunggulan ini pada benchmark pelacakan video TAP, di mana mereka mencapai kinerja state-of-the-art dan jauh melampaui semua teknik sebelumnya. Mereka telah merilis beberapa video demo di situs web mereka dan berencana untuk merilis kode tersebut dalam waktu dekat.

Seperti yang terlihat dari rute gerakan di atas, mereka menyediakan teknik baru untuk menghitung trajektori gerakan sepanjang film untuk setiap piksel dalam setiap frame video. Mereka hanya menampilkan trajektori yang jarang untuk objek latar belakang untuk menjaga kejelasan, meskipun teknik mereka menghitung gerakan untuk semua piksel. Pendekatan mereka menghasilkan gerakan jarak-jauh yang akurat dan kohesif, bahkan untuk objek yang bergerak cepat, dan dapat melacak dengan andal melalui occlusions, seperti yang ditunjukkan oleh contoh anjing dan ayunan. Barang yang bergerak ditampilkan dalam baris kedua pada titik waktu yang berbeda untuk memberikan konteks.

Dalam kesimpulannya, penelitian ini memberikan metode yang dapat mengatasi film dalam kondisi apa pun dengan kombinasi gerakan kamera dan adegan yang berbeda. Metode ini menghasilkan trajektori gerakan yang akurat, kohesif, dan jarak-jauh untuk setiap piksel dalam setiap frame video. Dengan mengoptimalkan representasi mereka untuk setiap video, peneliti dapat secara bersamaan memecahkan gerakan dari seluruh video “Semuanya Sekaligus.” Metode ini memiliki potensi untuk meningkatkan pelacakan gerakan dalam berbagai aplikasi, termasuk penelitian visual dan pengolahan video.

Disarikan dari: Citation