Para Peneliti dari Max Plank Mengusulkan MIME: Model AI Generatif yang Mengambil Rekaman Gerakan Manusia 3D dan Menghasilkan Adegan 3D yang Masuk Akal yang Konsisten dengan Gerakan Tersebut

Mengajarkan Komputer Meniru Tindakan Manusia dalam Membuat Adegan 3D yang Realistis

Dalam kehidupan sehari-hari, manusia selalu berinteraksi dengan sekitar mereka. Mereka bergerak di sekitar ruangan, menyentuh benda-benda, duduk di kursi, atau tidur di tempat tidur. Interaksi ini memberikan detail tentang bagaimana suasana diatur dan di mana objek-objek berada. Seorang seniman mime adalah seorang penampil yang menggunakan pemahamannya tentang hubungan ini untuk menciptakan lingkungan 3D yang kaya dan imajinatif hanya dengan gerakan tubuh mereka. Namun, dapatkah mereka mengajarkan komputer untuk meniru tindakan manusia dan membuat adegan 3D yang sesuai?

Beberapa bidang, termasuk arsitektur, game, realitas virtual, dan sintesis data sintetis, mungkin akan mendapatkan manfaat dari teknik ini. Sebagai contoh, terdapat dataset yang substansial mengenai gerakan manusia 3D, seperti AMASS, namun dataset ini jarang mencakup detail tentang pengaturan 3D di mana gerakan tersebut dikumpulkan. Apakah mungkin untuk menciptakan adegan 3D yang mempercayakan semua gerakan menggunakan AMASS? Jika iya, maka dapat dibuat data pelatihan dengan interaksi manusia-lingkungan yang realistis menggunakan AMASS. Mereka mengembangkan teknik baru yang disebut MIME (Mining Interaction and Movement to infer 3D Environments), yang menciptakan adegan 3D dalam ruangan yang mempercayakan berdasarkan gerakan manusia 3D untuk menjawab pertanyaan-pertanyaan tersebut.

Apa yang membuat hal ini menjadi mungkin? Asumsi dasarnya adalah sebagai berikut: (1) Gerakan manusia di sekitar ruangan menunjukkan tidak ada barang di sana, dengan kata lain, menggambarkan daerah gambar tanpa mebel. Selain itu, hal ini membatasi jenis dan lokasi objek-objek 3D saat bersentuhan dengan adegan; misalnya, seseorang yang duduk harus duduk di kursi, sofa, atau tempat tidur, dan sebagainya.

Para peneliti dari Max Planck Institute for Intelligent Systems di Jerman dan Adobe menciptakan MIME, sebuah teknik generasi adegan 3D berbasis transformer yang oto-regresif, untuk memberikan bentuk yang konkret pada intuisi ini. Diberikan rencana lantai kosong dan urutan gerakan manusia, MIME memprediksi mebel-mebel yang akan bersentuhan dengan manusia. Selain itu, MIME juga memprediksi objek-objek yang memenuhi kriteria tidak bersentuhan dengan manusia namun cocok dengan objek-objek lain dan mematuhi batasan ruang kosong yang dibawa oleh gerakan manusia. Mereka membagi gerakan menjadi potongan bersentuhan dan tidak bersentuhan untuk mengkondisikan penciptaan adegan 3D untuk gerakan manusia. Mereka memperkirakan posisi bersentuhan yang mungkin menggunakan POSA. Postur tidak bersentuhan memproyeksikan verteks kaki ke bidang tanah untuk menentukan ruang kosong ruangan, yang mereka catat sebagai peta lantai 2D.

Verteks kontak yang diprediksi oleh POSA menciptakan kotak pembatas 3D yang mencerminkan postur bersentuhan dan model tubuh manusia 3D yang terkait. Objek-objek yang memenuhi kriteria kontak dan ruang kosong diperkirakan secara autoregresif menggunakan data ini sebagai input ke transformer. Mereka memperluas dataset adegan sintetis skala besar 3D-FRONT untuk membuat dataset baru yang bernama 3D-FRONT HUMAN untuk melatih MIME. Mereka secara otomatis menambahkan orang-orang ke skenario 3D, termasuk orang-orang yang tidak bersentuhan (serangkaian gerakan berjalan dan orang-orang berdiri) dan orang-orang yang bersentuhan (orang-orang yang duduk, menyentuh, dan berbaring). Untuk melakukannya, mereka menggunakan postur kontak/statis dari pemindaian RenderPeople dan urutan gerakan dari AMASS.

MIME menciptakan tata letak adegan 3D yang realistis untuk gerakan yang diberikan pada saat inferensi, yang direpresentasikan dalam bentuk kotak pembatas 3D. Mereka memilih model 3D dari koleksi 3D-FUTURE berdasarkan tata letak ini; kemudian, mereka menyempurnakan penempatan 3D mereka berdasarkan batasan geometris antara posisi manusia dan adegan. Metode mereka menghasilkan kumpulan 3D yang mendukung sentuhan dan gerakan manusia sambil meletakkan objek-objek yang meyakinkan di ruang kosong, berbeda dengan sistem penciptaan adegan 3D murni seperti ATISS. Pendekatan mereka memungkinkan pengembangan objek-objek yang tidak bersentuhan dengan orang, dengan memprediksi adegan lengkap daripada objek-objek individu, berbeda dengan Pose2Room, sebuah model generatif yang bergantung pada postur baru-baru ini. Mereka menunjukkan bahwa pendekatan mereka berhasil tanpa modifikasi pada urutan gerakan asli yang telah direkam, seperti PROX-D.

Secara keseluruhan, mereka memberikan kontribusi berikut:
– Model generatif baru yang bergantung pada gerakan untuk adegan ruangan 3D yang menciptakan objek-objek yang bersentuhan dengan manusia sambil menghindari mengisi ruang kosong yang didefinisikan oleh gerakan.
– Dataset adegan 3D baru yang terdiri dari manusia yang berinteraksi dan manusia di ruang kosong, yang dibuat dengan menggabungkan data gerakan dari AMASS dan postur kontak/berdiri statis dari RenderPeople. Kode sumbernya tersedia di GitHub bersama dengan video demo. Mereka juga memiliki video penjelasan tentang pendekatan mereka.

Dalam mengejar impian untuk mengajarkan komputer meniru tindakan manusia dan menciptakan adegan 3D yang realistis, MIME menawarkan penemuan baru yang menarik dan menjanjikan. Diharapkan teknik ini dapat diterapkan dalam berbagai bidang, seperti arsitektur, game, dan realitas virtual, untuk menciptakan pengalaman yang lebih mendalam dan memikat bagi pengguna.

Disarikan dari: Link