DORSal: Model Difusi Terstruktur 3D Untuk Pembuatan Dan Pengeditan Objek Pada Adegan 3D

Generative AI dan 3D Scene Understanding Mendorong Kemajuan Representasi Objek pada DORSal

Artificial Intelligence semakin berkembang dengan diperkenalkannya Generative AI dan Large Language Models (LLMs). Model-model terkenal seperti GPT, BERT, PaLM, dan lainnya, merupakan tambahan yang luar biasa pada daftar panjang LLMs yang sedang mengubah cara interaksi manusia dan komputer. Dalam pembangkitan gambar, model-model difusi telah menarik perhatian penting dari para peneliti karena model ini menangkap distribusi peluang yang kompleks dari dataset gambar dan menghasilkan sampel baru yang menyerupai data latihan. Pemahaman 3D scene juga sedang berkembang, memungkinkan pengembangan jaringan saraf bebas geometri yang dapat dilatih pada dataset besar dari scene untuk mempelajari representasi scene. Jaringan ini memiliki kemampuan generalisasi yang baik untuk scene dan objek yang belum pernah dilihat sebelumnya, merender tampilan hanya dari satu atau beberapa gambar input, dan hanya membutuhkan beberapa observasi untuk pelatihan.

Dengan menggabungkan kemampuan model difusi dan model pembelajaran representasi 3D scene, tim peneliti dari UC Berkeley, Google Research, dan Google DeepMind menghadirkan DORSal (Diffusion for Object-centric Representations of Scenes et al.), yang merupakan pendekatan untuk generasi perspektif baru dalam scene tiga dimensi dengan menggabungkan representasi objek dengan dekoder difusi. DORSal tidak menggunakan geometri, karena ia belajar struktur scene 3D secara murni dari data tanpa membutuhkan rendering volume yang mahal.

Keunggulan DORSal dalam Representasi Objek 3D dan Render Scene

Dalam tujuan menciptakan scene 3D, DORSal menggunakan arsitektur difusi video yang awalnya dibuat untuk tujuan sintesis gambar. Konsep utamanya adalah mengandalkan representasi slot berbasis objek dari scene untuk membatasi model difusi. Representasi ini menangkap detail penting tentang objek-objek dan karakteristiknya dalam scene. DORSal memfasilitasi sintesis perspektif inovatif yang berkualitas tinggi dari scene 3D dengan mengonfigurasi model difusi pada representasi berbasis objek ini. DORSal juga tetap memiliki kemampuan pengeditan scene tingkat objek, yang memungkinkan pengguna untuk mengubah dan memodifikasi item tertentu dalam scene.

Beberapa kontribusi utama yang dibagikan oleh tim peneliti adalah sebagai berikut:

DORSal, pendekatan untuk sintesis pandangan baru 3D, menggunakan keunggulan model difusi dan representasi scene berbasis objek untuk meningkatkan kualitas render tampilan.
DORSal mengungguli metode sebelumnya dari literatur pemahaman scene 3D dan mampu menghasilkan tampilan yang jauh lebih akurat, dengan peningkatan Fréchet Inception Distance (FID) sebesar 5x-10x.
Dibandingkan dengan pekerjaan sebelumnya pada Model Difusi 3D, DORSal menunjukkan performa yang lebih baik dalam menangani scene yang lebih kompleks. Dalam evaluasi data Street View dunia nyata, DORSal menunjukkan performa yang lebih baik dalam hal kualitas render.
DORSal memiliki kemampuan untuk mengkondisikan model difusi pada representasi scene yang terstruktur dan berbasis objek. Dengan menggunakan representasi ini, DORSal belajar untuk menggabungkan scene menggunakan objek-objek individu, yang memungkinkan pengeditan scene tingkat objek dasar selama inferensi, memungkinkan pengguna untuk memanipulasi dan memodifikasi objek tertentu dalam scene.

Secara kesimpulan, efektivitas DORSal dapat dilihat dari eksperimen yang dilakukan pada scene sintetis multi-objek yang kompleks dan dataset dunia nyata berukuran besar seperti Google Street View. Kemampuannya untuk berhasil menghasilkan render neural yang skalabel dari scene 3D dengan pengeditan tingkat objek membuatnya menjadi pendekatan yang menjanjikan untuk masa depan. Kualitas render yang lebih baik menunjukkan potensi untuk meningkatkan pemahaman scene 3D.

Disarikan dari: Sumber