NerfDiff: Kerangka AI yang Memungkinkan Pembuatan Citra Konsisten dengan Kualitas Tinggi dari Satu Gambar

Menghasilkan tampilan baru dari objek atau adegan menjadi topik panas dalam aplikasi grafis komputer dan visi, seperti realitas virtual dan augmented, fotografi imersif, dan pengembangan replika digital. Tugas ini sangat menuntut karena tampilan yang baru disintesis harus mempertimbangkan area yang terhalang dan daerah yang sebelumnya belum pernah terlihat. Baru-baru ini, neural radiance fields (NeRF) telah menunjukkan hasil yang luar biasa dalam menghasilkan tampilan baru berkualitas tinggi. Namun, NeRF bergantung pada jumlah gambar yang signifikan, mulai dari puluhan hingga ratusan, untuk efektif menangkap adegan, membuatnya rentan terhadap overfitting dan kurangnya kemampuan untuk menggeneralisasi ke adegan baru.

Kondisional NeRF: Solusi Alternatif untuk Synthesis View dengan Satu Gambar

Pendekatan alternatif untuk menangani masalah ketidakpastian dalam sintesis tampilan dengan satu gambar melibatkan penggunaan model generatif 2D yang memprediksi tampilan baru sambil mengkondisikan pada tampilan masukan. Namun, risiko untuk metode ini adalah kurangnya konsistensi dalam generasi gambar dengan struktur 3D yang mendasarinya. Untuk tujuan ini, teknik baru yang disebut NerfDiff telah disajikan. NerfDiff adalah kerangka kerja yang dirancang untuk mensintesis gambar multi-view berkualitas tinggi yang konsisten berdasarkan masukan view tunggal.

NerfDiff terdiri dari dua tahap: pelatihan dan fine-tuning. Selama tahap pelatihan, model NeRF berbasis triplane di ruang kamera dan model difusi kondisional yang sadar 3D (CDM) dilatih bersama-sama pada kumpulan adegan. Representasi NeRF diinisialisasi menggunakan gambar masukan pada tahap fine-tuning. Kemudian, parameter model NeRF disesuaikan berdasarkan serangkaian gambar virtual yang dihasilkan oleh CDM, yang dikondisikan pada keluaran NeRF. Namun, strategi fine-tuning yang langsung yang mengoptimalkan parameter NeRF secara langsung menggunakan output CDM menghasilkan rendering berkualitas rendah karena inkonsistensi multi-view dari output CDM. Untuk mengatasi masalah ini, para peneliti mengusulkan distilasi yang dipandu NeRF, suatu proses yang bergantian yang memperbarui representasi NeRF dan memandu proses difusi multi-view. Secara khusus, pendekatan ini memungkinkan resolusi ketidakpastian dalam sintesis tampilan dengan satu gambar dengan memanfaatkan informasi tambahan yang diberikan oleh CDM. Sambil itu, model NeRF memandu CDM untuk memastikan konsistensi multi-view selama proses difusi.

Hasil NerfDiff

Beberapa hasil yang diperoleh melalui NerfDiff dilaporkan di sini bawah. Pendekatan ini memungkinkan penghasilan gambar multi-view yang konsisten dan berkualitas tinggi dari gambar masukan tunggal, yang sangat berguna dalam berbagai aplikasi grafis komputer dan visi. Jadi, jika Anda tertarik dengan teknik ini, Anda dapat mempelajarinya lebih lanjut di tautan yang disediakan di atas.

Disarikan dari: Citation