Penelitian AI Terbaru Dari Stanford, Cornell, Dan Oxford Menghadirkan Model Generatif Yang Menemukan Karakteristik Benda Hanya Dari Beberapa Instansi Dalam Satu Gambar

Menghasilkan Bentuk dan Gambar Baru dengan Menggunakan Data Fotografi Tunggal

Sebuah tim peneliti dari Stanford, Oxford, dan Cornell Tech tengah mengembangkan sebuah model yang dapat digunakan untuk menghasilkan bentuk dan gambar baru dengan menggunakan data dari sebuah fotografi tunggal. Mereka berharap bahwa model ini dapat digunakan untuk menghasilkan berbagai bentuk dan gambar dari berbagai sudut pandang dan pencahayaan yang berbeda.

Dalam sebuah fotografi, esensi dari sebuah bunga mawar terdiri dari geometri, tekstur, dan komposisi material yang unik. Meskipun setiap bunga mawar memiliki set nilai piksel yang unik, kita masih dapat mengidentifikasinya sebagai anggota kelas yang sama. Namun, terdapat tiga kendala dalam menyelesaikan permasalahan ini.

Pertama, permasalahan inferensi sangat longgar terikat karena hanya terdapat satu gambar dalam dataset pelatihan, dan hanya terdapat beberapa ratus contoh. Kedua, terdapat rentang nilai piksel yang luas dalam beberapa situasi ini. Hal ini disebabkan karena posisi dan kondisi pencahayaan tidak dicatat atau diketahui. Ketiga, tidak ada dua mawar yang sama, dan diperlukan untuk menangkap distribusi bentuk, tekstur, dan material mereka untuk memanfaatkan informasi multi-tampilan yang mendasari. Oleh karena itu, intrinsik objek yang dimaksudkan untuk disimpulkan adalah probabilitas daripada deterministik.

Untuk mengatasi kendala-kendala ini, pendekatan yang diusulkan memanfaatkan intrinsik objek sebagai titik awal untuk menginduksi bias dalam pembuatan model. Aturan-aturan ini memiliki dua bagian. Pertama, instansi yang akan ditampilkan harus memiliki intrinsik objek yang sama atau distribusi geometri, tekstur, dan material yang sama. Kedua, properti intrinsik tersebut tidak terpisah satu sama lain, melainkan saling terkait dengan cara tertentu yang ditentukan oleh mesin rendering dan, pada akhirnya, oleh dunia fisik.

Dalam implementasinya, model ini menggunakan sebuah gambar masukan tunggal dan, dengan menggunakan kumpulan masker instansi dan distribusi pose tertentu dari instansi, mempelajari representasi neural dari distribusi bentuk 3D, albedo permukaan, dan kilauan objek. Hal ini membantu dalam menjelaskan instansi-instansi tersebut dengan pendekatan yang didasarkan pada fisika. Ini memungkinkan model untuk memperoleh intrinsik objek tanpa terlalu memfokuskan pada pengamatan yang jarang diberikan oleh sebuah gambar tunggal.

Sebagai hasilnya, model ini memungkinkan penggunaan yang beragam. Misalnya, instansi baru dengan identitas yang berbeda dapat dihasilkan dengan samplen acak dari intrinsik objek yang dipelajari. Instansi buatan tersebut dapat dirender ulang dengan sudut pandang dan pencahayaan yang berbeda dengan mengatur elemen-elemen eksternal tersebut.

Tim peneliti telah melakukan serangkaian pengujian untuk mendemonstrasikan kinerja model dalam merekonstruksi dan menghasilkan bentuk yang lebih baik, sintesis tampilan yang inovatif, dan pengaturan kembali pencahayaan.

Manfaat Penggunaan Model Ini

Model yang dihasilkan oleh tim peneliti ini memiliki berbagai manfaat. Selain dapat menghasilkan bentuk dan gambar baru, model ini juga dapat digunakan dalam berbagai bidang seperti desain grafis, animasi, dan ilustrasi. Dengan menghasilkan bentuk dan gambar yang realistis, model ini dapat membantu dalam menciptakan efek pencahayaan yang berbeda dan memberikan kesan yang lebih hidup pada objek yang dirender.

Selain itu, model ini dapat digunakan dalam pengenalan objek dan pencocokan citra. Dengan mempelajari intrinsik objek, model ini dapat mengenali objek yang memiliki bentuk, tekstur, dan material yang serupa meskipun terdapat perbedaan dalam posisi dan pencahayaan. Hal ini dapat digunakan dalam berbagai aplikasi seperti pengenalan wajah, identifikasi objek, dan pencocokan gambar.

Dalam pengembangan selanjutnya, model ini dapat dikembangkan untuk menghasilkan bentuk dan gambar baru dengan lebih kompleks dan realistis. Dengan menggunakan teknik yang lebih canggih dan dataset yang lebih besar, model ini memiliki potensi untuk menghasilkan hasil yang lebih baik dalam menciptakan bentuk dan gambar yang lebih beragam dan realistis.

Dalam kesimpulan, pengembangan model yang dapat menghasilkan bentuk dan gambar baru dari data fotografi tunggal ini memiliki potensi besar dalam berbagai bidang seperti desain grafis, animasi, dan ilustrasi. Dengan kemampuan untuk menghasilkan bentuk dan gambar yang realistis, model ini dapat memberikan hasil yang lebih hidup dan menarik bagi pengguna.

Disarikan dari: Sumber