“StyleAvatar3D: Metode AI Baru untuk Menghasilkan Avatar 3D Bergaya dengan Model Difusi Gambar-Teks dan Jaringan Generasi 3D Berbasis GAN”

Generative Model Baru Mampu Membuat Avatar 3D dengan Kualitas Tinggi Menggunakan Model Diffusion

Teknologi generative model telah mengalami kemajuan yang sangat pesat dalam beberapa tahun terakhir. Sejalan dengan meningkatnya kemampuan model topologi seperti diffusion models, model generative telah mampu menciptakan gambar 2D yang sangat realistis. Namun, masalah terbesar yang dihadapi oleh model generative 3D adalah kurangnya keberagaman dan keterjangkauan model pembelajaran 3D yang dibandingkan dengan model 2D.

Namun saat ini, para peneliti telah menemukan cara baru untuk menciptakan model generative 3D yang berkualitas tinggi dengan menggunakan metode pre-trained image-text generative. Dalam penelitian yang dilakukan oleh Tencent, Nanyang Technological University, Fudan University, dan Zhejiang University, mereka memperkenalkan metode unik untuk menciptakan avatar 3D-styled yang menggunakan model text-to-image diffusion yang sudah dilatih sehingga pengguna dapat memilih gaya dan fitur wajah avatar melalui text prompts.

EG3D: GAN-based 3D Generation Network

Metode yang digunakan dalam penelitian ini menggunakan EG3D, yaitu GAN-based 3D generation network, yang memiliki beberapa keuntungan. Pertama, EG3D menggunakan foto yang sudah dikalibrasi daripada data 3D untuk pelatihan, sehingga memungkinkan terus meningkatkan variasi dan realitas model 3D dengan menggunakan data gambar yang lebih baik. Kedua, mereka dapat menghasilkan setiap tampilan secara independen, sehingga dapat mengendalikan keacakan selama pembentukan gambar.

Metode yang digunakan dalam penelitian ini menggunakan ControlNet berdasarkan StableDiffusion untuk menciptakan gambar latihan 2D yang dikalibrasi untuk melatih EG3D. Dalam hal ini, peneliti menggunakan karakteristik kamera dari foto postur untuk tujuan pembelajaran, sehingga postur tersebut dapat disintesis atau diambil dari avatar di mesin saat ini. Namun, meskipun menggunakan foto postur yang akurat sebagai panduan, ControlNet sering kesulitan dalam menciptakan tampilan dengan sudut yang besar, seperti belakang kepala. Dalam hal ini, mereka menggunakan dua pendekatan terpisah untuk mengatasi masalah tersebut.

Pendekatan untuk Mengatasi Masalah

Pendekatan pertama adalah dengan menciptakan prompt khusus untuk berbagai pandangan selama produksi gambar untuk mengurangi kegagalan secara dramatis. Walaupun foto sintesis mungkin sebagian cocok dengan foto postur, meskipun dengan sinyal cue yang spesifik. Pendekatan kedua adalah dengan menciptakan diskriminator coarse-to-fine untuk pelatihan 3D GAN. Setiap data gambar dalam sistem mereka memiliki penjelasan postur coarse dan fine. Mereka memilih penjelasan pelatihan secara acak selama pelatihan GAN. Metode ini dapat menghasilkan model 3D yang lebih akurat dan beragam bahkan ketika foto input termasuk adnotasi yang berantakan.

Dalam penelitian ini, peneliti menemukan bahwa metode yang mereka ajukan melebihi teknik cutting-edge saat ini dalam hal kualitas visual dan variasi. Dengan memperkenalkan metode baru yang menggunakan model generative image-text diffusion, model generative 3D sekarang mampu membuat avatar 3D berkualitas tinggi dengan gaya dan fitur wajah yang dapat ditentukan oleh pengguna melalui text prompts.

Kesimpulan

Metode yang digunakan dalam penelitian ini meningkatkan fleksibilitas produksi avatar dengan memungkinkan gaya dan fitur wajah ditentukan oleh pengguna melalui text prompts. Untuk mengatasi masalah kesalahan posisi gambar, peneliti juga menyarankan diskriminator coarse-to-fine pose-aware, yang akan memungkinkan penggunaan data gambar dengan adnotasi postur yang salah. Selain itu, mereka juga membuat modul generasi kondisional tambahan yang memungkinkan penciptaan 3D kondisional menggunakan input gambar pada ruang gaya laten StyleGAN. Modul ini lebih meningkatkan adaptabilitas kerangka kerja dan memungkinkan pengguna untuk membuat model 3D yang disesuaikan dengan selera mereka. Mereka juga berencana untuk menjadikan kode mereka open-source.

Disarikan dari: Link