ProlificDreamer: Pendekatan AI Yang Menghasilkan Konten 3D Dengan Kualitas Tinggi Dan Realistis Melalui Variational Score Distillation (VSD)

Pembuatan konten 3D dari deskripsi teks menjadi lebih mudah berkat pengembangan model generasi kecerdasan buatan (AI). Teknologi ini telah membantu berbagai industri seperti animasi, game, realitas virtual, dan realitas teraugmentasi dalam menciptakan model 3D yang berkualitas tinggi dan beragam. Konsep ini dikenal dengan istilah Text-to-image diffusion models.

Dalam pembuatan konten 3D, Text-to-3D models juga menjadi pendekatan yang menjanjikan untuk meningkatkan efisiensi proses kreatif. Dalam pembuatan model 3D dari deskripsi teks, Text-to-3D models membantu menghilangkan kebutuhan untuk merancang dengan cara manual. Teknologi ini memanfaatkan model diffusion untuk melatih pengenalan hubungan antara teks dan representasi gambar 3D yang terkait, sehingga model dapat merepresentasikan hubungan statistik dengan akurat.

Salah satu teknik yang menunjukkan potensi besar dalam pembuatan Text-to-3D models adalah Score Distillation Sampling (SDS). Namun, SDS memiliki beberapa kelemahan seperti oversaturation, over-smoothing, dan masalah keberagaman yang rendah. Oleh karena itu, para peneliti telah mengembangkan pendekatan baru bernama variational score distillation (VSD).

VSD menggunakan kerangka kerja variational berbasis partikel untuk mengoptimalkan pembuatan gambar 3D. Berbeda dengan SDS yang menganggap parameter 3D sebagai konstan, VSD memperlakukan parameter 3D sebagai variabel acak. Hal ini membantu model mengoptimalkan pembuatan 3D dengan lebih baik. SDS sendiri merupakan bagian spesifik dari VSD dimana distribusi variational adalah distribusi titik Dirac tunggal. Kekurangan SDS ini menjelaskan mengapa variasi dan akurasi gambar 3D yang dihasilkan oleh SDS terbatas.

Para peneliti telah mengusulkan solusi holistik bernama ProlificDreamer yang mencakup VSD dan peningkatan ruang desain yang dibuat khusus untuk pembuatan konten 3D dari deskripsi teks. Peningkatan ini meliputi peningkatan jadwal waktu distilasi dan inisialisasi densitas, yang merupakan area yang belum banyak dieksplorasi namun berbeda dengan algoritma distilasi.

Dalam menghasilkan konten 3D, ProlificDreamer mampu menghasilkan Neural Radiance Fields (NeRF) dengan kualitas tinggi dan resolusi rendering 512×512, struktur yang kaya, dan efek yang canggih seperti asap dan tetesan. Bahkan, ProlificDreamer dapat berhasil membuat model 3D yang kompleks dengan multiple objects dalam 360-degree views berdasarkan deskripsi teks. Tim peneliti bahkan mengoptimalkan mesh yang dibuat menggunakan VSD setelah diinisialisasi menggunakan NeRF. Hasil yang dihasilkan sangat detil dan fotorealistik.

Salah satu contoh dari hasil pembuatan mesh 3D adalah patung anjing gaya Michelangelo yang sedang membaca berita di ponsel, roti croissant yang lezat, tengkorak gajah, dan sebagainya yang telah dibagikan dalam paper penelitian. Selain itu, contoh NeRF yang dihasilkan juga telah dibagikan, seperti foto DSLR hamburger dalam restoran dan sundae es krim dalam mal.

Dengan penggunaan teknologi Text-to-image diffusion models dan Text-to-3D models, proses pembuatan konten 3D dari deskripsi teks menjadi lebih mudah, efisien, dan berkualitas tinggi. Penggunaan VSD dan ProlificDreamer membantu mengatasi beberapa kelemahan yang ada dalam teknologi SDS. Penggunaan teknologi ini di berbagai industri dapat membantu mempercepat proses pembuatan konten 3D dan meningkatkan efisiensi kreatifitas serta kualitas yang dihasilkan.

Kelebihan Teknologi Text-to-3D dalam Industri Gaming

Teknologi Text-to-3D dapat menjadi solusi bagi industri gaming dalam pembuatan konten 3D dengan cepat dan efisien. Penggunaan teknologi ini akan memudahkan tim pengembang dalam membuat model karakter serta lingkungan game yang lebih realistis. Selain itu, dengan penggunaan teknologi ini, tim pengembang dapat mempercepat proses pengembangan game dan meningkatkan efisiensi kerja.

Kecepatan dalam pembuatan konten 3D akan memungkinkan industri gaming untuk merilis game baru secara lebih cepat dan lebih sering. Dengan penggunaan teknologi Text-to-3D, pengembang game dapat meningkatkan kualitas dan keaslian lingkungan game, sehingga pengalaman bermain game akan semakin nyata dan mendalam. Dalam jangka panjang, penggunaan teknologi ini akan membantu meningkatkan daya tarik game dan memperluas pasar game.

Penggunaan Teknologi Text-to-3D dalam Industri Film

Teknologi Text-to-3D juga dapat digunakan dalam industri film untuk menciptakan efek visual yang lebih realistis dan mengesankan. Dalam pembuatan film, penggunaan teknologi ini dapat mempercepat proses produksi film dan meningkatkan efisiensi kerja. Dalam pembuatan efek visual, teknologi ini dapat membantu tim produksi untuk menciptakan lingkungan film yang lebih realistis dan mendetail.

Dalam jangka panjang, penggunaan teknologi Text-to-3D dalam industri film dapat membantu meningkatkan kualitas film dan mengurangi biaya produksi. Dengan penggunaan teknologi ini, produsen film dapat membuat visual dan efek yang lebih menarik dan realistis, sehingga film yang dihasilkan akan memiliki nilai jual yang lebih tinggi dan menarik bagi penonton.

Disarikan dari: Citation