Sub-Topik 1: Pembelajaran Mesin dalam Membuat Gambar dari Prompt Verbal
Pembelajaran mesin telah mencapai kemampuan yang luar biasa dalam menghasilkan gambar dari prompt verbal. Namun, meskipun kemampuannya yang mumpuni, model generatif saat ini masih memerlukan bantuan untuk tugas-tugas yang memerlukan pemecahan scene menjadi elemen-elemen komponen dan membayangkan elemen-elemen tersebut dalam berbagai skenario.
Beberapa penelitian terbaru menyarankan untuk mempersonalisasi model text-to-image berukuran besar dengan mengoptimalkan embedding teks yang baru ditambahkan atau menyetel ulang bobot model, dengan memberikan banyak gambar dari sebuah ide tunggal, sehingga dapat menghasilkan instansi dari konsep tersebut dalam situasi yang unik.
Dalam studi yang dilakukan oleh para peneliti dari Universitas Ibrani Yerusalem, Google Research, Universitas Reichman, dan Universitas Tel Aviv, mereka menyajikan sebuah skenario baru untuk pemecahan scene teksual: diberikan satu gambar dari scene yang mungkin mencakup beberapa konsep dari berbagai jenis, tujuan mereka adalah untuk memisahkan token teks tertentu untuk setiap ide. Hal ini memungkinkan pembuatan gambar inovatif dari prompt verbal yang menyoroti konsep-konsep tertentu atau kombinasi dari banyak tema.
Namun, ide-ide yang ingin dipelajari atau diekstrak dari aktivitas kustomisasi tersebut hanya terkadang tampak, sehingga membuatnya potensial tidak jelas. Penelitian sebelumnya telah menangani ambiguitas ini dengan fokus pada satu topik pada suatu waktu dan menggunakan berbagai foto untuk menunjukkan gagasan dalam berbagai pengaturan. Namun, metode alternatif diperlukan untuk menyelesaikan masalah ketika beralih ke situasi gambar tunggal.
Para peneliti ini secara khusus menyarankan untuk menambahkan serangkaian masker ke gambar masukan untuk menambah informasi tentang konsep-konsep yang ingin diekstrak. Masker ini dapat berupa bentuk bebas yang disediakan oleh pengguna atau yang dihasilkan oleh pendekatan segmentasi otomatis. Dengan mengadaptasi dua teknik utama, TI dan DB, ke lingkungan ini, terdapat trade-off antara rekonstruksi dan kemampuan untuk diedit. Sedangkan TI gagal membangun kembali ide-ide dalam konteks baru dengan benar, DB memerlukan kontrol konteks lebih banyak karena overfitting.
Sub-Topik 2: Pendekatan Baru untuk Personalisasi Gambar dengan Menggunakan Pembelajaran Mesin
Para peneliti ini menyarankan sebuah pipa unik untuk personalisasi gambar yang berhasil menemukan keseimbangan antara mempertahankan identitas konsep yang dipelajari dan mencegah overfitting. Pipa ini terdiri dari dua langkah, yaitu mengidentifikasi sekelompok karakter teks khusus yang disebut handle dan mengoptimalkan handle untuk membangun kembali gambar masukan.
Mereka melanjutkan dengan memperbaiki handle sambil beralih ke menyetel ulang bobot model pada fase kedua. Metode mereka sangat menekankan pada ekstraksi konsep yang terpisah atau memastikan bahwa setiap handle terhubung hanya dengan satu konsep target. Mereka juga memahami bahwa prosedur kustomisasi tidak dapat dilakukan secara independen untuk setiap ide untuk mengembangkan grafik yang menampilkan kombinasi gagasan.
Sebagai respons terhadap temuan ini, mereka menawarkan union sampling, pendekatan pelatihan yang memenuhi kebutuhan ini dan meningkatkan pembuatan kombinasi ide. Hal ini dilakukan dengan menggunakan masked diffusion loss, variasi modifikasi dari diffusion loss standar. Model tidak dikenai hukuman jika handle terhubung dengan lebih dari satu konsep karena loss ini, yang menjamin bahwa setiap handle kustom dapat memberikan ide yang dimaksud.
Mereka menawarkan beberapa pengukuran otomatis untuk tugas ini untuk membandingkan metodologi mereka dengan benchmark. Mereka juga melakukan penelitian pengguna yang menunjukkan bahwa penilai manusia juga menyukai metodologi mereka. Dalam bagian terakhir, mereka menyarankan beberapa aplikasi untuk teknik mereka, seperti pembuatan desain interior dan pembuatan film animasi.
Dalam kesimpulannya, para peneliti ini telah menghadirkan sebuah pendekatan baru yang menjanjikan untuk personalisasi gambar dengan menggunakan pemecahan scene teksual dan pembelajaran mesin. Teknik ini berhasil menemukan keseimbangan antara mempertahankan identitas konsep yang dipelajari dan mencegah overfitting, serta menawarkan kemungkinan untuk membuat gambar yang lebih inovatif dari prompt verbal.
Disarikan dari: Citation