**SUB-TOPIC 1: Imagen Editor: Menyempurnakan Proses Penciptaan Gambar Berdasarkan Teks**
Dalam beberapa waktu terakhir, minat terhadap pengubah teks ke gambar semakin meningkat. Model generatif ini ternyata sangat berguna, meskipun kadang-kadang menghasilkan hasil yang salah pada percobaan pertama, terutama untuk pelanggan dengan kebutuhan kreatif atau desain yang lebih spesifik. Pengeditan gambar berpandu teks dapat meningkatkan proses pembuatan gambar dengan memungkinkan untuk penyempurnaan interaktif. Menghasilkan modifikasi yang sesuai dengan teks dan kompatibel dengan gambar input merupakan kesulitan yang signifikan.
Para peneliti dari Good telah mengembangkan Imagen Editor, model difusi bertingkat untuk inpainting dengan instruksi teks. Imagen Editor dapat membuat modifikasi yang akurat sesuai dengan petunjuk teks dengan menggunakan detektor objek untuk mengusulkan masker inpainting selama pelatihan. Imagen Editor dapat menangkap bahkan fitur terkecil dalam gambar input dengan mengkondisikan pipa kerja bertingkat pada gambar berkeputusan tinggi asli.
Untuk meningkatkan evaluasi kualitatif dan kuantitatif, para peneliti Google menyediakan EditBench, sebuah benchmark standar untuk text-guided image inpainting. EditBench menganalisis perubahan inpainting dengan memeriksa objek, properti, dan adegan dalam gambar asli dan sintetis. Evaluasi manusia mendalam pada EditBench mengungkapkan bahwa masking objek selama pelatihan secara signifikan meningkatkan keselarasan teks-gambar, dengan Imagen Editor unggul dibandingkan dengan DALL-E 2 dan Stable Diffusion. Secara kolektif, model-model ini lebih terampil dalam merender objek daripada merender teks dan mengolah atribut material / warna / ukuran daripada atribut hitung/bentuk.
**SUB-TOPIC 2: Image Editor: Pembaruan Kualitas Teks-Gambar Menggunakan Model Pencitraan**
Untuk memodifikasi gambar, gunakan Imagen Editor, model berbasis difusi yang dioptimalkan khusus untuk Imagen. Model ini berusaha untuk menghasilkan representasi yang lebih akurat dari input linguistik, perintah yang terperinci, dan output berkualitas tinggi. Tiga input yang digunakan oleh Imagen Editor untuk menentukan sampel keluaran adalah gambar yang akan dimodifikasi, masker biner untuk mengidentifikasi wilayah suntingan, dan petunjuk teks.
Image Editor memungkinkan pengguna untuk melakukan perubahan berdasarkan target pada wilayah tertentu di dalam gambar berdasarkan masker dan sekumpulan petunjuk. Model ini mempertimbangkan tujuan pengguna dan melakukan penyesuaian realistis pada gambar. Image Editor adalah editor gambar berpandu teks yang menggabungkan representasi linguistik yang luas dengan kontrol yang terperinci untuk menghasilkan hasil berkualitas tinggi. Imagen Editor adalah versi yang ditingkatkan dari Imagen yang menggunakan model difusi bertingkat untuk memoles inpainting gambar berpandu teks.
Imagen Editor menggunakan tiga enkoder pengurangan dimensi konvolusional untuk memberikan konteks gambar dan masker yang lebih banyak untuk setiap tahap difusi. Inpainting gambar berpandu teks yang andal dalam Imagen Editor didasarkan pada tiga metode fundamental: Imagen Editor menggunakan kebijakan masking detektor objek dengan modul detektor objek untuk menghasilkan masker objek selama pelatihan, bukan masker kotak acak dan strok yang digunakan oleh model inpainting sebelumnya. Imagen Editor meningkatkan pengeditan berkeputusan tinggi dengan mengharuskan penggabungan resolusi penuh, saluran dari gambar input dan masker selama pelatihan dan inferensi. Untuk mempengaruhi data menuju kondisi tertentu, dalam hal ini petunjuk teks, peneliti menggunakan classifier-free guiding (CFG) pada saat inferensi. CFG berinterpolasi antara prediksi model yang dikondisikan dan model yang tidak dikondisikan untuk mencapai tingkat presisi yang tinggi dalam inpainting gambar berpandu teks.
EditBench adalah benchmark yang digunakan untuk mengevaluasi inpainting berdasarkan teks. EditBench menggunakan 240 foto untuk menciptakan standar baru untuk inpainting gambar berpandu teks. Setiap gambar memiliki masker yang menunjukkan area yang akan diubah pada proses inpainting. Untuk membantu pengguna dalam menentukan modifikasi, para peneliti memberikan tiga petunjuk teks untuk setiap pasangan gambar-masker. EditBench adalah benchmark khusus yang dirancang untuk menguji sistem inpainting berbasis atribut, objek, dan adegan. EditBench melakukan pengujian yang komprehensif terhadap sistem inpainting yang berfokus pada detail yang halus meliputi atribut, jenis objek, dan adegan.
Evaluasi teks-gambar dan kualitas gambar pada EditBench melalui uji manusia yang ketat oleh tim peneliti. Selain itu, mereka juga membandingkan preferensi manusia dengan metode komputerisasi. Mereka melakukan analisis terhadap empat model: Image Editor (IM), Imagen EditorRM (IMRM), Stable Diffusion (SD), dan DALL-E 2 (DL2). Untuk menilai manfaat dari masking objek selama pelatihan, para peneliti membandingkan Imagen Editor dengan Imagen EditorRM. Untuk memberikan gambaran tentang karya kami dibandingkan dengan orang lain dan untuk lebih luas memeriksa keterbatasan dari keadaan seni saat ini, kami telah menyertakan evaluasi terhadap Stable Diffusion dan DALL-E 2.
Untuk kesimpulannya, model pengeditan gambar yang disediakan ini merupakan bagian dari keluarga model generatif yang memungkinkan kemampuan produksi konten yang sebelumnya tidak tersedia. Namun, mereka juga memiliki risiko menghasilkan konten yang merugikan bagi individu atau masyarakat secara keseluruhan. Dalam pemodelan bahasa, diterima secara umum bahwa model generatif teks dapat secara tidak sengaja mencerminkan dan memperbesar bias sosial yang ada dalam data pelatihan mereka. Imagen Editor adalah versi yang ditingkatkan dari inpainting gambar berpandu teks Imagen. Imagen Editor mengandalkan kebijakan masking objek untuk pelatihan dan penambahan lapisan konvolusi baru untuk pengeditan berkeputusan tinggi. EditBench adalah benchmark sistem inpainting gambar berbasis teks yang sistematis dan berskala besar. EditBench melakukan uji komprehensif terhadap sistem inpainting berdasarkan deskripsi teks yang berbasis atribut, objek, dan adegan.
Disarikan dari: Link