Generasi teks-ke-gambar telah mengalami perkembangan pesat dalam beberapa tahun terakhir, dengan munculnya model difusi yang mampu menghasilkan gambar yang sangat realistis dan beragam. Namun, meskipun kemampuan yang mengesankan ini, model difusi seperti Stable Diffusion sering membutuhkan bantuan dalam memahami permintaan yang membutuhkan pemikiran spasial atau pemikiran umum, yang mengakibatkan ketidakakuratan dalam gambar yang dihasilkan.
Untuk mengatasi tantangan ini, sebuah tim peneliti dari UC Berkeley dan UCSF telah mengusulkan pendekatan baru yang disebut LMD (LLM-grounded Diffusion) yang meningkatkan pemahaman permintaan dalam generasi teks-ke-gambar. Mereka telah mengidentifikasi beberapa skenario di mana Stable Diffusion kurang efektif dibandingkan dengan LMD, termasuk negasi, kemampuan numerik, penugasan atribut, dan hubungan spasial.
Tim peneliti mengadopsi solusi yang hemat biaya untuk menghindari proses pelatihan model bahasa besar (LLM) dan model difusi yang memakan waktu dan mahal. Mereka mengintegrasikan LLM yang sudah jadi ke dalam model difusi, menghasilkan proses generasi dua tahap yang meningkatkan kemampuan pemikiran spasial dan pemikiran umum.
Pada tahap pertama, LLM diadaptasi untuk berfungsi sebagai generator tata letak yang dipandu teks melalui pembelajaran konteks. Ketika diberikan petunjuk gambar, LLM menghasilkan tata letak adegan yang terdiri dari kotak pembatas dan deskripsi yang sesuai. Pada tahap kedua, model difusi dipandu oleh tata letak yang dihasilkan menggunakan pengontrol baru untuk menghasilkan gambar. Kedua tahap ini menggunakan model yang sudah ada yang tidak mengalami optimasi parameter untuk LLM atau model difusi.
LMD menawarkan beberapa keunggulan di luar pemahaman permintaan yang ditingkatkan. Ini memungkinkan spesifikasi adegan berbasis dialog berputar banyak, yang memungkinkan pengguna untuk memberikan klarifikasi dan modifikasi tambahan untuk setiap permintaan. Selain itu, LMD dapat mengatasi permintaan dalam bahasa yang tidak didukung oleh model difusi yang mendasarinya. Dengan menggabungkan LLM yang mendukung dialog berputar banyak, pengguna dapat mengajukan pertanyaan kepada LLM setelah generasi tata letak awal dan menerima tata letak yang diperbarui untuk pembuatan gambar berikutnya, memfasilitasi permintaan seperti menambahkan objek atau mengubah lokasi atau deskripsinya.
Selain itu, LMD menerima permintaan non-Inggris dengan memberikan contoh permintaan non-Inggris dengan tata letak dan deskripsi latar belakang dalam bahasa Inggris selama pembelajaran konteks. Hal ini memungkinkan LMD menghasilkan tata letak dengan deskripsi bahasa Inggris, bahkan ketika model difusi yang mendasarinya tidak mendukung bahasa yang diberikan.
Peneliti telah menguji keunggulan LMD dengan membandingkannya dengan model difusi dasar, Stable Diffusion 2.1, yang digunakan oleh LMD. Mereka mengundang pembaca untuk menjelajahi karya mereka untuk evaluasi komprehensif dan perbandingan lebih lanjut.
Secara keseluruhan, LMD menyajikan pendekatan baru untuk mengatasi keterbatasan model difusi dalam mengikuti permintaan yang membutuhkan pemikiran spasial atau pemikiran umum. Dengan menggabungkan LLM yang sudah jadi dan menggunakan proses generasi dua tahap, LMD secara signifikan meningkatkan pemahaman permintaan dalam tugas generasi teks-ke-gambar. Ini juga menawarkan kemampuan tambahan, seperti spesifikasi adegan berbasis dialog dan penanganan permintaan dalam bahasa yang tidak didukung. Karya tim peneliti ini membuka kemungkinan baru untuk meningkatkan akurasi dan keberagaman gambar yang disintesis melalui integrasi model yang sudah ada.
Disarikan dari: Citation