Riset Terbaru: Menggali Potensi Gambar dengan Prompt Negatif dan Diffusi Stabil

PERP-NEG: Teknik Baru untuk Meningkatkan Kualitas Citra yang Dihasilkan dari Teks

Teknologi generasi citra dari teks menggunakan model difusi mampu menghasilkan citra dengan kemampuan cukup baik, tetapi masih terdapat kekurangan dalam kemampuan pengungkapan makna teks yang dihasilkan. Kesalahan dalam menghasilkan citra yang sesuai dengan konten teks menjadi tantangan bagi perangkat lunak (software) tersebut. Perangkat lunak ini memerlukan pemahaman mendalam tentang konsep konseptual teks dan makna visualnya.

Keterbatasan dalam memperoleh anotasi yang terperinci menyebabkan model teks ke citra (text-to-image) saat ini kesulitan dalam memahami hubungan yang kompleks antara teks dan citra. Hal ini menyebabkan model tersebut cenderung menghasilkan citra yang hanya menyerupai pasangan teks dan citra yang sering terjadi pada dataset saat dilatih. Akibatnya, citra yang dihasilkan seringkali kurang memiliki atribut yang diminta atau bahkan mengandung atribut yang tidak diinginkan.

Kekurangan teknik sebelumnya

Penelitian terbaru telah berfokus untuk menangani masalah ini dengan cara mengembalikan objek atau atribut yang hilang dalam citra menggunakan teks. Namun, masih terbatasnya teknik untuk menghapus atribut yang berlebihan atau secara eksplisit memberi instruksi pada model untuk menghilangkan objek yang tidak diinginkan menggunakan teks negatif.

Penelitian baru menawarkan solusi

Berdasarkan kekurangan ini, sebuah pendekatan baru telah diusulkan untuk mengatasi keterbatasan algoritme teks negatif yang saat ini ada. Menurut penulis karya ini, implementasi teks negatif saat ini dapat menghasilkan hasil yang tidak memuaskan, terutama ketika terdapat tumpang tindih antara teks utama dan teks negatif.

Solusi baru yang diusulkan adalah algoritme baru yang disebut Perp-Neg. Algoritme ini tidak memerlukan pelatihan khusus dan dapat diterapkan pada model difusi yang telah dilatih sebelumnya. Nama Perp-Neg berasal dari konsep penggunaan skor yang tegak lurus yang diestimasi oleh denoiser untuk teks negatif.

Teknik Perp-Neg menciptakan proses penghilangan noise yang dibatasi ke arah yang tegak lurus terhadap arah teks utama. Batasan geometris ini memainkan peran penting dalam mencapai hasil yang diinginkan. Teknik ini berhasil mengatasi masalah perspektif yang tidak diinginkan pada teks negatif dengan memastikan bahwa model hanya fokus pada penghapusan aspek yang bersifat ortogonal atau tidak terkait dengan semantik utama dari teks utama. Metode ini membantu meningkatkan kualitas dan koherensi citra yang dihasilkan sehingga terdapat kesesuaian yang lebih kuat dengan input teks asli.

Penerapan Perp-Neg dalam penelitian

Beberapa hasil yang diperoleh melalui teknik Perp-Neg disajikan dalam gambar di bawah ini. Selain dari sintesis citra, Perp-Neg juga diterapkan pada DreamFusion, model teks-ke-3D yang lebih canggih. Dalam konteks tersebut, teknik Perp-Neg telah terbukti efektif dalam mengurangi masalah Janus. Masalah ini terjadi ketika objek 3D yang dihasilkan terutama dirender sesuai dengan pandangan kanoniknya daripada sudut pandang lainnya.

Kesimpulan

Perp-Neg adalah teknik baru yang dapat meningkatkan kualitas citra yang dihasilkan dari teks. Teknik ini mampu mengatasi masalah perspektif yang tidak diinginkan pada teks negatif dan membantu meningkatkan kualitas dan koherensi citra yang dihasilkan. Teknik ini juga efektif dalam mengurangi masalah Janus pada objek 3D. Jika anda tertarik, anda dapat mempelajari lebih lanjut tentang teknik ini melalui tautan di atas.

Disarikan dari: Source