“LLMScore: Pipa Baru untuk Evaluasi Kesesuaian Teks dan Gambar dalam Teknik Text-to-Image Synthesis”

LLMScore: Kerangka Kerja Baru untuk Mengevaluasi Kesesuaian Teks-Gambar

Penelitian sintesis teks-gambar telah berkembang pesat dalam beberapa tahun terakhir. Namun, pengukuran penilaian masih tertinggal karena kesulitan dalam menyesuaikan penilaian dengan tujuan yang berbeda, efektif menangkap kesesuaian komposit teks-gambar (misalnya, warna, penghitungan, dan posisi) dan menghasilkan skor yang dapat dimengerti. Meskipun telah banyak digunakan dan sukses, metrik penilaian yang sudah mapan untuk sintesis teks-gambar seperti CLIPScore dan BLIP membutuhkan bantuan untuk menangkap kesesuaian objek antara teks dan gambar.

Metode penilaian manusia untuk kesesuaian teks-gambar, yang melibatkan verifikasi keakuratan item dan karakteristik yang disebutkan dalam teks, menjadi model mereka. LLMScore mereka dapat meniru tinjauan manusia dengan mengakses komposisi pada banyak granularitas dan menghasilkan skor kesesuaian dengan justifikasi. Ini memberikan pemahaman yang lebih dalam tentang kinerja model dan motivasi di balik hasilnya.

Sub-topik 1: LLMScore: Kerangka Kerja Baru untuk Mengevaluasi Kesesuaian Teks-Gambar

LLMScore mengumpulkan informasi Visio-linguistik yang terpadu dari model visi dan bahasa dan LLM, sehingga menangkap komposisi multi-granularitas dalam teks dan gambar untuk meningkatkan evaluasi sintesis teks-gambar komposit. Metode mereka menggunakan model bahasa dan visi untuk mengubah gambar menjadi deskripsi visual multi-granularitas (tingkat gambar dan objek), memungkinkan kita untuk menyatakan karakteristik komposisi dari banyak objek dalam bahasa.

LLMScore menghasilkan skor kesesuaian yang tepat dengan justifikasi sesuai dengan beberapa direktif evaluasi (keseluruhan dan penghitungan kesalahan). Selain itu, dengan menyesuaikan instruksi evaluasi untuk LLM, LLMScore mereka dapat mengikuti standar yang berbeda secara adaptif (keseluruhan atau penghitungan kesalahan).

Sub-topik 2: Uji Coba Hasil LLMScore

Model sintesis teks-gambar modern seperti Stable Diffusion dan DALLE diuji dalam pengaturan percobaan mereka dengan menggunakan berbagai dataset, termasuk dataset prompt untuk penggunaan umum (MSCOCO, DrawBench, PaintSkills), serta untuk tujuan komposisi (Abstract Concept Conjunction, Attribute Binding Contrast).

Mereka melakukan banyak uji coba untuk mengonfirmasi penggunaan LLMScore dan menunjukkan bahwa ia selaras dengan penilaian manusia tanpa memerlukan pelatihan tambahan. Di semua dataset, LLMScore mereka memiliki korelasi manusia yang paling kuat. Pada dataset komposisi, mereka mengungguli metrik yang biasa digunakan CLIP dan BLIP masing-masing sebesar 58,8% dan 31,27% Kendall’s.

Kesimpulannya, LLMScore merupakan upaya pertama untuk menunjukkan efektivitas model bahasa besar untuk penilaian teks-gambar. Terutama, artikel mereka menyumbang hal-hal berikut: (1) mereka menyarankan LLMScore, (2) LLMScore mereka menghasilkan skor kesesuaian yang tepat dengan justifikasi yang mengikuti beberapa direktif evaluasi, dan (3) mereka menggunakan berbagai dataset (baik komposisi maupun tujuan umum) untuk mengonfirmasi LLMScore mereka.

Sumber: https://www.marktechpost.com/2022/02/08/llmscore-a-new-framework-to-evaluate-text-image-alignment/

Disarikan dari: Citation