Peneliti CMU Mengusulkan Metode AI GILL untuk Menggabungkan LLM dengan Model Pengkode dan Dekode Gambar

GPT-4 Membuka Lebar Kemampuan Multimodalitas pada Language Models

OpenAI baru-baru ini merilis GPT-4, sebuah model bahasa besar dengan kemampuan multimodalitas. GPT-4 menerima input berupa teks maupun gambar, berbeda dengan GPT 3.5 yang hanya menerima input berupa teks. Tim peneliti dari Carnegie Mellon University mengusulkan pendekatan baru yang disebut Generating Images with Large Language Models (GILL) untuk menghasilkan gambar-gambar unik dengan memperluas kemampuan model bahasa multimodalitas.

GILL memungkinkan pengolahan input yang merupakan campuran antara gambar dan teks untuk menghasilkan teks, mengambil gambar, dan membuat gambar baru. GILL mencapai hal ini meskipun model menggunakan pemrosesan teks yang berbeda dengan model yang digunakan untuk menghasilkan gambar. Untuk mencapai hal ini, GILL mentransfer ruang embedding keluaran dari model bahasa yang hanya menerima teks ke model yang dapat menghasilkan gambar. Tidak seperti pendekatan lain yang membutuhkan interleave data gambar-teks, proses pemetaan dilakukan dengan fine-tuning sejumlah parameter menggunakan pasangan image-caption.

Metode ini menggabungkan model bahasa besar untuk teks yang digabungkan dengan model untuk encoding dan decoding gambar yang sudah dipelajari sebelumnya. Hal ini dapat memberikan berbagai kemampuan multimodalitas, seperti pengambilan gambar, produksi gambar unik, dan dialog multimodalitas. Hal ini dilakukan dengan memetakan ruang embedding modaltias untuk menyatukan mereka. GILL bekerja dengan menggunakan input gambar dan teks yang desainnya saling berkondisi dan menghasilkan output yang koheren dan dapat dibaca.

Pendekatan ini menyediakan jaringan pemetaan yang efektif yang menghubungkan LLM ke model generasi teks ke gambar untuk menghasilkan kinerja yang lebih baik dalam menghasilkan gambar. Jaringan pemetaan ini mengonversi representasi teks tersembunyi ke ruang embedding model visual. Dengan begitu, model menggunakan representasi teks yang kuat untuk menghasilkan output yang konsisten secara estetis.

Sub-topik 1: Kelebihan GILL Dibandingkan Model Generasi Gambar Non-LLM

Dengan pendekatan GILL, model dapat mengambil gambar dari dataset yang ditentukan serta membuat gambar baru. Model memilih apakah akan menghasilkan atau memperoleh gambar pada saat inference. Modul keputusan yang dipelajari yang bersyarat pada representasi tersembunyi LLM digunakan untuk membuat pilihan ini. Pendekatan ini efisien secara komputasi karena bekerja tanpa perlu menjalankan model generasi gambar pada saat pelatihan.

Metode ini bekerja lebih baik daripada model generasi gambar baseline, terutama untuk tugas-tugas yang membutuhkan bahasa yang lebih panjang dan kompleks. Dalam perbandingan, GILL mengungguli metode Stable Diffusion dalam pemrosesan teks yang lebih panjang, termasuk dialog dan wacana. GILL tampil lebih baik dalam generasi gambar yang dikondisikan oleh dialog daripada model generasi yang tidak berbasis LLM, dengan memanfaatkan konteks multimodalitas dan menghasilkan gambar yang lebih cocok dengan teks yang diberikan. Tidak seperti model teks-to-gambar konvensional yang hanya memproses input dalam bentuk teks, GILL juga dapat memproses input gambar-teks yang dicampur secara sembarang.

Sub-topik 2: GILL Sebagai Solusi Kuat untuk Tugas Multimodalitas

Secara keseluruhan, GILL (Generating Images with Large Language Models) menjanjikan karena menampilkan rentang kemampuan yang lebih luas dibandingkan dengan model bahasa multimodalitas sebelumnya. Kemampuan GILL dalam mengungguli model generasi gambar non-LLM dalam berbagai tugas teks-to-gambar yang mengukur ketergantungan konteks membuatnya menjadi solusi yang kuat untuk tugas-tugas multimodalitas.

Pendekatan GILL dalam memperluas kemampuan multimodalitas pada model bahasa besar terbukti efektif dalam memproses input gambar-teks yang saling berkondisi. Model dapat menghasilkan gambar baru yang koheren dan sesuai dengan teks, serta memperoleh gambar dari dataset yang telah ditentukan. GILL mampu mengungguli model generasi gambar non-LLM dalam berbagai tugas teks-to-gambar yang memerlukan konteks yang lebih kompleks. Dengan demikian, GILL menyediakan solusi yang kuat dan efektif untuk tugas-tugas multimodalitas yang semakin penting di era digital saat ini.

Disarikan dari: Link