MultiModal-GPT: Model Visi dan Bahasa untuk Dialog Multi-Ronde dengan Manusia

MultiModal-GPT: Chatbot yang Mampu Berkomunikasi dengan Visual dan Bahasa

MultiModal-GPT merupakan chatbot yang mampu berkomunikasi dengan visual dan bahasa sekaligus. Chatbot ini merupakan hasil penelitian dari Shanghai AI Laboratory, University of Hong Kong, dan Tianjin University.

Dalam penelitiannya, para peneliti menggunakan kerangka kerja Flamingo yang bersifat multimodal dan sudah dilatih sebelumnya. Dalam pengembangan MultiModal-GPT, para peneliti menggunakan perceptor resampler untuk mengekstrak informasi visual dari pengkode vision.

Dalam pelatihan model MultiModal-GPT, para peneliti mengadopsi template instruksi linguistik dan visual yang umum. Mereka menemukan bahwa data pelatihan sangat penting untuk efektivitas MultiModal-GPT.

Namun, beberapa dataset menyebabkan kinerja percakapan MultiModal-GPT menjadi lebih buruk karena masing-masing jawaban hanya dapat satu atau dua kata (misalnya ya / tidak). Dalam pelatihan Model MultiModal-GPT, para peneliti juga menggabungkan data linguistik dan visual untuk meningkatkan kapasitas chatbot tersebut dalam berbicara dengan manusia.

Untuk menunjukkan kemampuan komunikasi MultiModal-GPT dengan manusia, para peneliti menyediakan berbagai demo. Mereka juga menyediakan kode sumber secara publik di GitHub.

Artificial Intelligence Melalui Kemampuan Manusia untuk Berkomunikasi dengan Visual dan Bahasa

Artificial Intelligence (AI) menjadi salah satu bidang penelitian yang sedang berkembang pesat. Salah satu tujuan utama dari penelitian AI adalah untuk mengembangkan asisten fleksibel yang mampu mengeksekusi perintah multimodal visual dan bahasa yang mencerminkan tujuan manusia. Asisten ini dapat menyelesaikan berbagai aktivitas dalam dunia nyata.

Namun, meskipun kecakapan GPT-4 yang luar biasa, mekanisme yang mendasarinya terus menjadi misteri. Beberapa penelitian seperti Mini-GPT4 dan LLaVA telah mencoba mereplikasi kinerja ini. Namun, karena jumlah token gambar yang tinggi, termasuk model yang memuat informasi visual yang komprehensif atau spasial-temporal mungkin menjadi mahal secara komputasi.

Untuk meningkatkan kinerja OpenFlamingo dan membuatnya lebih sesuai dengan selera manusia dalam percakapan multimodal, para peneliti menggunakan database instruksi teks dan gambar yang besar. Mereka menggunakan Flamingo, kerangka kerja multimodal yang sudah dilatih sebelumnya, untuk berinteraksi dengan gambar dan teks.

Dalam penggunaannya, OpenFlamingo memiliki kemampuan pemahaman visual yang kuat karena telah dilatih pada dataset pasangan gambar-teks yang besar. Namun, tidak mampu berpartisipasi dalam diskusi gambar-teks multiturn tanpa nol-shot.

Dalam penelitiannya, para peneliti menggunakan perceptor resampler untuk mengekstrak informasi visual dari pengkode vision. Mereka juga menggunakan lapisan perhatian silang terkunci untuk interaksi gambar-teks.

Penelitian ini menunjukkan bahwa kemampuan manusia untuk berkomunikasi dengan visual dan bahasa menjadi fokus utama dalam bidang AI. Para peneliti terus mengembangkan model yang lebih baik untuk membuat chatbot semakin pintar dalam memahami bahasa manusia dan gambar yang diberikan.

Disarikan dari: Sumber