Peneliti NTU Dan Microsoft Usulkan MIMIC-IT: Dataset Instruksi Multi-Modal Dalam Skala Besar Untuk Peningkatan Konteks

Judul: Jajaran Asisten Percakapan Multimodal yang Lebih Canggih dengan MIMIC-IT

Sub-topik 1: Asisten Percakapan Multimodal yang Terus Berkembang
Sub-topik 2: Solusi Baru Mengatasi Batasan LLaVA-Instruct-150K dengan MIMIC-IT

Asisten percakapan berbasis kecerdasan buatan semakin berkembang pesat dalam beberapa tahun terakhir. Kemampuan mereka dalam memahami instruksi dan bertindak telah mengalami kemajuan yang signifikan. Keberhasilan yang mencolok ini dapat diterima karena adanya penyesuaian instruksi yang dilakukan pada model bahasa besar (LLMs) selain kapasitas generalisasi yang tinggi. Penyesuaian instruksi memungkinkan LLMs untuk lebih memahami niat pengguna, yang pada gilirannya meningkatkan performa mereka bahkan dalam tugas-tugas baru yang belum pernah dijelajahi sebelumnya.

Namun, asisten percakapan hingga saat ini masih terbatas pada tantangan linguistik. Untuk menjadi lebih sempurna, asisten percakapan multimodal harus mampu mengatasi tugas yang melibatkan beberapa modalitas. Untuk mencapai hal ini, diperlukan sebuah dataset instruksi-percakapan multimodal yang luas dan berkualitas tinggi. Dataset instruksi-percakapan multimodal pertama yang dibangun disebut LLaVA-Instruct-150K atau singkatnya LLaVA. Dataset ini menggunakan gambar COCO, instruksi, dan data dari GPT-4 berdasarkan kotak pembatas dan deskripsi gambar. Meskipun LLaVA-Instruct-150K memberikan inspirasi, namun terdapat tiga kelemahan yang perlu diatasi.

Pertama, keberagaman visual terbatas karena dataset ini hanya menggunakan gambar COCO. Kedua, hanya menggunakan satu gambar sebagai input visual, padahal asisten percakapan multimodal harus mampu mengelola beberapa foto atau bahkan video yang lebih panjang. Ketiga, informasi dalam konteks hanya menggunakan bahasa saja, padahal asisten percakapan multimodal seharusnya menggunakan informasi multimodal dalam konteks untuk memahami instruksi pengguna dengan lebih baik.

Untuk mengatasi batasan-batasan tersebut, para peneliti dari S-Lab, Nanyang Technological University, Singapura, dan Microsoft Research, Redmond, mengembangkan MIMICIT (Multimodal In-Context Instruction Tuning). MIMICIT merupakan sebuah solusi yang mengatasi ketiga batasan LLaVA-Instruct-150K tersebut.

MIMICIT menawarkan keberagaman visual dengan mengintegrasikan gambar dan video dari berbagai sumber seperti gambar umum, gambar sudut pandang pengguna, dan gambar RGB-D indoor dari dataset yang berbeda. Selain itu, MIMICIT juga mampu mengelola beberapa gambar atau video pada satu waktu, sehingga dapat memenuhi kebutuhan instruksi-percakapan yang melibatkan variasi gambar atau film. Selain itu, MIMICIT juga menggunakan informasi konteks multimodal dalam beberapa pasangan instruksi-percakapan, baik dalam bentuk gambar maupun video.

Proses penciptaan pasangan instruksi-percakapan dilakukan melalui Sythus, sebuah pipeline otomatisasi yang terinspirasi dari pendekatan self-instruct. Sythus menggunakan pesan sistem, anotasi visual, dan contoh-contoh konteks untuk membimbing model bahasa (GPT-4 atau ChatGPT) dalam menghasilkan pasangan instruksi-percakapan berdasarkan konteks visual, termasuk timestamp, caption, dan informasi objek. Instruksi dan balasan juga diterjemahkan dari bahasa Inggris ke tujuh bahasa lainnya untuk mendukung penggunaan multibahasa.

Model multimodal yang diberi nama Otter dilatih berdasarkan OpenFlamingo menggunakan MIMIC-IT. Otter kemudian dievaluasi dalam dua cara. Pertama, Otter berhasil menunjukkan keterampilan persepsi dan penalaran yang baik dalam evaluasi ChatGPT pada MMAGIBenchmark, mengungguli model vision-language (VLM) lainnya. Kedua, dalam evaluasi Multi-Modality Arena yang melibatkan penilaian manusia, Otter juga berhasil mendapatkan skor Elo tertinggi dan melebihi performa model VLM lainnya.

Dalam penilaian kemampuan belajar dalam konteks dengan menggunakan dataset COCO Caption, Otter mampu mengungguli OpenFlamingo dalam semua kondisi few-shot. Evaluasi ini membuktikan bahwa Otter memiliki kemampuan pembelajaran dalam konteks yang lebih baik.

Dalam rangka mencapai hasil tersebut, peneliti juga menyediakan dataset Multimodal In-Context Instruction Tuning (MIMIC-IT) yang berisi 2,8 juta pasangan instruksi-percakapan dalam konteks multimodal dengan 2,2 juta instruksi yang berbeda dalam berbagai pengaturan dunia nyata. Selain itu, dengan menggunakan LLMs, peneliti menciptakan Sythus, sebuah proses otomatisasi yang menghasilkan pasangan instruksi-percakapan berkualitas tinggi dan multibahasa tergantung pada konteks visual.

Melalui MIMIC-IT dan Otter, asisten percakapan multimodal semakin canggih dan mampu mengikuti niat manusia dengan baik. Dengan adanya dataset instruksi-percakapan dalam konteks multimodal yang kaya dan model multimodal yang kuat seperti Otter, pengguna dapat mendapatkan pengalaman interaksi yang lebih baik dengan asisten percakapan dalam menyelesaikan berbagai tugas.

Disarikan dari: Source