Menyambut Otter: Model AI Terbaru yang Memanfaatkan Dataset Skala Besar Bernama MIMIC-IT untuk Mencapai Performa Terbaik dalam Penilaian Persepsi dan Penalaran

Penelitian terbaru dalam bidang model multi-modal telah menghasilkan perkembangan yang signifikan dalam memadukan data dari berbagai sumber, seperti tulisan, gambar, dan video, untuk menjalankan berbagai fungsi. Model-model ini telah berhasil dalam memahami dan menghasilkan konten yang menggabungkan data visual dan teks.

Salah satu komponen penting dalam model multi-modal adalah instruksi tuning, yang melibatkan fine-tuning model berdasarkan instruksi dalam bahasa alami. Hal ini memungkinkan model untuk lebih memahami niat pengguna dan menghasilkan respons yang tepat dan relevan. Instruksi tuning telah secara efektif digunakan dalam model bahasa besar (LLM) seperti GPT-2 dan GPT-3, yang memungkinkan mereka untuk mengikuti instruksi untuk menyelesaikan tugas dunia nyata.

Dalam pendekatan yang ada dalam model multi-modal, dapat dibagi menjadi dua perspektif, yaitu desain sistem dan model yang dapat dilatih dari awal hingga akhir. Pendekatan desain sistem menghubungkan model-model yang berbeda menggunakan penjadwalan pengiriman seperti ChatGPT, tetapi kurang fleksibilitas dalam pelatihan dan dapat memakan biaya yang tinggi. Sedangkan pendekatan model yang dapat dilatih dari awal hingga akhir mengintegrasikan model-model dari modalitas yang berbeda, tetapi dapat memiliki biaya pelatihan yang tinggi atau fleksibilitas yang terbatas. Data instruksi tuning sebelumnya dalam model multi-modal kurang memiliki contoh dari konteks. Baru-baru ini, tim peneliti dari Singapura mengusulkan pendekatan baru dengan memperkenalkan instruksi tuning dalam konteks dan membuat dataset dengan contoh-contoh kontekstual untuk mengisi kesenjangan ini.

Kontribusi utama dari penelitian ini meliputi:

1. Pengenalan dataset MIMIC-IT untuk instruksi tuning dalam model multi-modal.
2. Pengembangan model Otter dengan kemampuan meningkatkan pemahaman instruksi dan pembelajaran dalam konteks.
3. Optimalisasi implementasi OpenFlamingo untuk aksesibilitas yang lebih mudah.

Kontribusi-kontribusi ini menyediakan dataset yang berharga, model yang ditingkatkan, dan kerangka kerja yang lebih ramah pengguna untuk kemajuan penelitian multi-modal.

Secara konkret, penulis memperkenalkan dataset MIMIC-IT, yang bertujuan untuk meningkatkan kemampuan pemahaman instruksi OpenFlamingo sambil tetap menjaga kapasitas pembelajaran dalam konteks. Dataset ini terdiri dari pasangan gambar-teks dengan hubungan kontekstual, sementara OpenFlamingo bertujuan untuk menghasilkan teks untuk pasangan gambar-teks yang ditanyakan berdasarkan contoh-contoh dalam konteks. Dataset MIMIC-IT diperkenalkan untuk meningkatkan pemahaman instruksi OpenFlamingo sambil mempertahankan pembelajaran dalam konteks. Ini mencakup triplet gambar-instruksi-jawaban dan konteks yang sesuai. OpenFlamingo adalah kerangka kerja yang memungkinkan model multi-modal untuk menghasilkan teks berdasarkan gambar dan contoh-contoh kontekstual.

Selama pelatihan, model Otter mengikuti paradigma OpenFlamingo dengan membekukan encoder yang telah dilatih sebelumnya dan melakukan fine-tuning pada modul tertentu. Data pelatihan mengikuti format tertentu dengan gambar, instruksi pengguna, jawaban yang dihasilkan oleh “GPT”, dan token [endofchunk]. Model dilatih menggunakan cross-entropy loss, dengan token sebagai pemisah untuk tujuan prediksi.

Penulis mengintegrasikan Otter ke dalam Hugging Face Transformers, yang memungkinkan penggunaan ulang dan integrasi yang mudah ke dalam pipeline peneliti. Mereka mengoptimalkan model untuk pelatihan di GPU 4×RTX-3090 dan mendukung Fully Sharded Data Parallel (FSDP) dan DeepSpeed untuk efisiensi yang lebih baik. Mereka juga menyediakan skrip untuk mengonversi checkpoint OpenFlamingo asli menjadi format Model Hugging Face. Mengenai demonstrasi, Otter memiliki performa yang lebih baik dalam mengikuti instruksi pengguna dan menunjukkan kemampuan penalaran yang lebih tinggi dibandingkan dengan OpenFlamingo. Otter mampu menangani skenario kompleks dan menerapkan pengetahuan kontekstual. Otter juga mendukung pembelajaran dalam konteks multi-modal dan memiliki performa yang baik dalam tugas tanya-jawab visual, dengan memanfaatkan informasi dari gambar dan contoh-contoh kontekstual untuk memberikan jawaban yang komprehensif dan akurat.

Secara kesimpulan, penelitian ini memberikan kontribusi pada model multi-modal dengan memperkenalkan dataset MIMIC-IT, meningkatkan model Otter dengan kemampuan meningkatkan pemahaman instruksi dan pembelajaran dalam konteks, serta mengoptimalkan implementasi OpenFlamingo untuk aksesibilitas yang lebih mudah. Integrasi Otter ke dalam Hugging Face Transformers memungkinkan peneliti untuk memanfaatkan model dengan usaha minimal. Kemampuan Otter dalam mengikuti instruksi pengguna, penalaran dalam skenario kompleks, dan pembelajaran dalam konteks multi-modal yang ditunjukkan menggambarkan kemajuan dalam pemahaman dan generasi multi-modal. Kontribusi-kontribusi ini menyediakan sumber daya dan wawasan yang berharga untuk penelitian dan pengembangan di masa depan dalam model multi-modal.


MIMIC-IT: Dataset untuk Instruksi Tuning dalam Model Multi-modal

Salah satu kontribusi utama dari penelitian ini adalah pengembangan dataset MIMIC-IT untuk instruksi tuning dalam model multi-modal. Dataset ini dirancang untuk meningkatkan pemahaman instruksi dalam model OpenFlamingo sambil tetap mempertahankan kemampuan pembelajaran dalam konteks. MIMIC-IT terdiri dari pasangan gambar-teks yang memiliki hubungan kontekstual. Dengan menggunakan dataset ini, peneliti dapat melatih model multi-modal untuk menghasilkan teks berdasarkan gambar dan instruksi pengguna dengan lebih baik dan lebih tepat.

Pengenalan dataset MIMIC-IT merupakan langkah penting dalam mengatasi kekurangan dataset instruksi tuning sebelumnya yang kurang memiliki contoh dari konteks. Dengan adanya dataset ini, peneliti dapat lebih memahami dan mengatasi tantangan dalam pengembangan model multi-modal yang mampu menghasilkan respons yang lebih tepat dan relevan berdasarkan instruksi pengguna.

Optimisasi Implementasi OpenFlamingo untuk Aksesibilitas yang Lebih Mudah

Disarikan dari: Sumber