Tim OpenFlamingo Rilis OpenFlamingo V2 Dengan Lima Model Multimodal Baru Yang Mengungguli Model Sebelumnya Pada Skala 3B, 4B, Dan 9B

OpenFlamingo v2: Model Multimodal yang Terinspirasi dari Tim Flamingo DeepMind

Sebuah tim peneliti dari University of Washington, Stanford, AI2, UCSB, dan Google baru-baru ini mengembangkan proyek OpenFlamingo, yang bertujuan untuk membangun model yang serupa dengan tim Flamingo DeepMind. Model-model OpenFlamingo dapat mengolah urutan teks dan gambar campuran dan menghasilkan teks sebagai output. Captioning, visual question answering, dan klasifikasi gambar hanyalah beberapa dari aktivitas yang dapat mengambil manfaat dari kemampuan model ini untuk mengambil sampel dalam konteks.

Sekarang, tim tersebut mengumumkan rilis v2 dengan lima model OpenFlamingo yang terlatih pada level 3B, 4B, dan 9B. Model-model ini berasal dari model open-source dengan lisensi yang lebih longgar daripada LLaMA, termasuk MPT-1B dan 7B dari Mosaic, dan RedPajama-3B dari Together.XYZ.

Para peneliti menggunakan paradigma pemodelan Flamingo dengan menambahkan karakteristik visual ke lapisan-lapisan dari model bahasa statis yang telah dipretraining. Pemrosesan visual dan model bahasa tetap statis, tetapi modul-modul penghubung dilatih menggunakan urutan gambar-teks yang di-web-scraped, mirip dengan Flamingo.

Kemajuan OpenFlamingo v2

Tim tersebut menguji model captioning, visual question answering (VQA), dan klasifikasi pada dataset vision-language. Temuan mereka menunjukkan bahwa tim telah membuat kemajuan signifikan antara rilis v1 mereka dan model OpenFlamingo-9B v2.

Mereka menggabungkan hasil dari tujuh dataset dan lima konteks yang berbeda untuk mengevaluasi efektivitas model: tanpa sampel, empat sampel, delapan sampel, enam belas sampel, dan tiga puluh dua sampel. Mereka membandingkan model OpenFlamingo (OF) pada level OF-3B dan OF-4B dengan model Flamingo-3B dan Flamingo-9B, dan menemukan bahwa, rata-rata, OpenFlamingo (OF) mencapai lebih dari 80% dari performa Flamingo yang cocok. Para peneliti juga membandingkan hasil mereka dengan state-of-the-art yang dioptimalkan yang dipublikasikan di PapersWithCode. Model OpenFlamingo-3B dan OpenFlamingo-9B, yang hanya dipretraining dengan data online, mencapai lebih dari 55% dari performa fine-tuned dengan 32 instance dalam konteks. Model OpenFlamingo tertinggal dibandingkan dengan model DeepMind sekitar 10% dalam 0-shot dan 15% dalam 32-shot.

Peningkatan Kualitas Data

Tim ini terus melakukan kemajuan dalam melatih dan mengirimkan model multimodal state-of-the-art. Selanjutnya, mereka bertujuan untuk meningkatkan kualitas data yang digunakan untuk pre-training.

Artikel ini mengulas tentang OpenFlamingo v2, sebuah proyek yang dikembangkan oleh tim peneliti dari University of Washington, Stanford, AI2, UCSB, dan Google. Proyek ini bertujuan untuk membangun model-model multimodal yang dapat mengolah urutan teks dan gambar campuran dan menghasilkan teks sebagai output. OpenFlamingo v2 dirilis dengan lima model yang terlatih pada level 3B, 4B, dan 9B. Model-model ini terinspirasi oleh tim Flamingo DeepMind dan menggunakan paradigma pemodelan Flamingo dengan menambahkan karakteristik visual ke lapisan-lapisan model bahasa yang telah dipretraining.

Dalam pengujian yang dilakukan oleh tim peneliti, model-model OpenFlamingo ini diuji pada dataset vision-language yang meliputi captioning, visual question answering (VQA), dan klasifikasi gambar. Hasil pengujian menunjukkan bahwa tim telah membuat kemajuan signifikan antara rilis v1 dan OpenFlamingo-9B v2. Dalam pengujian, OpenFlamingo (OF) mencapai lebih dari 80% performa yang cocok dengan model Flamingo DeepMind. Tim peneliti juga membandingkan hasil mereka dengan state-of-the-art yang dioptimalkan yang dipublikasikan di PapersWithCode. Model-model OpenFlamingo-3B dan OpenFlamingo-9B, yang hanya dipretraining dengan data online, mencapai lebih dari 55% dari performa fine-tuned dengan 32 instance dalam konteks.

Namun, model-model OpenFlamingo masih tertinggal dibandingkan dengan model-model DeepMind. Dalam pengujian 0-shot, OpenFlamingo ketinggalan sekitar 10%, sedangkan dalam pengujian 32-shot, OpenFlamingo ketinggalan sekitar 15%. Meskipun demikian, tim peneliti terus melakukan kemajuan dalam melatih dan mengirimkan model-model multimodal state-of-the-art.

Selanjutnya, tim peneliti berencana untuk meningkatkan kualitas data yang digunakan untuk pre-training. Hal ini menunjukkan komitmen tim dalam menghadirkan model-model yang lebih baik dan lebih akurat. Dengan meningkatnya kualitas data, diharapkan model-model OpenFlamingo dapat mencapai performa yang lebih tinggi lagi.

Secara keseluruhan, OpenFlamingo v2 merupakan proyek yang menjanjikan dalam pengembangan model-model multimodal. Dengan kemampuannya dalam mengolah urutan teks dan gambar campuran, model-model OpenFlamingo memiliki potensi untuk diterapkan dalam berbagai aplikasi, seperti captioning, visual question answering, dan klasifikasi gambar. Meskipun masih ada beberapa keterbatasan dalam performa dibandingkan dengan model-model DeepMind, OpenFlamingo terus berkembang dan menjadi salah satu pemain utama dalam pengembangan model-model multimodal.

Disarikan dari: Source