CapPa: Strategi Inovatif DeepMind dalam Memberikan Keterangan Gambar Mengubah Pra-pelatihan Visi dan Menandingi CLIP dalam Skalabilitas dan Performa Pembelajaran

Image Captioning sebagai Strategi Pelatihan Pra-pemrosesan yang Kompetitif untuk Tulang Punggung Penglihatan

Sebuah penelitian terbaru berjudul “Image Captioners Are Scalable Vision Learners Too” menyajikan pendekatan menarik yang disebut CapPa, yang bertujuan untuk menjadikan image captioning sebagai strategi pelatihan pra-pemrosesan yang kompetitif untuk tulang punggung penglihatan. Penelitian ini ditulis oleh tim peneliti DeepMind, yang menyoroti potensi CapPa untuk menyaingi kinerja impresif dari Contrastive Language Image Pretraining (CLIP) sambil menawarkan kesederhanaan, skalabilitas, dan efisiensi.

Peneliti secara menyeluruh membandingkan Cap, strategi image captioning mereka, dengan pendekatan CLIP yang populer. Mereka dengan cermat mencocokkan komputasi pra-pelatihan, kapasitas model, dan data pelatihan antara kedua strategi untuk memastikan evaluasi yang adil. Peneliti menemukan bahwa tulang punggung visi Cap memiliki kinerja yang lebih baik daripada model CLIP dalam berbagai tugas, termasuk klasifikasi sedikit data, captioning, pengenalan karakter optik (OCR), dan menjawab pertanyaan visual (VQA). Selain itu, ketika mentransfer ke tugas klasifikasi dengan data pelatihan berlabel besar, tulang punggung visi Cap mencapai kinerja yang sebanding dengan CLIP, menunjukkan potensi superioritasnya dalam tugas downstream multimodal.

Untuk meningkatkan kinerja Cap lebih lanjut, para peneliti memperkenalkan prosedur pra-pelatihan CapPa, yang menggabungkan prediksi autoregressive (Cap) dengan prediksi paralel (Pa). Mereka menggunakan Vision Transformer (ViT) sebagai pengode penglihatan, memanfaatkan kemampuannya yang kuat dalam memahami gambar. Untuk memprediksi caption gambar, para peneliti menggunakan arsitektur dekoder Transformer standar, yang menggabungkan cross-attention untuk efektif menggunakan urutan yang dikodekan oleh ViT dalam proses dekoding.

Alih-alih hanya melatih model secara autoregressive pada tahap pelatihan, para peneliti mengadopsi pendekatan prediksi paralel di mana model memprediksi semua token caption secara mandiri dan bersamaan. Dengan cara ini, dekoder dapat sangat bergantung pada informasi gambar untuk meningkatkan ketepatan prediksi, karena memiliki akses ke keseluruhan set token secara paralel. Strategi ini memungkinkan dekoder memanfaatkan konteks visual yang kaya yang diberikan oleh gambar.

Para peneliti melakukan studi untuk mengevaluasi kinerja CapPa dibandingkan dengan Cap konvensional dan pendekatan state-of-the-art CLIP dalam berbagai tugas downstream, termasuk klasifikasi gambar, captioning, OCR, dan VQA. Hasilnya sangat menjanjikan, karena CapPa secara konsisten mengungguli Cap dalam hampir semua tugas. Selain itu, dibandingkan dengan CLIP* yang dilatih dengan ukuran batch yang sama, CapPa mencapai kinerja yang sebanding atau lebih baik. Selain itu, CapPa menunjukkan kemampuan nol-shot yang kuat, memungkinkan generalisasi yang efektif ke tugas yang tidak terlihat sebelumnya, dan menunjukkan sifat skalabilitas yang menjanjikan, menunjukkan potensinya untuk menangani dataset dan model dengan skala lebih besar.

Secara keseluruhan, karya yang disajikan dalam makalah ini menetapkan image captioning sebagai strategi pelatihan pra-pemrosesan yang kompetitif untuk tulang punggung penglihatan. Dengan menunjukkan efektivitas CapPa dalam mencapai hasil berkualitas tinggi dalam berbagai tugas downstream, tim peneliti berharap dapat menginspirasi eksplorasi lebih lanjut tentang captioning sebagai tugas pra-pelatihan untuk pengode penglihatan. Dengan kesederhanaan, skalabilitas, dan efisiensinya, CapPa membuka kemungkinan menarik untuk memajukan model berbasis penglihatan dan mendorong batasan pembelajaran multimodal.

CapPa: Membuka Kemungkinan Baru dalam Pembelajaran Multimodal

Dalam penelitian terbaru yang dilakukan oleh tim peneliti DeepMind, diperkenalkan pendekatan yang menarik untuk pelatihan pra-pemrosesan berbasis gambar yang disebut CapPa. Pendekatan ini menggabungkan strategi autoregressive prediction (Cap) dengan parallel prediction (Pa) untuk meningkatkan kinerja dan efisiensi model. Dalam penelitian ini, tim peneliti membandingkan kinerja CapPa dengan pendekatan populer CLIP dalam berbagai tugas downstream.

Hasil penelitian menunjukkan bahwa CapPa secara konsisten mengungguli Cap dalam hampir semua tugas yang dievaluasi, termasuk klasifikasi gambar, captioning, OCR, dan VQA. Selain itu, CapPa juga mencapai kinerja yang setara atau bahkan lebih baik daripada CLIP dalam beberapa tugas. Hal ini menunjukkan bahwa CapPa memiliki potensi superioritas dalam pembelajaran multimodal.

Salah satu keunggulan CapPa adalah kemampuannya untuk menerapkan prediksi paralel, di mana model dapat memprediksi semua token caption secara mandiri dan bersamaan. Dengan menggunakan informasi gambar secara penuh, dekoder dapat meningkatkan akurasi prediksi dan memanfaatkan konteks visual yang kaya. Pendekatan ini memberikan hasil yang sangat mengesankan dalam tugas-tugas downstream, terutama ketika CapPa diterapkan pada dataset dan model dengan ukuran yang lebih besar.

Selain itu, CapPa juga menunjukkan kemampuan nol-shot yang kuat, yang memungkinkan model untuk secara efektif menggeneralisasi ke tugas yang tidak terlihat sebelumnya. Ini membuka peluang menarik untuk pengembangan model yang dapat belajar dan beradaptasi dengan cepat terhadap tugas-tugas baru tanpa memerlukan pelatihan tambahan yang intensif.

Dengan kesederhanaan, skalabilitas, dan efisiensinya, CapPa membuka kemungkinan baru dalam pembelajaran multimodal. Diharapkan bahwa penelitian ini akan menginspirasi dan mendorong eksplorasi lebih lanjut tentang penggunaan image captioning sebagai strategi pelatihan pra-pemrosesan yang kompetitif untuk pengode penglihatan. Dengan terus memperbaiki dan mengembangkan pendekatan CapPa, kita dapat memajukan kemajuan dalam bidang pemrosesan gambar dan pembelajaran multimodal, dan membuka peluang baru dalam aplikasi yang melibatkan penggabungan gambar dan teks.

Disarikan dari: Citation