Scaling Open-Vocabulary Object Detection: Model OWLv2 Meningkatkan Kinerja Deteksi Objek dengan Data Terbatas
Dalam dunia komputer visi, deteksi objek dalam kosakata yang terbuka merupakan aspek kritis dalam berbagai tugas nyata. Namun, keterbatasan data latih deteksi dan kelemahan model yang telah dilatih seringkali menghasilkan kinerja yang kurang baik dan masalah skalabilitas.
Untuk mengatasi tantangan ini, tim peneliti DeepMind memperkenalkan model OWLv2 dalam paper terbaru mereka, “Scaling Open-Vocabulary Object Detection.” Arsitektur yang dioptimalkan ini meningkatkan efisiensi pelatihan dan menggabungkan metode self-training OWL-ST, secara signifikan meningkatkan kinerja deteksi dan mencapai hasil terbaik dalam tugas deteksi kosakata terbuka.
Optimasi Label Space dan Efisiensi Pelatihan
Tujuan utama dari penelitian ini adalah untuk mengoptimalkan label space, penyaringan anotasi, dan efisiensi pelatihan pada pendekatan self-training deteksi kosakata terbuka, dengan tujuan akhir mencapai kinerja kosakata terbuka yang tangguh dan skalabilitas dengan data yang terbatas.
Pendekatan self-training yang diusulkan terdiri dari tiga langkah kunci:
- Tim menggunakan detektor kosakata terbuka yang sudah ada untuk melakukan deteksi kotak terbuka pada WebLI, dataset berukuran besar yang terdiri dari pasangan gambar-teks dari web.
- Mereka menggunakan OWL-ViT CLIP-L/14 untuk memberi anotasi pada semua gambar WebLI dengan anotasi bounding box semu.
- Mereka melakukan fine-tuning pada model yang telah dilatih menggunakan data deteksi yang di-annotasi manusia, untuk lebih memperbaiki kinerjanya.
Peneliti menggunakan varian arsitektur OWL-ViT untuk melatih detektor yang lebih efektif. Arsitektur ini memanfaatkan model gambar-teks yang terlatih secara kontras untuk menginisialisasi pemroses gambar dan teks, sedangkan pemroses deteksi diinisialisasi secara acak.
Selama tahap pelatihan, tim menggunakan kerugian yang sama dan memperbesar jumlah query dengan “pseudo-negatif” dari arsitektur OWL-ViT, untuk mengoptimalkan efisiensi pelatihan dan memaksimalkan penggunaan gambar yang diberi label yang tersedia.
Mereka juga menggabungkan praktik yang sudah diajukan sebelumnya untuk pelatihan Transformer berukuran besar, untuk meningkatkan efisiensi pelatihan lebih lanjut. Hasilnya, model OWLv2 mengurangi jumlah FLOPS pelatihan sebesar 50% dan mempercepat throughput pelatihan 2 kali lipat dibandingkan dengan model OWL-ViT asli.
Peningkatan Kinerja Deteksi Objek dengan Self-Training OWL-ST
Tim membandingkan pendekatan yang mereka usulkan dengan detektor kosakata terbuka terbaik sebelumnya dalam studi empiris mereka. Teknik OWL-ST meningkatkan Average Precision (AP) pada kelas-kelas langka LVIS dari 31,2% menjadi 44,6%. Selain itu, kombinasi resep OWL-ST dengan arsitektur OWLv2 mencapai kinerja terbaik yang belum pernah ada sebelumnya.
Secara keseluruhan, resep OWL-ST yang disajikan dalam paper ini secara signifikan meningkatkan kinerja deteksi dengan memanfaatkan supervisi yang lemah dari data web dalam skala besar, memungkinkan pelatihan dalam skala web untuk lokalitas dunia terbuka. Pendekatan ini mengatasi batasan yang ditimbulkan oleh keterbatasan data deteksi yang diberi label dan menunjukkan potensi untuk mencapai deteksi objek kosakata terbuka yang tangguh secara skalabel.
Disarikan dari: Source