Peneliti AI SalesForce Memperkenalkan OVIS: Generator Masker Segmentasi Instansi Tanpa Masker

Perkembangan teknologi dalam bidang visi komputer telah menghasilkan kemajuan yang signifikan dalam teknik segmentasi instan. Segmentasi instan mengacu pada tugas visi komputer untuk mengidentifikasi dan membedakan objek-objek yang berasal dari kelas yang sama dalam sebuah gambar dengan cara memperlakukan mereka sebagai entitas yang berbeda. Dalam beberapa tahun terakhir, jumlah teknik segmentasi instan telah meningkat pesat berkat kemajuan-kemajuan dalam teknik deep learning. Misalnya, jaringan saraf konvolusional (CNN) dan arsitektur progresif lainnya seperti Mask R-CNN digunakan untuk segmentasi instan. Karakteristik dominan dari teknik-teknik tersebut adalah bahwa mereka menggabungkan kemampuan deteksi objek dengan segmentasi piksel demi mengidentifikasi objek dan menghasilkan masker akurat untuk setiap instan dalam sebuah gambar, yang mengarah pada pemahaman yang lebih baik tentang gambar secara keseluruhan.

Meskipun demikian, terdapat kekurangan tertentu pada model deteksi yang ada terkait jumlah kategori dasar yang dapat mereka identifikasi. Uji coba sebelumnya telah menunjukkan bahwa jika model deteksi dilatih pada dataset COCO, kemampuannya untuk mendeteksi sekitar 80 kategori dapat dicapai. Namun, setiap kategori tambahan akan membutuhkan keterlibatan manusia yang membutuhkan waktu dan tenaga yang besar. Untuk mengatasi hal ini, metode Open Vocabulary (OV) digunakan yang memanfaatkan pasangan gambar-keterangan dan model bahasa visual untuk mempelajari kategori-kategori baru. Namun, terdapat perbedaan yang besar dalam supervisi ketika mempelajari kategori dasar dan baru. Hal ini seringkali mengakibatkan overfitting pada kategori dasar dan generalisasi yang buruk pada kategori baru. Akibatnya, diperlukan metodologi yang dapat meningkatkan metode-metode deteksi ini untuk mendeteksi kategori-kategori baru tanpa banyak intervensi manusia. Hal ini akan membuat model-model menjadi lebih praktis dan dapat diterapkan dalam skala yang lebih luas untuk aplikasi dunia nyata.

Untuk mengatasi masalah ini, para peneliti di Salesforce AI telah mengembangkan metode di mana anotasi bounding box dan instance-mask dihasilkan dari pasangan gambar-keterangan. Metode yang mereka usulkan, The Mask-free OVIS pipeline, memanfaatkan supervisi lemah dengan menggunakan anotasi pseudomask yang berasal dari model bahasa visual untuk mempelajari kategori-kategori dasar dan baru. Pendekatan ini menghilangkan kebutuhan akan anotasi manusia yang rumit dan mengatasi masalah overfitting. Evaluasi eksperimental telah menunjukkan bahwa metodologi mereka melampaui model segmentasi instan open vocabulary state-of-the-art yang ada. Selain itu, penelitian mereka telah diakui dan diterima di Konferensi Pengenalan Pola dan Visi Komputer bergengsi pada tahun 2023.

Metode Mask-free OVIS

Para peneliti Salesforce telah mengembangkan suatu pipeline yang terdiri dari dua tahap utama: generasi pseudomask dan segmentasi instan open vocabulary. Pada tahap pertama, anotasi pseudomask dibuat untuk objek yang diminati dari pasangan gambar-keterangan. Dengan memanfaatkan model bahasa visual yang telah dilatih sebelumnya, nama objek berfungsi sebagai teks yang memicu lokalisisasi objek. Selain itu, dilakukan proses pemaskuan iteratif dengan menggunakan GradCAM untuk menyempurnakan pseudomask dan memastikan bahwa pseudomask tersebut mencakup seluruh objek dengan akurat. Pada tahap kedua, jaringan segmentasi lemah-supervisi (WSS) dilatih untuk memilih proposal dengan tumpang tindih tertinggi dengan peta aktivasi GradCAM menggunakan bounding box yang telah dihasilkan sebelumnya. Akhirnya, model Mask-RCNN dilatih menggunakan anotasi pseudomask yang dihasilkan, lengkap dengan pipeline tersebut.

Pipeline ini, dengan demikian, menghilangkan kebutuhan akan keterlibatan manusia dengan memanfaatkan kekuatan model bahasa visual yang telah dilatih sebelumnya dan model lemah-supervisi untuk secara otomatis menghasilkan anotasi pseudomask yang dapat digunakan sebagai data pelatihan tambahan. Untuk mengevaluasi pipeline mereka, para peneliti melakukan beberapa percobaan pada dataset MS-COCO dan OpenImages yang terkenal. Temuan mereka menunjukkan bahwa penggunaan pseudo-anotasi dalam pendekatan mereka menghasilkan kinerja yang luar biasa dalam tugas deteksi dan segmentasi instan, melampaui metode lain yang bergantung pada anotasi manusia. Pendekatan unik berbantuan bahasa visual untuk generasi anotasi pseudomask, yang dikembangkan oleh para peneliti di Salesforce, membuka jalan untuk menciptakan model segmentasi instan yang lebih canggih dan presisi yang menghilangkan kebutuhan akan annotator manusia.

Keunggulan Metode Mask-free OVIS

Metode Mask-free OVIS yang dikembangkan oleh Salesforce AI memiliki beberapa keunggulan signifikan dalam bidang segmentasi instan. Pertama, metode ini mengatasi kendala jumlah kategori dasar yang dapat diidentifikasi oleh model deteksi. Dengan memanfaatkan anotasi pseudomask yang dihasilkan secara otomatis dari model bahasa visual, metode ini memungkinkan model untuk mendeteksi kategori-kategori baru tanpa banyak intervensi manusia. Hal ini membuat model lebih praktis dan dapat diterapkan dalam berbagai aplikasi dunia nyata yang membutuhkan deteksi objek yang akurat.

Selain itu, metode Mask-free OVIS juga mengatasi masalah overfitting pada kategori-kategori dasar dan generalisasi yang buruk pada kategori-kategori baru. Dengan menggunakan pendekatan lemah-supervisi yang menggabungkan pseudomask dengan bounding box yang dihasilkan sebelumnya, metode ini menciptakan model segmentasi instan yang dapat mengenali dan memaskerkan objek-objek dengan akurasi yang tinggi, baik pada kategori-kategori dasar maupun baru. Hasil evaluasi eksperimental menunjukkan bahwa metode ini melampaui model-model terkini dalam tugas deteksi dan segmentasi instan.

Secara keseluruhan, metode Mask-free OVIS yang dikembangkan oleh para peneliti di Salesforce AI membawa kontribusi yang signifikan dalam bidang visi komputer. Dengan menghilangkan kebutuhan akan anotasi manusia yang rumit dan memanfaatkan kekuatan model bahasa visual dan metode lemah-supervisi, metode ini membuka jalan untuk menciptakan model-model segmentasi instan yang lebih canggih

Disarikan dari: Source