Peneliti dari Universitas Surrey Luncurkan Alat Deteksi Objek Berbasis Sketsa yang Mengubah Permainan dalam Tugas Pembelajaran Mesin

Pemanfaatan Kemampuan Manusia dalam Mendeteksi Objek dengan Menggunakan Sketch

Sejak zaman prasejarah, manusia telah menggunakan sketsa sebagai alat komunikasi dan dokumentasi. Dalam dekade terakhir, para peneliti telah melakukan kemajuan besar dalam memahami cara menggunakan sketsa mulai dari klasifikasi dan sintesis hingga aplikasi yang lebih baru seperti pemodelan abstraksi visual, transfer gaya, dan penyesuaian goresan yang terus-menerus. Namun, hanya pencarian gambar berbasis sketsa (SBIR) dan versi lebih rinci (FGSBIR) yang telah menyelidiki potensi ekspresif dari sketsa. Sistem-sistem terbaru sudah matang untuk adaptasi komersial, yang merupakan bukti fantastis bahwa pengembangan ekspresivitas sketsa dapat memiliki efek yang signifikan.

Sketsa sangat menggugah karena secara otomatis menangkap petunjuk visual yang halus dan personal. Namun, penelitian tentang kualitas-kualitas bawaan dalam menggambar sketsa manusia ini telah terbatas pada bidang pencarian gambar. Untuk pertama kalinya, para ilmuwan sedang melatih sistem untuk menggunakan kekuatan menggugah sketsa untuk tugas paling mendasar dalam penglihatan: mendeteksi objek dalam sebuah adegan. Produk akhirnya adalah kerangka kerja untuk mendeteksi objek berdasarkan sketsa, sehingga seseorang dapat memfokuskan pada “zebra” tertentu (misalnya, yang sedang makan rumput) di antara kawanan zebra. Selain itu, para peneliti menetapkan bahwa model ini berhasil tanpa:

– Memiliki gagasan tentang hasil yang diharapkan saat pengujian (zero-shot).
– Membutuhkan kotak batas atau label kelas tambahan (seperti dalam pengawasan penuh).

Para peneliti juga menetapkan bahwa detektor berbasis sketsa juga beroperasi dalam mode zero-shot, yang meningkatkan kebaruan sistem ini. Dalam bagian-bagian berikutnya, mereka menjelaskan bagaimana mereka mengubah deteksi objek dari konfigurasi set tertutup menjadi konfigurasi open-vocab. Detektor objek, misalnya, menggunakan pembelajaran prototipe sebagai gantinya untuk kepala klasifikasi, dengan fitur sketsa kueri yang terkode sebagai set pendukung. Model kemudian dilatih dengan kehilangan entropi silang multi-kategori di antara prototipe dari semua kategori atau contoh yang dapat dibayangkan dalam lingkungan deteksi objek yang diawasi secara lemah (WSOD). Deteksi objek beroperasi pada tingkat gambar, sedangkan SBIR dilatih dengan pasangan sketsa dan foto objek individu. Oleh karena itu, pelatihan detektor objek SBIR memerlukan jembatan antara karakteristik tingkat objek dan tingkat gambar.

Kontribusi para peneliti adalah sebagai berikut:

– Meningkatkan ekspresivitas menggambar manusia untuk deteksi objek.
– Membangun detektor objek berdasarkan sketsa yang dapat memahami apa yang ingin disampaikan oleh seseorang dalam sebuah sketsa.
– Mengembangkan detektor untuk objek yang mampu mendeteksi pada tingkat kategori tradisional serta tingkat instansi dan bagian.
– Mengembangkan konfigurasi pembelajaran prompt yang inovatif yang menggabungkan CLIP dan SBIR untuk menghasilkan detektor yang sadar akan sketsa dan dapat berfungsi dalam mode zero-shot tanpa anotasi kotak batas atau label kelas.
– Hasil penelitian ini lebih unggul dibandingkan dengan SOD dan WSOD dalam pengaturan zero-shot.

Sebagai gantinya untuk memulai dari awal, para peneliti telah menunjukkan sinergi intuitif antara model dasar (seperti CLIP) dan model sketsa yang sudah ada yang dibangun untuk pencarian gambar berbasis sketsa (SBIR), yang sudah elegan memecahkan tugas tersebut. Khususnya, mereka pertama-tama melakukan prompting terpisah pada cabang sketsa dan foto model SBIR, kemudian menggunakan kemampuan generalisasi CLIP untuk membangun pengkode sketsa dan foto yang sangat generalisasi. Untuk memastikan bahwa pengkode wilayah dari kotak yang terdeteksi cocok dengan sketsa dan foto SBIR, mereka merancang paradigma pelatihan untuk menyesuaikan pengkode yang dipelajari untuk deteksi item. Kerangka kerja ini lebih unggul dibandingkan dengan detektor objek yang diawasi (SOD) dan yang diawasi secara lemah (WSOD) dalam pengaturan zero-shot ketika diuji pada kumpulan data deteksi objek standar industri, termasuk PASCAL-VOC dan MS-COCO.

Dalam rangka untuk meningkatkan deteksi objek, para peneliti secara aktif mendorong ekspresivitas manusia dalam menggambar sketsa. Kerangka kerja identifikasi objek yang diaktifkan sketsa yang diusulkan adalah detektor objek yang menyadari instansi dan bagian, yang dapat memahami apa yang ingin disampaikan seseorang dalam sebuah sketsa. Sebagai hasilnya, mereka merancang konfigurasi pembelajaran prompt yang inovatif yang menggabungkan CLIP dan SBIR untuk mendidik detektor yang sadar akan sketsa dan dapat berfungsi tanpa anotasi kotak batas atau label kelas. Detektor ini juga dijelaskan dapat beroperasi dalam mode zero-shot untuk berbagai tujuan. Di sisi lain, SBIR diajarkan melalui pasangan sketsa dan foto dari satu objek. Mereka menggunakan pendekatan augmentasi data yang meningkatkan ketahanan terhadap korupsi dan generalisasi untuk out-of-vocabulary untuk membantu memperkuat hubungan antara tingkat objek dan tingkat gambar. Kerangka kerja yang dihasilkan mengalahkan detektor objek yang diawasi dan yang diawasi secara lemah dalam pengaturan zero-shot.

Disarikan dari: Citation