Peneliti ETH Zurich dan HKUST Usulkan Model Segmentasi Nol-Tembakan Berkualitas Tinggi dengan Overhead yang Hampir Tidak Terlihat pada Tugas SAM Asli

HQ-SAM: Model Baru Segmen Gambar Tingkat Tinggi dengan Bobot Rendah

Segmentasi yang akurat dari banyak objek sangat penting untuk berbagai aplikasi pemahaman adegan, seperti pengolahan gambar / video, persepsi robotik, dan AR / VR. Model Segment Anything (SAM) baru-baru ini dirilis, sebuah model visi dasar untuk segmentasi gambar yang luas. Ia dilatih menggunakan label masker skala miliaran. SAM dapat memisahkan berbagai objek, komponen, dan struktur visual dalam konteks ganda dengan menggunakan urutan titik, kotak pembatas, atau masker kasar sebagai masukan. Kemampuan segmentasinya tanpa bantuan telah memicu perubahan paradigma yang cepat karena dapat digunakan dalam banyak aplikasi dengan sedikit petunjuk dasar. Meskipun kinerjanya luar biasa, hasil segmentasi SAM masih perlu ditingkatkan. Ada dua masalah utama yang mengganggu SAM: 1) Batas masker kasar, seringkali menghilangkan struktur objek yang tipis, seperti yang ditunjukkan pada Gambar 1. 2) Peramalan yang salah, masker yang rusak, atau ketidakakuratan yang signifikan pada instansi yang sulit. Ini sering terkait dengan kecenderungan SAM untuk salah membaca struktur tipis, seperti garis layang-layang di kolom kanan atas gambar. Aplikasi dan efektivitas metode segmentasi dasar, seperti SAM, sangat dibatasi oleh kesalahan ini, terutama untuk pekerjaan anotasi otomatis dan pengeditan gambar / video di mana masker gambar yang sangat presisi sangat penting.

### HQ-SAM: Solusi untuk Segmentasi Gambar yang Lebih Teliti

Peneliti dari ETH Zurich dan HKUST menyarankan solusi baru bernama HQ-SAM, yang mempertahankan kemampuan zero-shot dan fleksibilitas SAM asli sambil mampu mengantisipasi masker segmentasi yang sangat akurat, bahkan dalam situasi yang sangat sulit. Mereka menyarankan adaptasi kecil dari SAM, menambahkan kurang dari 0,5% parameter, untuk meningkatkan kapasitasnya untuk segmentasi berkualitas tinggi sambil mempertahankan efisiensi dan kinerja zero-shot.

### HQSeg-44K: Dataset Baru untuk Pelatihan Model Segmentasi

Sebuah dataset dengan anotasi masker gambar yang presisi dari berbagai objek dengan geometri rumit dan komplikasi diperlukan untuk pembelajaran segmentasi yang akurat. Dataset SA-1B, yang memiliki 11 juta foto dan 1,1 miliar masker yang dibuat secara otomatis menggunakan model yang mirip dengan SAM, digunakan untuk melatih SAM. Namun, kinerja SAM pada Gambar 1 menunjukkan bahwa menggunakan dataset besar ini memiliki konsekuensi ekonomi yang besar. Ia gagal menghasilkan generasi masker berkualitas tinggi yang dibutuhkan dalam studi mereka. Oleh karena itu, mereka membuat HQSeg-44K, dataset baru yang terdiri dari 44 ribu anotasi masker gambar yang sangat halus. Enam dataset gambar yang ada digabungkan dengan anotasi masker yang sangat presisi untuk membuat HQSeg-44K, yang meliputi lebih dari 1.000 kelas semantik yang berbeda. HQ-SAM dapat dilatih pada 8 GPU RTX 3090 dalam waktu kurang dari 4 jam berkat dataset yang lebih kecil dan desain terintegrasi mereka. Mereka melakukan studi eksperimental kuantitatif dan kualitatif yang ketat untuk memverifikasi efektivitas HQ-SAM.

### Kesimpulan

Dalam dunia AI, segmentasi gambar yang tepat sangat penting untuk aplikasi pemahaman adegan. HQ-SAM adalah model baru yang mengatasi masalah utama yang mencegah SAM menghasilkan hasil segmentasi yang akurat. Dengan dataset pelatihan yang lebih kecil dan desain terintegrasi yang sederhana, HQ-SAM mampu menghasilkan masker gambar yang lebih berkualitas tinggi sambil mempertahankan kemampuan zero-shot. Penemuan ini akan membantu dalam berbagai aplikasi, termasuk pengolahan gambar / video dan robotika, dan mempercepat kemajuan dalam bidang AI secara keseluruhan.

Disarikan dari: Link