Mengatasi Masalah Deteksi Out-of-Distribution pada ImageNet: In atau Out?

Dataset NINCO: Solusi untuk Evaluasi OOD Detection pada Image Classification

Untuk mencegah kesalahan prediksi model deep learning pada input out-of-distribution (OOD), deteksi OOD pada model deep learning diperlukan. Deteksi OOD bertujuan untuk mencegah model membuat prediksi yang salah pada input (OOD) sambil tetap mengklasifikasikan input in-distribution (ID) dengan akurasi yang lebih baik. Dengan membedakan antara ID dan input OOD, metode deteksi OOD meningkatkan kekokohan dan keandalan model di aplikasi dunia nyata.

Namun, terdapat kelemahan dalam evaluasi deteksi OOD saat ini pada klasifikasi gambar, terutama pada dataset terkait ImageNet-1K (IN-1K). Kelemahan tersebut adalah adanya objek ID dalam dataset OOD. Masalah ini menghasilkan klasifikasi objek ID sebagai OOD oleh detektor OOD terbaru. Oleh karena itu, evaluasi metode deteksi OOD terpengaruh, mengakibatkan hasil deteksi OOD yang sebenarnya diremehkan dan lebih menghukum detektor OOD yang lebih efektif.

Sebuah penelitian baru-baru ini telah diterbitkan oleh para peneliti yang bertujuan untuk mengatasi keterbatasan dalam evaluasi metode deteksi OOD. Mereka memperkenalkan dataset tes baru, NINCO, yang berisi sampel OOD tanpa objek dari kelas ImageNet-1K (ID). Mereka juga menyediakan “uji unit OOD” sintetis untuk mengevaluasi kelemahan detektor OOD. Penelitian ini mengevaluasi berbagai arsitektur dan metode pada NINCO, memberikan wawasan tentang kelemahan model dan dampak pre-training pada performansi deteksi OOD. Tujuannya adalah untuk meningkatkan evaluasi dan pemahaman metode deteksi OOD.

Para peneliti mengusulkan pembuatan dataset baru bernama NINCO (No ImageNet Class Objects) untuk mengatasi keterbatasan dalam evaluasi metode deteksi OOD. Mereka memilih kelas dasar dari dataset yang ada atau baru yang diambil, mempertimbangkan interpretasi yang tidak memperbolehkan agar tidak termasuk dalam kelas ImageNet-1K (ID). Para peneliti memeriksa setiap gambar secara visual di kelas dasar untuk menghapus sampel yang mengandung objek ID atau di mana tidak ada objek dari kelas OOD yang terlihat. Proses pembersihan manual ini memastikan dataset yang lebih berkualitas.

NINCO terdiri dari 64 kelas OOD dengan total 5.879 sampel yang berasal dari berbagai dataset, termasuk SPECIES, PLACES, FOOD-101, CALTECH-101, MYNURSINGHOME, ImageNet-21k, dan baru saja diambil dari iNaturalist.org dan situs web lainnya. Selain itu, para peneliti menyediakan versi yang sudah dibersihkan dari 2.715 gambar OOD dari sebelas dataset OOD tes untuk mengevaluasi potensi kontaminasi ID.

Para peneliti juga mengusulkan penggunaan uji unit OOD, input gambar sederhana yang dihasilkan secara sintetis yang dirancang untuk menilai kelemahan deteksi OOD. Mereka menyarankan untuk mengevaluasi performa detektor OOD pada uji unit ini secara terpisah dan menghitung jumlah uji gagal (FPR di atas ambang batas yang ditentukan pengguna) bersama-sama dengan evaluasi keseluruhan pada dataset OOD tes seperti NINCO. Uji unit ini memberikan wawasan berharga tentang kelemahan spesifik yang mungkin dihadapi oleh detektor dalam praktiknya. Secara keseluruhan, para peneliti mengusulkan NINCO sebagai dataset berkualitas tinggi untuk mengevaluasi metode deteksi OOD dan menyarankan penggunaan uji unit OOD untuk mendapatkan wawasan tambahan tentang kelemahan detektor.

Insight Performa Deteksi OOD

Dalam penelitian ini, para peneliti menggunakan dataset NINCO untuk mengevaluasi deteksi OOD pada model deep learning. Mereka mengevaluasi performa deteksi OOD berbagai arsitektur dan metode pada NINCO dataset dan uji unit. Para peneliti menganalisis performa metode deteksi OOD dan arsitektur yang berbeda, mengungkapkan wawasan tentang kelemahan model dan dampak pre-training pada performansi deteksi OOD. Dalam mengevaluasi dataset NINCO, penelitian ini mengevaluasi model IN-1K yang berbeda yang diperoleh dari perpustakaan timm dan metode deteksi OOD canggih. Teknik berbasis fitur seperti Maha, RMaha, dan ViM bekerja lebih baik daripada baseline MSP. Max-Logit dan Energy juga menunjukkan peningkatan yang mencolok dibandingkan dengan MSP. Hasil performa berbeda berdasarkan model yang dipilih dan metode deteksi OOD. Pre-training terbukti mempengaruhi performa ID yang lebih baik dan generasi penggandaan fitur superior untuk deteksi OOD.

Penelitian ini dapat memberikan wawasan penting bagi para peneliti untuk memahami kekuatan dan keterbatasan metode deteksi OOD saat ini. Dataset NINCO menyediakan dataset OOD yang lebih baik tanpa objek ID yang memungkinkan evaluasi yang lebih baik. Selain itu, penggunaan uji unit OOD dapat memberikan wawasan tambahan tentang kelemahan detektor OOD yang mungkin. Dalam pengembangan metode deteksi OOD di masa depan, dataset seperti NINCO dapat menjadi acuan untuk evaluasi performa deteksi OOD yang lebih baik.

Disarikan dari: Source