Peneliti Dari University College London Mengusulkan Spawrious, Suite Pengujian Klasifikasi Gambar Untuk Mengatasi Kesenjangan Generalisasi Kecerdasan Buatan

Peningkatan Keandalan Model Kecerdasan Buatan dengan Mengatasi Korelasi Tersirat

Kecerdasan Buatan (Artificial Intelligence/AI) semakin populer dengan dirilisnya model-model baru hampir setiap hari dengan fitur-fitur baru dan kemampuan pemecahan masalah. Para peneliti belakangan ini telah fokus untuk mengembangkan pendekatan yang dapat memperkuat ketahanan model AI terhadap distribusi uji yang tidak diketahui dan mengurangi ketergantungan mereka terhadap fitur-fitur tersirat. Menilik contoh mobil otonom dan robot dapur otomatis, kedua teknologi ini belum banyak diterapkan karena adanya tantangan dalam perilaku mereka dalam situasi di luar distribusi latihan yang diterima oleh model-model tersebut.

Beberapa penelitian telah melihat masalah korelasi tersirat (spurious correlations/SCs) dan mengusulkan metode untuk mengurangi dampak negatifnya terhadap kinerja model. Telah terbukti bahwa pengklasifikasi yang dilatih dengan dataset yang sudah terkenal seperti ImageNet bergantung pada data latar belakang, yang secara tersirat terkait dengan label kelas tetapi tidak selalu memiliki kemampuan prediktif terhadap mereka. Meskipun telah dilakukan kemajuan dalam mengembangkan metode untuk mengatasi masalah SC, masih diperlukan upaya untuk mengatasi keterbatasan benchmark yang ada. Benchmark saat ini seperti Waterbirds dan CelebA hair color memiliki keterbatasan, salah satunya adalah fokus mereka pada korelasi tersirat satu-satu (one-to-one/O2O), padahal di dunia nyata korelasi tersirat banyak-banyak (many-to-many/M2M) lebih umum terjadi, melibatkan kelompok kelas dan latar belakang.

Baru-baru ini, tim peneliti dari University College London memperkenalkan suite pengujian pengklasifikasi gambar bernama Spawrious dataset yang berisi korelasi tersirat antara kelas dan latar belakang. Suite ini mencakup korelasi tersirat satu-satu (O2O) dan banyak-banyak (M2M), yang telah dikategorikan menjadi tiga tingkat kesulitan: Mudah, Sedang, dan Sulit. Dataset ini terdiri dari sekitar 152.000 gambar berkualitas tinggi yang dihasilkan menggunakan model teks-ke-gambar, dan model keterangan gambar telah digunakan untuk menyaring gambar yang tidak sesuai, sehingga memastikan kualitas dan relevansi dataset tersebut.

Dalam evaluasi, Spawrious dataset telah menunjukkan performa yang luar biasa karena dataset ini menantang pendekatan keandalan kelompok terkini (state-of-the-art/SOTA) seperti Hard-splits, yang merupakan tantangan signifikan, di mana tidak ada metode yang diuji mencapai akurasi di atas 70% dengan menggunakan model ResNet50 yang telah dilatih sebelumnya dengan ImageNet. Tim peneliti telah menyebutkan bagaimana kekurangan performa model disebabkan oleh ketergantungan mereka pada latar belakang fiktif dengan melihat klasifikasi yang mereka buat dengan salah. Hal ini menunjukkan bagaimana Spawrious dataset berhasil menguji pengklasifikasi dan mengungkap kelemahan mereka terhadap korelasi yang salah.

Untuk menggambarkan perbedaan antara benchmark O2O dan M2M, tim peneliti telah menggunakan contoh pengumpulan data latihan selama musim panas, yang terdiri dari dua kelompok spesies hewan dari dua lokasi yang berbeda, di mana masing-masing kelompok hewan terkait dengan kelompok latar belakang tertentu. Namun, ketika musim berubah dan hewan bermigrasi, kedua kelompok tersebut bertukar lokasi, mengakibatkan korelasi tersirat antara kelompok hewan dan latar belakang berbalik dengan cara yang tidak dapat dipasangkan satu-satu. Hal ini menunjukkan perlunya untuk menangkap hubungan dan ketergantungan yang rumit dalam korelasi tersirat M2M.

Spawrious dataset tampaknya menjadi suite benchmark yang menjanjikan untuk algoritma out-of-distribution (OOD), generalisasi domain, dan untuk mengevaluasi dan meningkatkan keandalan model-model di hadapan fitur-fitur tersirat.

Meningkatkan Keandalan Model AI melalui Dataset dan Benchmark yang Tersirat

Dalam perkembangan kecerdasan buatan yang semakin pesat, penting untuk memperkuat keandalan model AI agar dapat diandalkan dalam berbagai situasi. Salah satu tantangan utama adalah keterbatasan model dalam menghadapi distribusi data uji yang tidak diketahui atau dilatih dengan fitur-fitur tersirat yang tidak relevan. Oleh karena itu, penelitian terkini telah berfokus pada pengembangan dataset dan benchmark yang dapat menguji dan meningkatkan keandalan model AI dalam menghadapi masalah ini.

Dataset seperti Spawrious yang mencakup korelasi tersirat antara kelas dan latar belakang memberikan kesempatan untuk menguji model AI dalam situasi yang realistis dan mengevaluasi keandalan mereka. Dalam pengembangan dataset seperti Spawrious, penting untuk memperhatikan banyak-aspek (many-to-many/M2M) korelasi tersirat yang lebih kompleks dan umum terjadi dalam dunia nyata, daripada fokus hanya pada korelasi satu-satu (one-to-one/O2O). Hal ini memungkinkan model-model AI untuk beradaptasi dengan situasi yang lebih realistis dan menghindari kesalahan yang disebabkan oleh ketergantungan pada fitur-fitur tersirat yang salah.

Selain dataset, benchmark juga merupakan komponen penting dalam meningkatkan keandalan model AI. Benchmark seperti Spawrious dapat digunakan untuk menguji model AI dan mengidentifikasi kelemahan mereka terhadap korelasi tersirat. Dengan mengekspos model-model ini pada berbagai tingkat kesulitan, benchmark dapat membantu dalam mengembangkan metode dan algoritme yang lebih baik untuk mengatasi masalah ini. Selain itu, benchmark juga dapat digunakan sebagai alat untuk membandingkan kinerja model AI dan mempromosikan perkembangan dalam bidang kecerdasan buatan.

Dalam menghadapi tantangan yang kompleks ini, kerjasama antara para peneliti, universitas, dan industri sangat penting. Dengan berbagi pengetahuan, sumber daya, dan pengalaman, kita dapat mengembangkan model AI yang lebih andal dan dapat diandalkan. Dalam perkembangan kecerdasan buatan yang semakin pesat, penting untuk terus mengupayakan peningkatan keandalan model AI agar dapat digunakan secara luas dalam berbagai bidang seperti mobil otonom, robotika, dan lainnya.

Dengan memperkuat keandalan model AI melalui dataset dan benchmark yang tersirat, kita dapat memastikan bahwa teknologi ini dapat digunakan dengan aman dan menguntungkan bagi masyarakat.

Disarikan dari: Link