"AI Baru Hadir Dengan Model Dasar Yang Kuat Untuk Tugas Pengenalan Gambar: Recognize Anything Model (RAM)"

Pengenalan model baru Recognize Anything Model (RAM) oleh para peneliti di OPPO Research Institute, International Digital Economy Academy (IDEA), dan AI2 Robotics menawarkan solusi bagi masalah kurangnya label semantik dalam pengenalan gambar.

RAM sebagai Solusi untuk Masalah Labeling Gambar

Dalam pengolahan bahasa alami (NLP), model bahasa besar (LLM) yang dilatih pada dataset online besar terbukti sangat baik. Namun, Segment Anything Model (SAM), meskipun mampu melakukan lokalization, tidak dapat menghasilkan label semantik yang setara pentingnya. Label semantik adalah tugas penting yang sama dengan lokalization dalam pengenalan gambar. Pengenalan banyak label untuk satu gambar adalah tujuan dari pengenalan gambar multi-label atau image tagging. Karena gambar mengandung berbagai label, termasuk objek, lanskap, properti, dan kegiatan, image tagging adalah masalah visi komputer yang penting dan berguna.

Namun, dua faktor utama menghambat labeling gambar:

1. Kekurangan data yang berkualitas tinggi. Mesin anotasi data yang efisien yang dapat mencatat secara semi-otomatis atau otomatis jumlah foto yang besar di berbagai kategori masih kurang, begitu juga dengan sistem label standar dan komprehensif.
2. Model open-vocabulary dan kuat yang dibangun dengan desain model yang efisien dan fleksibel yang memanfaatkan data lemah yang diawasi secara besar-besaran bagi skala besar.

Recognize Anything Model (RAM) adalah model dasar yang kuat untuk image tagging. RAM dapat mengatasi masalah seperti sistem label yang kurang memadai, dataset yang tidak memadai, mesin data yang tidak efisien, dan batasan arsitektural. RAM memperkenalkan konvensi penamaan global standar dan menggunakan dataset akademik (klasifikasi, deteksi, dan segmentasi) dan tagger komersial (Google, Microsoft, dan Apple) untuk memperkaya sistem tagging mereka. Dengan menggabungkan semua tag publik yang tersedia dengan tag berbasis teks umum, metode labeling menghasilkan 6.449 label yang secara kolektif mengatasi sebagian besar kasus penggunaan.

Para peneliti memulai dengan memanfaatkan pasangan gambar-teks melalui teknologi parsing teks semantik otomatis untuk mengekstraksi tag gambar. Dengan metode ini, mereka dapat memperoleh banyak tag gambar berdasarkan pasangan gambar-teks tanpa bergantung pada anotasi manual.

Akan tetapi, kombinasi gambar-teks yang bersumber dari internet cenderung tidak akurat karena adanya noise acak. Oleh karena itu, tim menciptakan mesin penandaan data untuk meningkatkan akurasi anotasi. Dalam mengatasi masalah label yang hilang, mereka mengadopsi model yang sudah ada untuk menghasilkan klasifikasi tambahan. Ketika menangani area yang salah label, mereka menunjukkan beberapa bagian dalam gambar yang berkaitan dengan label yang berbeda. Kemudian, mereka menggunakan metode pengelompokan wilayah untuk menemukan dan mengeliminasi anomali dalam kategori yang sama. Selain itu, label yang membuat prediksi yang tidak konsisten juga dihapus untuk mendapatkan anotasi yang lebih tepat.

RAM memungkinkan generalisasi untuk kelas baru dengan menambahkan konteks semantik pada pencarian label. Kemampuan identifikasi RAM dapat ditingkatkan oleh arsitektur model untuk setiap dataset visual, menunjukkan keberagaman RAM. Dengan menunjukkan bahwa model umum yang dilatih pada data yang bebas anotasi dan berisik mungkin mengalahkan model yang sangat diawasi, RAM memperkenalkan paradigma baru untuk tagging gambar. RAM membutuhkan dataset gratis dan tersedia publik tanpa anotasi. Versi RAM yang paling kuat hanya perlu dilatih selama tiga hari pada delapan GPU A100.

Perspektif Masa Depan untuk RAM

Menurut tim peneliti, masih ada perbaikan yang dapat dilakukan untuk RAM. Ini termasuk menjalankan banyak iterasi mesin data, meningkatkan parameter tulang belakang untuk meningkatkan kapasitas model, dan memperluas dataset pelatihan di luar 14 juta foto untuk lebih menutupi wilayah yang berbeda. Dalam mengatasi hambatan ini, RAM dapat menjadi solusi bagi masalah tagging gambar dengan memanfaatkan data secara efisien dan fleksibel. RAM juga dapat memenuhi tuntutan untuk sistem label yang lebih tepat dan standar, membuka peluang untuk pengembangan produk teknologi terbaru.

Disarikan dari: Sumber