Peneliti dari Allen Institute for AI Memperkenalkan VISPROG: Pendekatan Neuro-Simbolis untuk Menyelesaikan Tugas Visual yang Kompleks dan Komposisional Berdasarkan Instruksi Bahasa Alami

VISPROG: Sistem Neuro-Simbolik Modular dan Interpretatif untuk Penalaran Visual

Dalam pencarian sistem AI serbaguna, para peneliti dari Allen Institute for AI telah mengembangkan VISPROG, sebuah sistem neuro-simbolik yang modular dan interpretatif untuk penalaran visual. VISPROG menggunakan model bahasa alami yang kuat, seperti GPT-3, untuk membuat program visual yang dapat menghasilkan hasil yang diinginkan dari informasi visual dan perintah bahasa alami.

VISPROG merupakan sistem yang terdiri dari banyak modul yang dapat digunakan untuk berbagai tugas, termasuk deteksi wajah, pengambilan pengetahuan dari basis data, klasifikasi wajah, dan tagging gambar dengan nama karakter yang dikenali. Sistem ini menggunakan modul-modul yang telah diuji secara ekstensif, termasuk detektor wajah, GPT-3 sebagai sistem pengambilan pengetahuan, dan CLIP sebagai klasifikasi gambar dengan kosakata terbuka. Dengan menggunakan program visual yang telah dibuat oleh VISPROG, sistem dapat menghasilkan output yang diinginkan dengan efektif dan efisien.

Keunggulan dari VISPROG terletak pada kemampuannya untuk membuat program-program yang kompleks tanpa pelatihan sebelumnya. Dengan menggunakan model bahasa yang kuat dan beberapa contoh dalam konteks, pengguna dapat membuat program-program yang rumit tanpa kesulitan. Selain itu, VISPROG juga dapat memberikan visualisasi yang jelas dan terinci dari hasil prediksi yang dihasilkan. Dengan adanya visualisasi ini, pengguna dapat memeriksa setiap langkah dari program dan melakukan koreksi jika diperlukan.

VISPROG telah diuji pada empat tugas yang berbeda, termasuk menjawab pertanyaan visual, labeling objek berdasarkan instruksi bahasa alami, dan memanipulasi gambar berdasarkan instruksi bahasa. Dalam setiap tugas, VISPROG telah menghasilkan hasil yang memuaskan dan terbukti lebih unggul dibandingkan dengan model VQA konvensional.

Keunggulan VISPROG juga terletak pada kemampuannya untuk digunakan dalam berbagai aplikasi vision. Dengan menggunakan kombinasi modul-modul yang berbeda, VISPROG dapat digunakan untuk berbagai tugas, seperti pengambilan pengetahuan, operasi aritmatika, dan manipulasi gambar. Hal ini menunjukkan fleksibilitas dan kegunaan VISPROG dalam berbagai konteks.

Dalam penelitian ini, para peneliti juga menekankan bahwa VISPROG tidak mengubah modul-modul atau model bahasa yang digunakan. VISPROG hanya membutuhkan beberapa contoh dalam konteks dan program-program yang sesuai untuk dapat beradaptasi dengan tugas yang diberikan. Dengan demikian, VISPROG merupakan sistem yang mudah digunakan dan memberikan hasil yang lebih baik dibandingkan dengan model-model konvensional.

Dalam kesimpulannya, VISPROG merupakan sebuah sistem neuro-simbolik modular dan interpretatif yang dapat digunakan untuk penalaran visual. Dengan menggunakan model bahasa yang kuat dan modul-modul yang telah diuji, VISPROG dapat menghasilkan hasil yang diinginkan dengan cepat dan efisien. VISPROG juga memberikan visualisasi yang terinci dari hasil prediksi, sehingga memudahkan pengguna untuk memeriksa setiap langkah dari program. Keunggulan VISPROG dalam fleksibilitas dan kegunaan membuatnya menjadi pilihan yang baik untuk berbagai aplikasi vision.

Disarikan dari: Link