Kehebatan Artificial Intelligence (AI) terus berkembang seiring dengan munculnya model dan solusi baru. Large Language Models (LLMs), yang belakangan ini menjadi sangat populer karena kemampuannya yang luar biasa, menjadi alasan utama meningkatnya AI. Subdomain AI, baik Natural Language Processing, Natural Language Understanding, maupun Computer Vision, semuanya terus berkembang dengan alasan yang baik. Salah satu area penelitian yang belakangan ini menarik minat dari komunitas AI dan deep learning adalah Visual Question Answering (VQA). VQA adalah tugas menjawab pertanyaan berbasis teks terbuka tentang suatu gambar.
Sistem yang mengadopsi Visual Question Answering berusaha menjawab pertanyaan dengan tepat dalam bahasa alami mengenai masukan berupa gambar, dan sistem-sistem ini dirancang sedemikian rupa sehingga mereka memahami konten dari gambar seperti halnya manusia dan secara efektif mengkomunikasikan temuan-temuan tersebut. Baru-baru ini, sebuah tim peneliti dari UC Berkeley dan Google Research telah mengusulkan pendekatan yang disebut CodeVQA yang mengatasi visual question answering menggunakan generasi kode modular. CodeVQA merumuskan VQA sebagai masalah sintesis program dan menggunakan model bahasa yang menulis kode sebagai output berdasarkan pertanyaan sebagai input.
Tujuan utama kerangka kerja ini adalah untuk membuat program Python yang dapat memanggil model visual yang sudah dilatih sebelumnya dan menggabungkan output mereka untuk memberikan jawaban. Program yang dihasilkan memanipulasi output model visual dan menghasilkan solusi dengan menggunakan logika aritmatika dan kondisional. Berbeda dengan pendekatan sebelumnya, kerangka kerja ini menggunakan model bahasa yang sudah dilatih sebelumnya, model visual yang sudah dilatih berdasarkan pasangan gambar dan keterangan, sejumlah kecil sampel VQA, dan model visual yang sudah dilatih untuk mendukung pembelajaran dalam konteks.
Untuk evaluasi, tim peneliti telah membandingkan kinerja teknik baru ini dengan pendekatan dasar yang tidak menggunakan generasi kode untuk mengukur efektivitasnya. COVR dan GQA adalah dua set data benchmark yang digunakan dalam evaluasi, di antaranya set data GQA mencakup pertanyaan multihop yang dibuat dari grafik adegan foto Visual Genome individu yang manusia telah melakukan anotasi secara manual, dan set data COVR berisi pertanyaan multihop tentang sejumlah gambar dalam dataset Visual Genome dan imSitu. Hasilnya menunjukkan bahwa CodeVQA memiliki performa yang lebih baik pada kedua set data dibandingkan dengan pendekatan dasar. Secara khusus, CodeVQA menunjukkan peningkatan akurasi setidaknya 3% pada set data COVR dan sekitar 2% pada set data GQA.
Tim peneliti menyebutkan bahwa CodeVQA mudah untuk diterapkan dan digunakan karena tidak memerlukan pelatihan tambahan. Kerangka kerja ini menggunakan model yang sudah dilatih sebelumnya dan sejumlah kecil sampel VQA untuk pembelajaran dalam konteks, yang membantu menyesuaikan program yang dibuat dengan pola pertanyaan-jawaban tertentu. Kesimpulannya, kerangka kerja ini sangat kuat dan memanfaatkan keunggulan LMs dan model visual yang sudah dilatih sebelumnya, menyediakan pendekatan modular dan berbasis kode untuk VQA.
Penerapan CodeVQA dalam Visual Question Answering
CodeVQA adalah sebuah pendekatan dalam Visual Question Answering yang menggunakan generasi kode modular untuk menjawab pertanyaan berbasis teks tentang suatu gambar. Pendekatan ini melibatkan penggunaan model bahasa yang sudah dilatih sebelumnya dan model visual yang sudah dilatih berdasarkan pasangan gambar dan keterangan. Dengan menggunakan pendekatan ini, CodeVQA mampu memahami konten gambar dan menghasilkan jawaban yang tepat dalam bahasa alami. Selain itu, CodeVQA juga memanfaatkan kekuatan Python sebagai bahasa pemrograman untuk memanipulasi output model visual dan menganalisis data menggunakan matematika, struktur logika, dan konstruk pemrograman lainnya untuk mencapai solusi.
Kelebihan dan Evaluasi CodeVQA
CodeVQA memiliki beberapa kelebihan yang membuatnya menjadi pendekatan yang kuat dalam Visual Question Answering. Pertama, CodeVQA dapat langsung diterapkan dan digunakan tanpa memerlukan pelatihan tambahan. Hal ini karena CodeVQA menggunakan model yang sudah dilatih sebelumnya dan sejumlah kecil sampel VQA untuk pembelajaran dalam konteks. Kelebihan lainnya adalah CodeVQA mampu meningkatkan akurasi dalam menjawab pertanyaan pada berbagai dataset benchmark. Studi evaluasi menunjukkan bahwa CodeVQA memiliki peningkatan akurasi sebesar 3% pada dataset COVR dan sekitar 2% pada dataset GQA dibandingkan dengan pendekatan dasar. Dengan demikian, CodeVQA merupakan sebuah pendekatan yang efektif dalam Visual Question Answering.
Secara keseluruhan, CodeVQA adalah sebuah pendekatan inovatif dalam Visual Question Answering yang menggunakan generasi kode modular. Pendekatan ini mampu memahami konten gambar dan menghasilkan jawaban yang tepat dalam bahasa alami. Kelebihan CodeVQA yang tidak memerlukan pelatihan tambahan dan memiliki performa yang lebih baik dibandingkan pendekatan dasar membuatnya menjadi pilihan yang menarik dalam pengembangan sistem AI. Dengan terus berkembangnya teknologi AI dan deep learning, diharapkan CodeVQA dapat menjadi salah satu kontributor penting dalam pengembangan AI di masa depan.
Disarikan dari: Sumber