Peneliti Stanford Perkenalkan CWM: Framework yang Menyatukan Tugas Visi Mesin

Perkembangan kecerdasan buatan (artificial intelligence atau AI) semakin pesat terjadi, khususnya dalam bidang pemahaman bahasa alami dan generasi bahasa alami. ChatGPT yang dikembangkan oleh OpenAI adalah salah satu contoh terbaik yang telah mendapat perhatian sejak dirilis. Namun, kemampuan kecerdasan buatan dalam memahami visual masih jauh dari kemampuan manusia. Manusia dengan mudah dapat memahami adegan visual, termasuk mengenali objek, memahami pengaturan spasial, memprediksi gerakan objek, memahami interaksi objek satu sama lain, dan sebagainya. Sayangnya, kemampuan seperti itu masih sulit dicapai oleh AI.

Salah satu pendekatan yang efektif untuk mengatasi tantangan tersebut adalah menggunakan model dasar (foundation model). Model dasar terdiri dari dua komponen kunci: model yang telah dilatih sebelumnya, biasanya jaringan saraf besar, dilatih untuk memecahkan tugas prediksi token yang tersembunyi pada dataset dunia nyata yang besar, dan antarmuka tugas generik yang dapat menerjemahkan setiap tugas dalam domain yang luas menjadi masukan untuk model yang telah dilatih sebelumnya. Model dasar banyak digunakan dalam tugas terkait pemrosesan bahasa alami (natural language processing atau NLP), namun aplikasinya pada visi sulit karena masalah prediksi tersembunyi dan ketidakmampuan untuk memperoleh komputasi antara dalam visi komputer melalui antarmuka model visi tunggal.

Dalam rangka mengatasi tantangan tersebut, sekelompok peneliti telah mengusulkan pendekatan CWM (Counterfactual World Modeling), yaitu kerangka kerja untuk membangun model dasar visual. Dengan tujuan mengembangkan jaringan tanpa pengawasan yang dapat melakukan berbagai perhitungan visual saat dipicu, tim telah menciptakan CWM untuk menyatukan visi mesin.

Structured Masking dan Counterfactual Prompting

CWM terdiri dari dua komponen kunci. Komponen pertama adalah structured masking, yaitu perluasan metode prediksi tersembunyi yang digunakan dalam Large Language Models. Dalam structured masking, model prediksi didorong untuk menangkap struktur berdimensi rendah dalam data visual. Sebagai hasilnya, model dapat memfaktorkan elemen fisik penting dari adegan dan mengungkapkannya melalui kumpulan token visual minimal. Model belajar mengkodekan informasi penting tentang struktur yang mendasari dari adegan visual dengan cara membangun masker.

Komponen kedua adalah counterfactual prompting. Sejumlah representasi visual yang berbeda dapat dihitung secara zero-shot dengan membandingkan output model pada masukan nyata dengan masukan kontrafaktual yang sedikit dimodifikasi. Notasi visual inti dapat diturunkan dengan cara memperturbasi input dan mengamati perubahan respons model. Dengan metode kontrafaktual ini, perhitungan visual yang berbeda dapat dihasilkan tanpa perlu pengawasan eksplisit atau desain tugas tertentu.

Penulis telah menyebutkan bahwa CWM telah menunjukkan kemampuan luar biasa dalam menghasilkan output berkualitas tinggi untuk berbagai tugas menggunakan gambar dan video dunia nyata. Tugas-tugas tersebut meliputi estimasi titik kunci (titik-titik khusus seperti sudut atau tepi dalam gambar yang digunakan untuk pengenalan objek), aliran optik (pola gerakan tampak dalam rangkaian gambar), penutupan (ketika satu objek sebagian atau sepenuhnya menghalangi objek lain dalam adegan visual), segmen objek (memecah gambar menjadi wilayah bermakna yang sesuai dengan objek individu), dan kedalaman relatif (urutan kedalaman objek dalam adegan visual).

Harapan Membangun Model Dasar Visual yang Lebih Baik

Dalam kesimpulannya, CWM tampaknya menjadi pendekatan yang menjanjikan yang akan dapat menyatukan berbagai aliran visi mesin. Dengan kemampuan untuk menghasilkan berbagai perhitungan visual tanpa perlu pengawasan eksplisit atau desain tugas tertentu, CWM akan membantu mengatasi tantangan dalam mengembangkan model dasar visual yang lebih baik. Meskipun masih ada tantangan yang harus diatasi, pendekatan CWM dapat memberikan solusi yang lebih baik untuk mengembangkan model dasar visual yang memadai untuk pemrosesan visual di masa depan.

Disarikan dari: Source