PanoGen: Solusi Terobosan untuk Masalah Navigasi Bahasa dan Visual di AI
Ketika kita mendengar istilah kecerdasan buatan (AI), yang terlintas dalam pikiran adalah robot, android, atau humanoid yang dapat melakukan tindakan seperti manusia dengan efek yang sama, jika tidak lebih baik. Kita semua pernah melihat miniatur robot spesifik ini diterapkan dalam berbagai bidang, misalnya di bandara yang memandu orang ke outlet tertentu, di militer untuk menavigasi dan menangani situasi sulit, bahkan sebagai pelacak. Semua ini adalah contoh yang luar biasa dari AI dalam arti yang sebenarnya. Seperti halnya dengan setiap model AI lainnya, ini memiliki beberapa persyaratan dasar yang perlu dipenuhi, misalnya pilihan algoritma, korpus besar data untuk dilatih, penyesuaian, dan penyebaran.
Sekarang, jenis masalah ini sering disebut sebagai masalah Navigasi Bahasa dan Visual. Navigasi bahasa dan visual dalam kecerdasan buatan (AI) mengacu pada kemampuan sistem AI untuk memahami dan menavigasi dunia dengan menggunakan informasi visual dan linguistik. Ini menggabungkan visi komputer, pemrosesan bahasa alami, dan teknik pembelajaran mesin untuk membangun sistem cerdas yang dapat mempersepsi adegan grafis, memahami instruksi teks, dan menavigasi lingkungan fisik.
Banyak model, seperti CLIP, RecBERT, dan PREVALENT, bekerja pada masalah-masalah ini, tetapi semua model ini sangat menderita dari dua masalah besar. Data Terbatas dan Bias Data: Melatih sistem visual dan pembelajaran membutuhkan jumlah data yang besar. Namun, memperoleh data seperti itu dapat mahal, memakan waktu, atau bahkan tidak praktis di beberapa domain. Selain itu, ketersediaan data yang beragam dan representatif sangat penting untuk menghindari bias dalam pemahaman sistem dan pengambilan keputusan. Jika data pelatihan bias, itu dapat menyebabkan prediksi dan perilaku yang tidak adil atau tidak akurat. Generalisasi: Sistem AI perlu generalisasi dengan baik ke data yang tidak terlihat atau baru. Mereka harus mengingat data pelatihan dan mempelajari konsep-konsep dan pola-pola yang mendasari yang dapat diterapkan pada contoh-contoh baru. Overfitting terjadi ketika model berperforma baik pada data pelatihan tetapi gagal untuk generalisasi ke data baru. Mencapai generalisasi yang tangguh adalah tantangan yang signifikan, terutama dalam tugas visual yang kompleks yang melibatkan variasi kondisi pencahayaan, sudut pandang, dan penampilan objek.
Meskipun banyak upaya telah diusulkan untuk membantu agen mempelajari input instruksi yang beragam, semua dataset ini dibangun di lingkungan ruang 3D yang sama dari Matterport3D, yang hanya berisi 60 lingkungan ruangan yang berbeda untuk pelatihan agen. PanoGen, terobosan di bidang AI, telah memberikan solusi yang kuat untuk masalah ini. Sekarang dengan PanoGen, kelangkaan data teratasi, dan penciptaan korpus dan diversifikasi data juga telah disederhanakan.
PanoGen adalah metode generatif yang dapat membuat gambar panorama yang beragam sebanyak yang dibutuhkan berdasarkan teks. Mereka telah mengumpulkan deskripsi ruangan dengan memberi judul pada gambar ruangan yang tersedia dengan dataset Matterport3D dan telah menggunakan model teks-ke-gambar SoTA untuk menghasilkan visi panorama (lingkungan). Kemudian mereka menggunakan outpainting rekursif pada gambar yang dihasilkan untuk membuat tampilan panorama 360 derajat yang konsisten. Gambar-gambar panorama yang dikembangkan berbagi informasi semantik yang serupa yang tergantung pada deskripsi teks, yang memastikan adanya ko-keberadaan objek di panorama mengikuti intuisi manusia, dan menciptakan cukup keberagaman bentuk dan tata letak ruangan dengan outpainting gambar. Mereka telah menyebutkan bahwa telah ada upaya untuk meningkatkan variasi data pelatihan dan meningkatkan korpus. Semua upaya itu didasarkan pada mencampur adegan dari HM3D (Habitat Matterport 3D), yang kembali membawa masalah yang sama bahwa semua pengaturan, lebih atau kurang, dibuat dengan Matterport3D. PanoGen menyelesaikan masalah ini karena dapat membuat jumlah sampel pelatihan yang tidak terbatas dengan banyak variasi yang dibutuhkan. Artikel tersebut juga menyebutkan bahwa menggunakan pendekatan PanoGen, mereka mengalahkan SoTA saat ini dan mencapai SoTA baru pada dataset Room-to-Room, Room-for-Room, dan CVDN.
Secara keseluruhan, PanoGen adalah pengembangan terobosan yang mengatasi tantangan utama dalam masalah Navigasi Bahasa dan Visual di AI. Dengan kemampuan untuk menghasilkan sampel pelatihan yang tidak terbatas dengan banyak variasi, PanoGen membuka kemungkinan baru bagi sistem AI untuk memahami dan menavigasi dunia nyata seperti manusia. Kemampuan luar biasa pendekatan itu untuk melampaui SoTA menyoroti potensi untuk merevolusi tugas VLN yang didukung AI.
Disarikan dari: Source