Seiring dengan perkembangan pesat dalam bidang kecerdasan buatan, Model Bahasa Besar (LLM) telah menjadi sorotan utama dalam komunitas kecerdasan buatan. Performa yang luar biasa dari model-model seperti GPT-3.5, GPT 4, DALLE 2, dan BERT telah memberikan dampak yang signifikan dan berkontribusi dalam berbagai industri seperti kesehatan, keuangan, hiburan, dan sebagainya. Kemampuan LLM yang terkenal seperti menghasilkan konten unik hanya dari petunjuk berbahasa alami singkat telah membantu mempermudah kehidupan kita.
Di sisi lain, dalam bidang visi komputer, Model Dasar Visi (VFM) seperti SAM, X-Decoder, dan SEEM telah membuat banyak kemajuan. Meskipun VFMs telah membuat kemajuan luar biasa dalam tugas persepsi 2D, penelitian VFM 3D masih perlu ditingkatkan. Para peneliti telah mencatat bahwa pengembangan VFMs 2D yang ada untuk tugas persepsi 3D diperlukan. Salah satu tugas persepsi 3D yang penting adalah segmentasi awan titik yang diambil oleh sensor LiDAR, yang sangat penting untuk operasi aman kendaraan otonom.
Teknik segmentasi awan titik yang ada saat ini secara umum bergantung pada kumpulan data yang telah dianotasi untuk pelatihan. Namun, pelabelan awan titik membutuhkan waktu dan sulit dilakukan. Untuk mengatasi semua tantangan ini, tim peneliti telah mengembangkan Seal, sebuah kerangka kerja yang menggunakan VFMs untuk melakukan segmentasi berbagai urutan awan titik otomotif. Terinspirasi oleh pembelajaran representasi lintas modal, Seal mengumpulkan pengetahuan yang kaya secara semantis dari VFMs untuk mendukung pembelajaran representasi yang mandiri pada awan titik otomotif. Ide utamanya adalah mengembangkan sampel kontras berkualitas tinggi untuk pembelajaran representasi lintas modal menggunakan hubungan 2D-3D antara sensor LiDAR dan kamera.
Seal memiliki tiga sifat utama yang sangat penting. Pertama, skala. Seal menggunakan VFMs dengan mengubahnya menjadi awan titik, sehingga menghilangkan kebutuhan untuk anotasi 2D atau 3D selama tahap pra-pelatihan. Dengan skala yang dimiliki, Seal mampu mengelola jumlah data yang besar, bahkan menghilangkan kebutuhan waktu yang banyak untuk pelabelan manusia.
Kedua, konsistensi. Arsitektur Seal mengikat tautan spasial dan temporal baik dari kamera ke LiDAR maupun dari titik ke tahap segmentasi. Seal memungkinkan pembelajaran representasi lintas modal yang efisien dengan menangkap interaksi lintas modal antara visi, yaitu kamera dan sensor LiDAR, yang membantu memastikan bahwa representasi yang dipelajari mencakup data penting dan kohesif dari kedua modalitas tersebut.
Ketiga, generalisasi. Seal memungkinkan transfer pengetahuan ke aplikasi turunan yang melibatkan berbagai dataset awan titik. Seal mampu menggeneralisasi dan menangani dataset dengan resolusi, ukuran, tingkat kebersihan, tingkat kontaminasi, data aktual, dan data buatan yang berbeda.
Sejumlah kontribusi penting yang disebutkan oleh tim peneliti adalah sebagai berikut: pertama, kerangka kerja Seal adalah kerangka kerja yang skalabel, handal, dan dapat digeneralisasi yang dibuat untuk menangkap konsistensi spasial dan temporal yang sadar semantis. Kedua, Seal memungkinkan ekstraksi fitur yang berguna dari urutan awan titik otomotif. Ketiga, penelitian ini merupakan penelitian pertama yang menggunakan VFMs visi 2D untuk pembelajaran representasi mandiri pada skala besar awan titik 3D. Keempat, dalam sebelas dataset awan titik yang berbeda dengan berbagai konfigurasi data, SEAL telah menunjukkan performa yang lebih baik daripada metode sebelumnya baik dalam probing linear maupun fine-tuning untuk aplikasi turunan.
Untuk mengevaluasi performa Seal, tim peneliti telah melakukan pengujian pada sebelas dataset awan titik yang berbeda. Hasilnya menunjukkan keunggulan Seal dibandingkan dengan pendekatan yang ada. Pada dataset nuScenes, Seal mencapai mean Intersection over Union (mIoU) 45,0% setelah probing linear. Performa ini melampaui inisialisasi acak sebesar 36,9% mIoU dan mengungguli metode SOTA sebelumnya sebesar 6,1% mIoU. Seal juga menunjukkan peningkatan performa yang signifikan dalam dua puluh tugas fine-tuning few-shot yang berbeda di sebelas dataset awan titik yang diuji.
Secara keseluruhan, Seal merupakan terobosan yang signifikan dalam penggunaan VFMs untuk segmentasi awan titik otomotif. Dengan sifat skala, konsistensi, dan generalisasi yang dimilikinya, Seal membuka jalan bagi pengembangan sistem yang lebih canggih dan efisien dalam operasi kendaraan otonom. Dengan menggunakan VFMs 2D, Seal mampu memperoleh representasi yang berkualitas tinggi dari awan titik 3D, yang memberikan kontribusi signifikan bagi pengembangan teknologi otonom di masa depan.
Disarikan dari: Sumber