ULIP dan ULIP-2: Revolusi Pemahaman 3D oleh Salesforce AI
Salesforce AI menginisiasi ULIP dan ULIP-2, dua proyek yang mengarah pada pengembangan kecerdasan buatan untuk memahami dunia fisik dalam tiga dimensi sebagaimana manusia. Dengan menggabungkan titik awan 3D, gambar, dan teks ke dalam satu ruang representasi, ULIP dan ULIP-2 merancang model-model yang lebih baik dari metode-metode lainnya. Dalam hal ini, pencapaian kinerja terbaik pada tugas-tugas klasifikasi 3D serta eksplorasi aplikasi cross-domain, seperti image-to-3D retrieval, dapat dicapai.
Pengembangan kecerdasan buatan dalam pemahaman tiga dimensi menjadi kritis di mana banyak teknologi seperti mobil tanpa pengemudi, robot, realitas tambahan, dan virtual membutuhkan kemampuan ini secara signifikan. Namun, memproses dan memahami masukan tiga dimensi adalah tantangan besar. Selain itu, harga yang tinggi untuk mengumpulkan dan menandai data tiga dimensi memperumit upaya pemahaman 3D.
ULIP dan ULIP-2 membuka peluang baru dalam pemahaman 3D dengan mengembangkan teknologi machine learning yang berfokus pada pembelajaran multimodal. Dengan mempertimbangkan tidak hanya geometri objek 3D, tetapi juga cara objek tersebut dicontohkan dalam gambar dan dijelaskan dalam teks, pendekatan ini dapat membantu model dalam memahami objek secara menyeluruh.
ULIP: Pre-Training Multimodal
Metode ULIP mengembangkan teknologi dengan terlebih dahulu melatih model pada tiga jenis data: foto, deskripsi teks, dan titik awan 3D. Teknik ini analog dengan memberikan informasi tentang objek 3D dengan memberikan data tentang penampilannya (foto), fungsinya (deskripsi teks), dan strukturnya (titik awan 3D). ULIP berhasil karena menggunakan encoder gambar dan teks yang sudah di pre-train seperti CLIP pada banyak gambar-pasangan teks. Dengan encoder ini, model dapat memahami dan mengkategorikan objek 3D lebih baik karena karakteristik dari masing-masing modalitas diselaraskan dalam satu ruang representasi. Selain itu, encoder 3D memperoleh konteks multimodal melalui pembelajaran representasi 3D yang lebih baik, memungkinkan aplikasi cross-modal seperti kategorisasi nol-shot dan pengambilan gambar ke 3D.
ULIP-2: Pre-Training Multimodal Massif
ULIP-2 mengembangkan pendekatan terbaru untuk pemahaman 3D dengan menggunakan model multimodal massif yang tersedia saat ini. Skalabilitas dan keberadaan anotasi manual berkontribusi pada efektivitas dan fleksibilitas pendekatan ini. Metode ULIP-2 melibatkan pembuatan deskripsi bahasa alami yang komprehensif dari masing-masing objek 3D untuk proses pelatihan model. Untuk memanfaatkan potensi pre-training multimodal, sistem ini memungkinkan pembuatan dataset tri-modal besar-besaran tanpa anotasi manual.
ULIP dan ULIP-2 mencerminkan kemajuan revolusioner dalam pemahaman 3D, membuka jalan bagi mesin untuk benar-benar memahami dunia sekitar kita dalam tiga dimensi. Salesforce AI berperan penting dalam memajukan pemahaman tiga dimensi dan membuka peluang baru untuk aplikasi lintas modal.
ULIP dan ULIP-2: Berperan Penting Dalam Pengembangan AI Pemahaman Tiga Dimensi
ULIP dan ULIP-2 adalah inisiatif Salesforce AI yang bertujuan untuk mengatasi kesulitan dalam memahami masukan tiga dimensi. ULIP dan ULIP-2 memadukan gambar, teks, dan titik awan 3D ke dalam satu kerangka kerja dan menghasilkan model-model berkualitas tinggi.
Keberhasilan ULIP dan ULIP-2 didasarkan pada metode pre-training multimodal. ULIP menggabungkan encoder gambar dan teks untuk memperoleh pemahaman komprehensif tentang objek 3D. Sementara ULIP-2 memperoleh deskripsi bahasa alami dari objek 3D untuk pelatihan model.
Pengembangan kecerdasan buatan dalam pemahaman tiga dimensi sangat penting dalam berbagai teknologi, seperti mobil tanpa pengemudi dan robot. ULIP dan ULIP-2 memungkinkan mesin untuk memahami dunia sekitar kita dalam tiga dimensi sebagaimana manusia. Ini membuka peluang baru dalam aplikasi lintas modal seperti image-to-3D retrieval.
Dengan penggunaan pre-training multimodal, ULIP dan ULIP-2 membuka jalan bagi kemajuan revolusioner dalam pemahaman 3D. Salesforce AI berperan penting dalam memperbaiki klasifikasi 3D dan membuka peluang baru untuk aplikasi lintas modal.
Disarikan dari: Citation