Meta AI Mengungkap I-JEPA: Terobosan Revolusioner dalam Penglihatan Komputer yang Meniru Pembelajaran dan Penalaran Manusia dan Hewan

Meta Membuka Model Kecerdasan Buatan Baru dengan Representasi Imgur – Mengisi kekosongan dengan Replikasi Menggunakan Kecerdasan Buatan Meta

Kecerdasan buatan (AI) telah menjadi salah satu bagian terpenting dalam perkembangan teknologi modern. Kemampuannya untuk mempelajari dan menafsirkan data telah membantu dalam berbagai bidang, termasuk pengenalan gambar dan pemrosesan bahasa alami.

Meta, sebuah perusahaan yang terkenal dengan produknya seperti Facebook dan Instagram, telah mengumumkan model kecerdasan buatan terbarunya. Tim Meta melakukan penelitian dan pengembangan selama setahun terakhir untuk mengembangkan komputer yang dapat belajar dan beradaptasi dengan cepat dengan kondisi baru. Mereka menggunkan metode pembelajaran yang disebut “self-supervised learning” untuk mengajarkan model AI mereka.

Pendekatan yang digunakan oleh Meta adalah dengan menggunakan arsitektur generatif yang melibatkan pengaburan atau penghapusan sebagian dari data yang digunakan untuk melatih model. Misalnya, mereka dapat menggunakan gambar atau teks yang telah diubah atau dihapus sebagian. Kemudian, model AI akan mencoba menebak bagian yang hilang atau terdistorsi. Namun, pendekatan ini memiliki kelemahan utama yaitu model cenderung mengisi setiap kekosongan dengan informasi yang tidak pasti.

Namun, Meta telah menemukan solusi untuk masalah ini. Mereka mengembangkan model kecerdasan buatan bernama Image Joint Embedding Predictive Architecture (I-JEPA) yang dapat mempelajari dan meningkatkan representasi gambar secara abstrak dari waktu ke waktu. Dalam I-JEPA, model AI membandingkan representasi abstrak dari gambar, bukan hanya membandingkan pikselnya. Hal ini memungkinkan model untuk belajar dan membuat perkiraan tentang bagian gambar yang tidak diketahui sebelumnya.

Keunggulan I-JEPA adalah kemampuannya untuk mengisi kekosongan pengetahuan menggunakan representasi yang lebih dekat dengan cara berpikir manusia. Model ini menggunakan metode yang disebut “multi-block masking” untuk mengarahkan I-JEPA dalam mengembangkan representasi semantik. Dalam hal ini, I-JEPA dapat digunakan untuk memprediksi ketidakpastian spasial dalam gambar diam berdasarkan informasi kontekstual yang terbatas.

I-JEPA juga memiliki kemampuan untuk membuat inferensi tentang bagian gambar yang sebelumnya tidak diketahui. Ini berarti bahwa model ini tidak hanya bergantung pada informasi piksel, namun juga dapat membuat representasi global tentang objek visual dalam gambar.

Meta juga menemukan bahwa pre-training dengan I-JEPA tidak memakan banyak sumber daya komputasi. Dibandingkan dengan metode pre-training lainnya, I-JEPA dapat belajar representasi semantik yang kuat tanpa perlu menggunakan augmentasi data yang lebih kompleks. Dalam pengujian yang dilakukan, I-JEPA berhasil mengungguli teknik rekonstruksi piksel dan token-reconstruction.

Dalam evaluasi lebih lanjut, I-JEPA juga berhasil mengalahkan metode pre-training lainnya dalam tugas-tugas dasar penglihatan komputer seperti penghitungan objek dan prediksi kedalaman. Hal ini menunjukkan bahwa I-JEPA dapat digunakan dalam berbagai skenario dan memiliki bias induktif yang lebih fleksibel.

Meta yakin bahwa model AI seperti I-JEPA memiliki potensi yang besar untuk digunakan dalam berbagai bidang, termasuk interpretasi video. Dengan skala yang lebih besar, pendekatan self-supervised seperti ini dapat digunakan untuk mengembangkan model AI yang lebih luas tentang dunia.

Dalam kesimpulannya, Meta telah mengembangkan model kecerdasan buatan baru dengan representasi gambar yang inovatif. Dengan menggunakan pendekatan self-supervised learning dan metode generatif, mereka berhasil mengatasi beberapa masalah yang ada dalam pre-training model AI. Model ini mampu belajar dan meningkatkan representasi gambar dari waktu ke waktu, serta membuat perkiraan tentang bagian gambar yang hilang. Dalam uji coba yang dilakukan, I-JEPA telah menunjukkan kemampuannya untuk mengatasi tugas-tugas penglihatan komputer yang kompleks. Dalam perkembangan selanjutnya, Meta berharap dapat mengaplikasikan model ini dalam berbagai bidang seperti interpretasi video.

Disarikan dari: Source