Kecerdasan buatan (AI) telah merevolusi semua kasus penggunaan utama dan aplikasi yang kita temui setiap hari. Salah satu area yang mencakup banyak media audio dan visual adalah pembangkitan video lucu, gambar artistik yang menakjubkan, menyalin suara selebriti, atau mencatat seluruh kuliah untuk Anda dengan satu kali klik. Semua model ini membutuhkan korpus data yang besar untuk dilatih. Dan sebagian besar sistem yang sukses mengandalkan dataset yang diawasi untuk mengajar diri mereka sendiri.
Tantangan terbesar adalah menyimpan dan menandai data ini dan mengubahnya menjadi titik data yang dapat dimanfaatkan oleh model. Perusahaan membutuhkan bantuan dalam mengumpulkan dan menciptakan titik data standar emas setiap tahunnya.
Sebuah teknik revolusioner baru-baru ini dikembangkan oleh para peneliti dari MIT, MIT-IBM Watson AI Lab, IBM Research, dan lembaga lain yang dapat secara efisien mengatasi masalah ini dengan menganalisis data audio dan visual yang tidak berlabel. Model ini memiliki banyak janji dan potensi untuk meningkatkan cara model saat ini dilatih.
Model Self-Supervised Learning
Teknik yang digunakan di sini adalah autoencoder visual dan audio yang kontras (CAV-MAE), yang menggunakan jaringan saraf untuk mengekstrak dan memetakan representasi laten yang bermakna dari data audio dan visual. Model-model ini dapat dilatih pada kumpulan data besar dari klip YouTube 10 detik, menggunakan komponen audio dan video. Peneliti mengklaim bahwa CAV-MAE jauh lebih baik daripada pendekatan sebelumnya karena menekankan secara eksplisit hubungan antara data audio dan visual, yang tidak dimasukkan dalam metode lain.
Pendekatan ini mengikuti satu ide dasar: meniru bagaimana manusia mempersepsi dan memahami dunia, lalu meniru perilaku yang sama. Seperti yang dijelaskan oleh Yuan Gong, seorang MIT Postdoc, pembelajaran mandiri sangat penting karena jika Anda melihat bagaimana manusia mengumpulkan dan belajar dari data, sebagian besar dilakukan tanpa pengawasan langsung.
Tujuannya adalah untuk memungkinkan prosedur yang sama pada mesin, memungkinkan mereka untuk mempelajari fitur sebanyak mungkin dari data yang tidak berlabel. Pelatihan ini menjadi dasar yang kuat yang dapat dimanfaatkan dan ditingkatkan dengan bantuan pembelajaran atau penguatan yang diawasi, tergantung pada kasus penggunaan.
Metode Masked Data Modeling dan Contrastive Learning
Metode CAV-MAE menggabungkan dua pendekatan: masked data modeling dan contrastive learning. Masked data modeling melibatkan:
– Mengambil video dan gelombang suara audio yang cocok.
– Mengonversi audio menjadi spektrogram.
– Menyembunyikan 75% data audio dan video.
– Model kemudian memulihkan data yang hilang melalui encoder / decoder bersama. Hilangnya rekonstruksi, yang mengukur perbedaan antara prediksi yang direkonstruksi dan kombinasi audio-visual asli, digunakan untuk melatih model.
Tujuan utama dari pendekatan ini adalah untuk memetakan representasi yang serupa dekat satu sama lain. Ini dilakukan dengan menghubungkan bagian yang relevan dari data audio dan video, seperti menghubungkan gerakan mulut dari kata-kata yang diucapkan.
Pengujian model berbasis CAV-MAE dengan model lain terbukti sangat bermanfaat. Pengujian dilakukan pada pemulihan audio-video dan tugas klasifikasi audio-visual. Hasilnya menunjukkan bahwa pembelajaran kontrastif dan masked data modeling adalah metode yang saling melengkapi. CAV-MAE mengungguli teknik sebelumnya dalam klasifikasi acara dan tetap bersaing dengan model yang dilatih menggunakan sumber daya komputasi tingkat industri.
Para peneliti di MIT percaya bahwa CAV-MAE mewakili terobosan dalam kemajuan pembelajaran mandiri audio-visual. Mereka membayangkan bahwa kasus penggunaannya dapat berkisar dari pengenalan aksi, termasuk olahraga, pendidikan, hiburan, kendaraan bermotor, dan keselamatan publik, hingga pengenalan ucapan otomatis lintas bahasa dan generasi audio-video.
Meskipun metode saat ini berfokus pada data audio-visual, para peneliti bertujuan untuk memperluasnya ke modalitas lain, mengakui bahwa persepsi manusia melibatkan indra lain selain isyarat audio dan visual. Bagaimana pendekatan ini akan berkinerja dari waktu ke waktu dan berapa banyak model yang ada mencoba memasukkan teknik tersebut akan menjadi hal yang menarik untuk diamati.
Disarikan dari: Sumber