MERT, Model Pemahaman Musik Mandiri AI dengan Performa SOTA pada 14 Tugas MIR

MERT: Model untuk Pemahaman Musik dengan Pelatihan Mandiri Besar

Belajar mandiri menjadi semakin populer dalam pengembangan sistem kecerdasan buatan. Model transformer seperti BERT dan T5 baru-baru ini menjadi populer karena sifatnya yang sangat baik dan telah memanfaatkan ide pembelajaran mandiri dalam tugas pemrosesan bahasa alami. Meskipun pembelajaran mandiri telah berhasil digunakan dalam sejumlah bidang, termasuk pemrosesan ucapan, visi komputer, dan pemrosesan bahasa alami, aplikasinya masih perlu dijelajahi dalam musik audio. Alasannya adalah keterbatasan yang menyertai bidang musik, yaitu pemodelan pengetahuan musik seperti karakteristik nada dan nada dalam musik.

Untuk mengatasi masalah ini, sebuah tim peneliti memperkenalkan MERT, yang merupakan singkatan dari ‘Model Pemahaman Musik dengan Pelatihan Mandiri Besar.’ Model akustik ini dikembangkan dengan ide menggunakan model guru untuk menghasilkan label palsu dalam cara pemodelan bahasa yang di-masker (MLM) untuk fase pra-pelatihan. MERT membantu encoder transformer dalam pendekatan BERT, yaitu model siswa, untuk memahami dan memahami audio musik model dengan lebih baik dengan mengintegrasikan model guru.

Guru Model

Tim telah menemukan kombinasi model guru yang sangat efektif yang menunjukkan kinerja yang lebih baik dari semua metode audio dan ucapan konvensional. Kelompok ini termasuk guru akustik berdasarkan Residu Vektor Kuantisasi – AutoEncoder Variational (RVQ-VAE) dan guru musik berdasarkan Transformasi Constant-Q (CQT). Guru akustik menggunakan RVQ-VAE untuk memberikan ringkasan tingkat akustik diskritisasi dari sinyal musik, menangkap karakteristik akustik. Berdasarkan pada CQT, guru musik berfokus pada menangkap aspek nada dan nada dari musik. Bersama-sama, guru ini memandu model siswa untuk mempelajari representasi musik yang bermakna.

Teknik Pencampuran Noise Dalam Batch

Untuk meningkatkan kekokohan representasi yang dipelajari, MERT telah memperkenalkan teknik augmentation pencampuran kebisingan dalam batch. Dengan menggabungkan rekaman audio dengan klip acak, teknik ini mencederai rekaman audio, menantang model untuk mengambil arti yang relevan bahkan dari keadaan yang samar-samar. Kapasitas model untuk menggeneralisasi ke situasi di mana musik mungkin dicampur dengan audio yang tidak relevan ditingkatkan dengan penambahan ini.

Tim juga mengeksplorasi pengaturan untuk mengatasi ketidakstabilan pra-pelatihan model bahasa akustik. Dengan mengoptimalkan pengaturan ini, mereka dapat meningkatkan skala MERT dari 95M menjadi 330M parameter, menghasilkan model yang lebih kuat yang mampu menangkap detail musik audio yang rumit. Setelah dievaluasi, hasil eksperimen menunjukkan efektivitas MERT dalam menggeneralisasi ke berbagai tugas pemahaman musik. Model ini mencapai nilai SOTA pada 14 tugas yang berbeda, memperlihatkan kinerja yang kuat dan kemampuan generalisasi.

Dalam kesimpulannya, model MERT menangani kesenjangan dalam menerapkan pembelajaran mandiri pada musik audio. Model ini dapat membantu meningkatkan pemahaman terhadap karakteristik nada dan nada dalam musik, yang dapat membuka jalan untuk pengembangan lebih lanjut dalam bidang musik.

Disarikan dari: Sumber