Peneliti UCL Dan Google Usulkan AudioSlots: Model Generatif Sentral Slot Untuk Tugas Pemisahan Sumber Audio Tanpa Domain.

Neural Network Audio Separation dengan Model AudioSlots

Pada saat kita mendengarkan lagu yang kompleks, mungkin terkadang susah untuk membedakan antara suara vokal dan instrumen. Namun, sekarang para peneliti dari University College London dan Google Research telah mengembangkan sebuah teknik yang dapat melakukan pemisahan audio dalam proses pembelajaran mesin. Hal ini dikenal sebagai AudioSlots, sebuah arsitektur generatif untuk slot-centric audio spectrograms.

AudioSlots dapat menghasilkan audio secara terpisah untuk setiap sumber suara yang berbeda (atau slot), tanpa memerlukan pengetahuan tentang sumber suara atau proses pencampuran audio. Teknik ini memecahkan masalah pemisahan suara sebagai masalah pemodelan generatif kondisional invarian permutasi. AudioSlots adalah sebuah teknik yang didasarkan pada fungsi encoder dan decoder berarsitektur Transformer yang dapat menghasilkan variabel tersembunyi yang berbeda untuk setiap sumber suara.

Kelebihan dan Kekurangan AudioSlots

Dalam pengujian awal, AudioSlots telah menunjukkan potensi untuk menggunakan model generatif terstruktur dalam menangani masalah pemisahan suara. Namun, terdapat beberapa kekurangan pada implementasi saat ini, seperti kualitas rekonstruksi yang rendah untuk fitur frekuensi tinggi dan kebutuhan akan sumber audio terpisah sebagai supervisi.

Meski demikian, para peneliti yakin bahwa masalah-masalah tersebut dapat diatasi dan menunjukkan beberapa area potensial untuk penelitian lebih lanjut. Mereka menunjukkan metodologi ini dalam tindakan pada tugas pemisahan suara dua pembicara dari Libri2Mix. Meskipun AudioSlots menunjukkan potensi, namun terdapat beberapa kesulitan seperti kesulitan dalam menghasilkan detail frekuensi tinggi dan kebutuhan akan sumber audio terpisah sebagai supervisi.

Dalam penelitian mereka yang terbaru, para peneliti menyarankan bahwa model yang lebih kompleks harus digunakan untuk mengatasi masalah seperti itu. Mereka juga menyarankan bahwa teknik AudioSlots dapat digunakan dalam bidang yang lebih luas, seperti pemrosesan gambar dan video.

Perkembangan Teknologi Audio Source Separation

Teknologi audio source separation telah menunjukkan kemajuan yang signifikan dalam beberapa tahun terakhir, terutama dengan munculnya deep learning. Dalam sistem deep learning, jaringan saraf digunakan untuk memisahkan sinyal audio yang tercampur menjadi sinyal audio individu yang berbeda-beda.

Salah satu teknik yang digunakan adalah Independent Component Analysis (ICA), yang mengasumsikan bahwa sinyal audio yang tercampur adalah campuran dari sumber suara yang independen dan bertujuan untuk memisahkan sinyal menjadi sumber aslinya. Teknik ini berhasil dalam memisahkan sinyal audio yang tercampur, namun memiliki beberapa kelemahan seperti ketidakmampuan untuk mengidentifikasi jenis sumber suara.

Teknik berikutnya yang dikembangkan adalah Convolutional Neural Network (CNN), yang digunakan untuk memisahkan sinyal audio dengan fitur frekuensi yang lebih tinggi. Teknik ini cukup efektif dalam memisahkan sinyal audio yang tercampur, namun memiliki ketidakmampuan dalam mengidentifikasi sumber suara yang kompleks seperti musik yang terdiri dari banyak instrumen.

Teknik terbaru yang diperkenalkan, seperti AudioSlots, membawa perkembangan baru dalam pemrosesan audio untuk pemisahan sumber suara. Namun, masih dibutuhkan penelitian lebih lanjut untuk mengatasi beberapa masalah teknis dan meningkatkan kualitas pemisahan suara.

Disarikan dari: Citation