Meta AI Memperkenalkan MusicGen: Model Pembuatan Musik yang Sederhana dan Terkendali dengan Stimulus Teks dan Melodi

MUSICGEN: Menciptakan Musik Berkualitas Tinggi dari Deskripsi Teks

MUSICGEN adalah model generasi musik yang dapat menghasilkan musik berkualitas tinggi berdasarkan deskripsi teks. Dalam perkembangan terbaru di bidang sintesis audio dan pembelajaran representasi audio yang mandiri, MUSICGEN menyajikan kerangka kerja sederhana dan terkendali untuk menciptakan musik yang dapat memenuhi struktur harmonis dan melodi tertentu.

Sebagai langkah awal, para peneliti perlu memahami bahwa menciptakan musik adalah tugas yang sulit. Musik melibatkan penggunaan seluruh rentang frekuensi, berbeda dengan bicara yang hanya memerlukan rentang frekuensi yang lebih sempit. Oleh karena itu, proses pengambilan sampel sinyal musik perlu dilakukan dengan lebih sering, seperti menggunakan sample rate 44,1 kHz atau 48 kHz dibandingkan dengan 16 kHz untuk bicara. Selain itu, harmoni dan melodi dari beberapa alat musik bergabung untuk membentuk struktur yang rumit dalam musik. Mendengarkan musik juga melibatkan sensitivitas yang tinggi terhadap ketidakselarasan melodi. Oleh karena itu, kesalahan melodi seharusnya sangat minim saat menciptakan musik.

Sejalan dengan perkembangan tersebut, peneliti telah mengusulkan metode untuk memodelkan beberapa aliran token suara secara bersamaan. Beberapa peneliti mengusulkan metode delay atau penambahan offset antara aliran token suara yang berbeda. Selain itu, mereka juga mengusulkan metode memodelkan bagian-bagian musik menggunakan hierarki model autoregresif dan menampilkannya menggunakan beberapa urutan token diskrit dengan granularitas yang bervariasi. Metode serupa juga digunakan untuk menghasilkan nyanyian dengan akompanimen. Peneliti mengusulkan memecahkan masalah ini menjadi dua tahap: (i) memodelkan hanya aliran token awal dan (ii) menggunakan jaringan lanjutan untuk memodelkan sisa aliran secara non-autoregresif.

MUSICGEN merupakan model generasi musik yang sederhana dan terkendali yang dapat menghasilkan musik berkualitas tinggi berdasarkan deskripsi tertulis. Dalam penelitian ini, para peneliti menguji MUSICGEN secara menyeluruh dan membuktikan bahwa model ini jauh lebih baik daripada model lain yang dianalisis, dengan skor subjektif sebesar 84,8 dari 100 dibandingkan dengan skor 80,5 dari model terbaik. Mereka juga melakukan penelitian ablasinya yang menjelaskan signifikansi dari masing-masing komponen pada kinerja model secara keseluruhan.

Penilaian dari manusia menunjukkan bahwa MUSICGEN menghasilkan sampel musik berkualitas tinggi yang lebih selaras secara melodi dengan struktur harmonis tertentu dan sesuai dengan deskripsi tertulis. Keunggulan MUSICGEN terletak pada beberapa hal. Pertama, mereka menyajikan metodologi yang sederhana dan efektif untuk menciptakan musik berkualitas tinggi pada 32 kHz. Mereka menunjukkan bahwa MUSICGEN dapat menciptakan musik yang handal menggunakan model bahasa satu tahap dan teknik interleaving codebook yang berhasil. Kedua, mereka menyediakan model tunggal yang dapat melakukan generasi berdasarkan teks dan melodi, dan menunjukkan bahwa audio yang dihasilkan setia pada informasi kondisi teks dan konsisten dengan melodi yang diberikan. Terakhir, mereka menyajikan evaluasi mendalam terhadap keputusan desain dasar metodenya yang bersifat objektif dan subjektif. Implementasi kode untuk MUSICGEN dalam PyTorch dapat ditemukan dalam perpustakaan AudioCraft di GitHub.

Dengan demikian, MUSICGEN adalah terobosan dalam generasi musik berdasarkan deskripsi teks. Model ini mampu menghasilkan musik berkualitas tinggi dengan mengikuti struktur harmonis dan melodi tertentu. Keunggulan dan keandalan model ini telah dibuktikan melalui berbagai penelitian dan evaluasi. Diharapkan bahwa kemajuan ini dapat membawa perkembangan lebih lanjut dalam bidang generasi musik dan aplikasinya dalam industri musik dan hiburan.

Disarikan dari: Sumber