MeLoDy: Model Teks-ke-Audio Efisien untuk Sintesis Musik

Menghasilkan Musik dengan Menggabungkan Model Bahasa dan Model Probabilistik Difusi

Musik adalah seni yang terdiri dari harmoni, melodi, dan irama yang meresap ke dalam setiap aspek kehidupan manusia. Dengan berkembangnya model generatif yang mendalam, pembuatan musik telah menarik perhatian yang besar dalam beberapa tahun terakhir. Sebagai kelas model generatif yang menonjol, model bahasa (LM) menunjukkan kemampuan pemodelan yang luar biasa dalam memodelkan hubungan kompleks di seluruh konteks jangka panjang. Sejalan dengan pendekatan berbasis LM, AudioLM dan banyak karya lanjutan berhasil menerapkan LM pada sintesis audio. Seiring dengan pendekatan berbasis LM, model probabilitas difusi (DPM), sebagai kelas model generatif yang kompetitif, juga telah menunjukkan kemampuan luar biasa dalam mensintesis ucapan, suara, dan musik.

Namun, menghasilkan musik dari teks bebas tetap menantang karena deskripsi musik yang diperbolehkan bisa beragam dan berkaitan dengan genre, alat musik, tempo, skenario, atau bahkan beberapa perasaan subyektif.

Model generasi teks-to-musik tradisional sering kali fokus pada properti khusus seperti kelanjutan audio atau sampel cepat, sementara beberapa model lebih memprioritaskan pengujian yang kuat, yang kadang-kadang dilakukan oleh para ahli di bidang tersebut, seperti produser musik. Selain itu, sebagian besar dilatih pada kumpulan data musik dalam skala besar dan menunjukkan kinerja generatif terkini dengan kesetiaan tinggi dan kepatuhan terhadap berbagai aspek teks yang diinginkan.

Namun, kesuksesan metode-metode ini, seperti MusicLM atau Noise2Music, juga datang dengan biaya komputasi yang tinggi, yang akan sangat menghambat keterlaksanaannya. Dalam perbandingan, pendekatan lain yang dibangun di atas DPM membuat sampel musik berkualitas tinggi secara efisien menjadi mungkin. Namun, kasus-kasus yang ditunjukkan relatif kecil dan menunjukkan dinamika dalam sampel terbatas. Dalam upaya menciptakan alat pembuatan musik yang memungkinkan, efisiensi tinggi dari model generatif menjadi hal yang penting karena memfasilitasi interaksi kreatif dengan penyesuaian berdasarkan umpan balik manusia.

Sementara LM dan DPM keduanya menunjukkan hasil yang menjanjikan, pertanyaan yang relevan bukanlah apakah salah satunya harus dipilih daripada yang lain, tetapi apakah mungkin memanfaatkan keunggulan kedua pendekatan tersebut secara bersamaan.

Sejalan dengan motivasi yang disebutkan, suatu pendekatan yang disebut MeLoDy telah dikembangkan. Gambaran strategi ini disajikan dalam gambar di bawah ini.

Setelah menganalisis keberhasilan MusicLM, para penulis memanfaatkan LM level tertinggi dalam MusicLM, yang disebut LM semantis, untuk memodelkan struktur semantis musik, menentukan susunan keseluruhan melodi, ritme, dinamika, timbre, dan tempo. Berdasarkan LM semantis ini, mereka memanfaatkan sifat non-autoregressive DPM untuk memodelkan akustik secara efisien dan efektif dengan bantuan teknik percepatan sampel yang berhasil.

Selain itu, para penulis mengusulkan model difusi jalur ganda (DPD) yang disebut sebagai alternatif dari proses difusi klasik. Memang, bekerja pada data mentah akan meningkatkan biaya komputasi secara eksponensial. Solusi yang diusulkan adalah mengurangi data mentah menjadi representasi laten berdimensi rendah. Mengurangi dimensi data mengurangi dampaknya pada operasi dan, dengan demikian, mengurangi waktu eksekusi model. Setelah itu, data mentah dapat direkonstruksi dari representasi laten melalui autoencoder yang telah dilatih sebelumnya.

Beberapa contoh sampel output yang dihasilkan oleh model tersedia di tautan berikut: https://efficient-melody.github.io/. Namun, saat ini kode belum tersedia, yang berarti bahwa saat ini tidak mungkin mencobanya, baik secara online maupun lokal.

Ini adalah ringkasan tentang MeLoDy, model difusi yang dipandu oleh LM yang efisien yang menghasilkan audio musik berkualitas terkini. Jika Anda tertarik, Anda dapat mempelajari lebih lanjut tentang teknik ini di tautan di bawah ini.

[Link ke artikel asli](https://arxiv.org/abs/2305.15719)

Jadi, menggabungkan keunggulan model bahasa dan model probabilitas difusi dalam pembuatan musik adalah pendekatan yang menjanjikan. Melalui penggabungan ini, MeLoDy berhasil menghasilkan musik berkualitas tinggi dengan efisiensi tinggi. Dengan penggunaan model bahasa untuk memodelkan struktur semantis musik dan penggunaan model probabilitas difusi untuk memodelkan akustik, MeLoDy mampu menghasilkan musik yang sesuai dengan deskripsi teks dengan kualitas state-of-the-art.

Namun, perlu dicatat bahwa saat ini kode MeLoDy belum tersedia untuk dicoba. Meskipun demikian, perkembangan ini memberikan harapan untuk pengembangan alat pembuatan musik yang efisien dan interaktif di masa depan. Dengan menggabungkan keunggulan kedua pendekatan ini, diharapkan akan tercipta alat yang memungkinkan interaksi kreatif antara manusia dan mesin dalam pembuatan musik.

Dalam kesimpulan, MeLoDy adalah pendekatan yang menjanjikan dalam pembuatan musik menggunakan model bahasa dan model probabilitas difusi. Dalam penelitian ini, MeLoDy berhasil menghasilkan musik berkualitas tinggi dengan efisiensi tinggi. Meskipun masih ada tantangan dalam menghasilkan musik dari teks bebas, penggabungan antara model bahasa dan model probabilitas difusi membuka peluang baru dalam pembuatan musik generatif.

Disarikan dari: Source