Neural generative models telah mengubah cara kita mengkonsumsi konten digital, merevolusi berbagai aspek. Mereka memiliki kemampuan untuk menghasilkan gambar berkualitas tinggi, memastikan kohesi dalam teks yang panjang, dan bahkan menghasilkan ucapan dan audio. Di antara pendekatan yang berbeda, model generatif berbasis difusi telah menjadi populer dan telah menunjukkan hasil yang menjanjikan dalam berbagai tugas.
Selama proses difusi, model belajar untuk memetakan distribusi kebisingan yang telah ditentukan sebelumnya ke distribusi data target. Pada setiap langkah, model memprediksi kebisingan dan menghasilkan sinyal dari distribusi target. Model difusi dapat beroperasi pada berbagai bentuk representasi data, seperti input mentah dan representasi laten.
Model-state-of-the-art, seperti Stable Diffusion, DALLE, dan Midjourney, telah dikembangkan untuk tugas sintesis teks-ke-gambar. Meskipun minat dalam generasi X-ke-Y telah meningkat dalam beberapa tahun terakhir, model audio-ke-gambar belum banyak dieksplorasi.
Alasan penggunaan sinyal audio daripada teks sebagai input adalah karena keterkaitan antara gambar dan audio dalam konteks video. Sebaliknya, meskipun model generatif berbasis teks dapat menghasilkan gambar yang luar biasa, deskripsi teks tidak secara inheren terhubung dengan gambar, yang berarti deskripsi teks umumnya ditambahkan secara manual. Sinyal audio juga memiliki kemampuan untuk mewakili adegan dan objek kompleks, seperti variasi yang berbeda dari instrumen yang sama (misalnya, gitar klasik, gitar akustik, gitar listrik, dll.) atau sudut pandang yang berbeda dari objek yang identik (misalnya, gitar klasik yang direkam di studio versus pertunjukan langsung). Anotasi manual informasi rinci seperti itu untuk objek yang berbeda membutuhkan tenaga kerja yang intensif, yang membuat skalabilitas menjadi tantangan.
Studi sebelumnya telah mengusulkan beberapa metode untuk menghasilkan audio dari input gambar, terutama menggunakan Generative Adversarial Network (GAN) untuk menghasilkan gambar berdasarkan rekaman audio. Namun, ada perbedaan signifikan antara pekerjaan mereka dan metode yang diusulkan. Beberapa metode berfokus hanya pada menghasilkan digit MNIST secara eksklusif dan tidak mengembangkan pendekatan mereka untuk merangkum suara audio umum. Lainnya menghasilkan gambar dari audio umum tetapi menghasilkan gambar berkualitas rendah.
Untuk mengatasi keterbatasan dari studi-studi tersebut, telah diusulkan model generasi audio-ke-gambar. Gambaran umumnya digambarkan dalam gambar di bawah ini.
[Insert Figure 1]
Pendekatan ini melibatkan memanfaatkan model generasi teks-ke-gambar yang telah dilatih sebelumnya dan model representasi audio yang telah dilatih sebelumnya untuk mempelajari lapisan adaptasi yang memetakan keluaran dan input mereka. Mengambil inspirasi dari pekerjaan terbaru tentang inversi teks, token audio khusus diperkenalkan untuk memetakan representasi audio ke dalam vektor embedding. Vektor ini kemudian diteruskan ke jaringan sebagai representasi kontinu, mencerminkan embedding kata baru.
Audio Embedder menggunakan jaringan klasifikasi audio yang telah dilatih sebelumnya untuk menangkap representasi audio. Biasanya, lapisan terakhir jaringan diskriminatif digunakan untuk tujuan klasifikasi, tetapi sering kali melupakan detail audio penting yang tidak terkait dengan tugas diskriminatif. Untuk mengatasi ini, pendekatan ini menggabungkan lapisan sebelumnya dengan lapisan tersembunyi terakhir, menghasilkan embedding temporal dari sinyal audio.
Hasil sampel yang dihasilkan oleh model yang disajikan dilaporkan di bawah ini.
[Insert Figure 2]
Ini adalah ringkasan dari AudioToken, model sintesis Audio-ke-Gambar (A2I) yang baru. Jika Anda tertarik, Anda dapat mempelajari lebih lanjut tentang teknik ini di tautan di bawah ini.
[Insert link to the paper]
Disarikan dari: Link