Kemajuan teknologi kecerdasan buatan (AI) dalam bidang sintesis suara semakin pesat. Saat ini, peneliti Meta-AI telah mencapai terobosan signifikan dalam generative AI untuk ujaran. Mereka telah mengembangkan Voicebox, sebuah model AI inovatif yang menampilkan kinerja terkini dan kemampuan untuk melakukan tugas sintesis suara tanpa pelatihan khusus.
Voicebox menggunakan pendekatan baru yang disebut Flow Matching, yang melampaui model difusi dalam hal kinerja. Voicebox terbukti lebih unggul daripada model yang ada dalam hal kejelasan dan kesamaan audio, dengan kecepatan hingga 20 kali lebih cepat. Selain itu, Voicebox dapat mensintesis suara dalam enam bahasa dan melakukan penghilangan noise, pengeditan konten, konversi gaya, dan penghasilan sampel yang beragam.
Sebelumnya, AI generative untuk sintesis suara membutuhkan pelatihan yang teliti untuk setiap tugas spesifik menggunakan data yang dikelola dengan cermat. Namun, Voicebox merobek batasan ini dengan belajar dari audio mentah dan transkripsi yang menyertainya. Terobosan ini memungkinkan model untuk memodifikasi bagian apa pun dari sampel yang diberikan daripada terbatas dalam mengubah hanya bagian akhir klip audio.
Peneliti melatih Voicebox menggunakan lebih dari 50.000 jam rekaman ucapan dan transkripsi dari buku audio domain publik dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis. Model ini dilatih untuk memprediksi segmen ucapan berdasarkan ucapan sekitarnya dan transkripsi yang sesuai. Dengan mempelajari pengisian ucapan dari konteks, Voicebox dapat menghasilkan bagian ucapan di tengah rekaman audio tanpa harus membuat ulang seluruh input.
Kemampuan serbaguna Voicebox memungkinkannya berkembang dalam berbagai tugas sintesis suara. Ini dapat melakukan sintesis teks-ke-speech dalam konteks, transfer gaya antar bahasa, pengurangan kebisingan suara dan pengeditan, serta penghasilan sampel ucapan yang beragam. Misalnya, dengan contoh audio input selama dua detik, Voicebox dapat mencocokkan gaya audio dan menggunakannya untuk generasi teks-ke-speech. Kemampuan ini memiliki aplikasi potensial dalam membantu individu yang tidak bisa berbicara atau menyesuaikan suara untuk asisten virtual dan karakter nonpemain.
Fitur mengesankan lainnya dari Voicebox adalah kemampuannya untuk melakukan transfer gaya antar bahasa. Diberikan sampel ucapan dan sepenggal teks dalam salah satu bahasa yang didukung, Voicebox dapat menghasilkan pembacaan teks dalam bahasa yang sesuai. Terobosan ini dapat memfasilitasi komunikasi alami dan autentik di antara individu yang berbicara dalam bahasa yang berbeda.
Selain itu, pembelajaran dalam konteks Voicebox membuatnya mahir dalam mengedit segmen-segmen dalam rekaman audio dengan mulus. Ia dapat menghasilkan kembali segmen ucapan yang terganggu oleh kebisingan singkat atau menggantikan kata-kata yang salah tanpa merekam ulang seluruh ucapan. Kemampuan ini menyederhanakan proses pembersihan dan pengeditan audio, yang berpotensi merevolusi alat pengeditan audio.
Selanjutnya, pelatihan Voicebox dengan data dunia nyata yang beragam memungkinkannya menghasilkan ucapan yang lebih mewakili cara orang berbicara secara alami dalam berbagai bahasa. Kemampuan ini bisa digunakan untuk menghasilkan data sintetis untuk melatih model asisten ucapan. Menariknya, model pengenalan ucapan yang dilatih dengan menggunakan ucapan sintetis yang dihasilkan oleh Voicebox mencapai tingkat kesetaraan dengan model yang dilatih dengan ucapan yang sebenarnya, sehingga menghasilkan penurunan akurasi yang minimal.
Meskipun para peneliti mengakui pentingnya keterbukaan dan berbagi penelitian dengan komunitas AI, mereka menahan akses publik terhadap model dan kode Voicebox karena risiko penyalahgunaan potensial. Dalam makalah penelitian mereka, mereka menjelaskan pengembangan pengklasifikasi yang sangat efektif untuk membedakan antara ucapan autentik dan audio yang dihasilkan dengan Voicebox, dengan tujuan untuk mengurangi risiko yang mungkin terjadi di masa mendatang.
Voicebox merupakan kemajuan signifikan dalam generative AI untuk sintesis suara, menyajikan model yang serbaguna dan efisien dengan kemampuan generalisasi tugas. Dengan potensi aplikasi yang banyak, Voicebox membuka kemungkinan baru untuk sintesis suara, komunikasi antar bahasa, pengeditan audio, dan pelatihan model pengenalan ucapan. Dengan komunitas penelitian membangun kemajuan ini, bidang generative AI untuk sintesis suara siap menghadapi kemajuan dan penemuan yang menarik.
Disarikan dari: Sumber