Model Pembelajaran Mesin Baru untuk Sintesis Lip2Speech
Sebuah tim peneliti dari University of Science and Technology of China telah mengembangkan model pembelajaran mesin baru untuk sintesis Lip2Speech. Model ini mampu menghasilkan ucapan sintetis yang dipersonalisasi dalam kondisi zero-shot, yang berarti dapat membuat prediksi terkait kelas data yang tidak ditemui selama pelatihan. Para peneliti memperkenalkan pendekatan mereka dengan memanfaatkan variational autoencoder – model generatif berdasarkan jaringan saraf yang mengkodekan dan mendekodekan data.
Sintesis Lip2Speech melibatkan prediksi kata-kata yang diucapkan berdasarkan gerakan bibir seseorang, dan memiliki berbagai aplikasi di dunia nyata. Misalnya, dapat membantu pasien yang tidak dapat menghasilkan suara dalam berkomunikasi dengan orang lain, menambahkan suara pada film bisu, mengembalikan ucapan dalam video berisik atau rusak, dan bahkan menentukan percakapan dalam rekaman CCTV tanpa suara. Meskipun beberapa model pembelajaran mesin telah menunjukkan potensi dalam aplikasi Lip2Speech, mereka sering mengalami kesulitan dalam kinerja real-time dan tidak dilatih menggunakan pendekatan pembelajaran zero-shot.
Biasanya, untuk mencapai sintesis Lip2Speech zero-shot, model pembelajaran mesin memerlukan rekaman video yang dapat diandalkan dari pembicara untuk mengekstrak informasi tambahan tentang pola bicara mereka. Namun, dalam kasus di mana hanya video bisu atau tidak jelas dari wajah pembicara yang tersedia, informasi ini tidak dapat diakses. Model para peneliti bertujuan untuk mengatasi keterbatasan ini dengan menghasilkan ucapan yang sesuai dengan penampilan dan identitas pembicara tertentu tanpa mengandalkan rekaman ucapan asli mereka.
Manfaat dan Potensi Aplikasi Model ini
Tim peneliti mengusulkan metode sintesis Lip2Speech zero-shot yang dipersonalisasi yang menggunakan gambar wajah untuk mengontrol identitas pembicara. Mereka menggunakan variational autoencoder untuk memisahkan identitas pembicara dan representasi konten linguistik, memungkinkan embedding pembicara untuk mengontrol karakteristik suara ucapan sintetis untuk pembicara yang tidak dikenal. Selain itu, mereka memperkenalkan pembelajaran representasi lintas-modal yang terkait untuk meningkatkan kemampuan embedding pembicara berbasis wajah dalam pengendalian suara.
Untuk mengevaluasi kinerja model mereka, para peneliti melakukan serangkaian pengujian. Hasilnya luar biasa, karena model ini menghasilkan ucapan sintetis yang sesuai dengan gerakan bibir pembicara dan usia, jenis kelamin, dan penampilan keseluruhan mereka. Potensi aplikasi model ini sangat luas, mulai dari alat bantu untuk individu dengan gangguan bicara hingga perangkat lunak pengeditan video dan bantuan untuk penyelidikan polisi. Para peneliti menyoroti keefektifan metode yang mereka usulkan melalui eksperimen yang luas, yang menunjukkan bahwa ujaran sintetis lebih alami dan sejalan dengan kepribadian video input dibandingkan dengan metode lainnya. Yang penting, penelitian ini merupakan upaya pertama dalam sintesis Lip2Speech zero-shot yang dipersonalisasi menggunakan gambar wajah daripada audio referensi untuk mengontrol karakteristik suara.
Secara keseluruhan, para peneliti telah mengembangkan model pembelajaran mesin untuk sintesis Lip2Speech yang unggul dalam kondisi zero-shot. Model ini dapat menghasilkan ucapan sintetis yang dipersonalisasi sesuai dengan penampilan dan identitas pembicara dengan memanfaatkan variational autoencoder dan gambar wajah. Keberhasilan kinerja model ini membuka kemungkinan untuk berbagai aplikasi praktis, seperti membantu individu dengan gangguan bicara, meningkatkan alat pengeditan video, dan membantu dalam penyelidikan polisi.
Disarikan dari: Sumber