Teknologi pengenalan suara telah mengalami kemajuan signifikan selama dekade terakhir, memungkinkannya untuk dimasukkan ke dalam berbagai produk konsumen. Namun, hal ini membutuhkan banyak data yang diberi label, dalam hal ini, ribuan jam audio dengan transkripsi, untuk melatih model pembelajaran mesin yang baik untuk pekerjaan seperti ini. Informasi ini hanya tersedia dalam beberapa bahasa. Misalnya, dari lebih dari 7.000 bahasa yang digunakan saat ini, hanya sekitar 100 yang didukung oleh algoritma pengenalan suara saat ini.
Namun, baru-baru ini, banyaknya data yang diberi label yang dibutuhkan untuk membangun sistem suara telah berhasil dikurangi secara drastis berkat representasi suara yang dapat disupervisi sendiri (self-supervised speech representations). Kendati demikian, upaya-upaya besar saat ini masih hanya mencakup sekitar 100 bahasa.
Teknologi Suara Multibahasa Facebook
Proyek Suara Massal Multibahasa (MMS) Facebook menggabungkan wav2vec 2.0 dengan dataset baru yang berisi data yang diberi label untuk lebih dari 1.100 bahasa dan data yang tidak diberi label untuk hampir 4.000 bahasa untuk mengatasi beberapa hambatan tersebut. Berdasarkan temuan mereka, model Suara Massal Multibahasa lebih unggul dari metode terbaru dan mendukung sepuluh kali lebih banyak bahasa.
Tim ini memproses data dengan mengombinasikan pendekatan pengaturan paksa yang sangat efisien yang dapat menangani rekaman yang berdurasi 20 menit atau lebih dengan model pengaturan yang dilatih menggunakan data dari lebih dari 100 bahasa yang berbeda. Untuk menghilangkan informasi yang mungkin miring, mereka menggunakan banyak iterasi prosedur ini plus langkah penyaringan pemilihan silang berdasarkan akurasi model. Mereka mengintegrasikan teknik pengaturan ke PyTorch dan membuat model pengaturan tersedia untuk umum sehingga para akademisi lain dapat menggunakannya untuk menghasilkan dataset suara yang segar.
Karena hanya ada sedikit informasi untuk melatih model pengenalan suara yang diawasi dengan hanya 32 jam data per bahasa, tim mengandalkan wav2vec 2.0 untuk melatih sistem yang efektif, mengurangi secara drastis jumlah data yang diberi label yang sebelumnya dibutuhkan. Secara khusus, mereka menggunakan lebih dari 1.400 bahasa unik untuk melatih model yang dapat disupervisi sendiri pada lebih dari 500.000 jam data suara, sekitar lima kali lebih banyak bahasa daripada upaya sebelumnya.
Kompetisi dengan Teknologi Suara Terkini
Tim juga menggunakan dataset mereka dan dataset yang tersedia secara publik seperti FLEURS dan CommonVoice untuk melatih model identifikasi bahasa (language identification/LID) untuk lebih dari 4.000 bahasa. Kemudian mereka mengujinya pada tantangan FLEURS LID. Temuannya menunjukkan bahwa kinerja masih sangat baik bahkan ketika mendukung 40 kali lebih banyak bahasa. Mereka juga mengembangkan sistem sintesis suara untuk lebih dari 1.100 bahasa.
Tim ini memprediksi sebuah dunia di mana satu model dapat menangani banyak tugas suara di semua bahasa. Meskipun mereka melatih model individu untuk setiap tugas, yaitu pengenalan, sintesis, dan identifikasi bahasa, mereka percaya bahwa di masa depan, satu model akan mampu menangani semua fungsi ini dan meningkatkan kinerja di setiap area.
Dalam kompetisi dengan teknologi suara terkini, tim menemukan bahwa model yang dilatih pada teknologi Suara Massal Multibahasa Facebook mencapai setengah tingkat kesalahan kata. Sementara itu, teknologi lain misalnya OpenAI’s Whisper, mencakup 11 kali lebih banyak bahasa. Hal ini menunjukkan bahwa model ini dapat bersaing dengan teknologi suara terkini.
Dengan teknologi Suara Massal Multibahasa yang baru, akan memungkinkan pengembang untuk membangun aplikasi suara untuk lebih banyak bahasa di seluruh dunia. Teknologi ini juga dapat menghilangkan batasan bahasa saat melakukan pekerjaan seperti menerjemahkan bahasa secara real-time untuk berbicara dengan orang dari seluruh dunia dalam bahasa mereka sendiri.
Disarikan dari: Citation