Peneliti Google Kenalkan AudioPaLM: Terobosan di Teknologi Rekaman Suara – Model Bahasa Baru yang Mendengar, Berbicara, dan Menerjemahkan dengan Akurasi Luar Biasa

Perkembangan dalam bidang Kecerdasan Buatan (Artificial Intelligence/AI) telah menghadirkan inovasi yang menakjubkan, salah satunya adalah Large Language Models (LLMs). Model-model ini telah mengubah cara manusia berinteraksi dengan mesin, dan saat ini sedang mendapatkan perhatian yang besar. Kemampuan LLMs dalam menghasilkan teks untuk tugas-tugas yang melibatkan interaksi kompleks dan pengambilan pengetahuan telah membuktikan bahwa AI sedang mengambil alih dunia.

Salah satu contoh terbaik dari penerapan LLMs adalah chatbot terkenal yang dikembangkan oleh OpenAI, yaitu ChatGPT. ChatGPT didasarkan pada arsitektur Transformer dari GPT 3.5 dan GPT 4. Selain itu, tidak hanya dalam generasi teks, model-model seperti CLIP (Contrastive Language-Image Pretraining) juga telah dikembangkan untuk produksi gambar, yang memungkinkan pembuatan teks berdasarkan konten gambar.

Namun, tidak hanya dalam generasi teks, para peneliti dari Google telah menghadirkan kemajuan dalam generasi dan pemahaman audio dengan memperkenalkan AudioPaLM. AudioPaLM adalah model bahasa besar yang dapat mengatasi tugas pemahaman dan generasi ucapan. Model ini menggabungkan keunggulan dari dua model yang sudah ada, yaitu model PaLM-2 dan model AudioLM, untuk menghasilkan arsitektur multimodal yang dapat memproses dan menghasilkan teks dan ucapan. Hal ini memungkinkan AudioPaLM untuk menangani berbagai aplikasi, mulai dari pengenalan suara hingga konversi suara menjadi teks.

AudioPaLM memiliki kemampuan untuk mempertahankan informasi paralinguistik seperti identitas pembicara dan nada suara. Sementara itu, PaLM-2, yang merupakan model bahasa berbasis teks, memiliki keahlian khusus dalam pengetahuan linguistik yang berhubungan dengan teks. Dengan menggabungkan kedua model ini, AudioPaLM dapat memanfaatkan keahlian linguistik dari PaLM-2 dan kemampuan AudioLM dalam mempertahankan informasi paralinguistik, sehingga dapat memahami dan menghasilkan teks dan ucapan dengan lebih baik.

Salah satu kontribusi utama dari AudioPaLM adalah penggunaan kosakata bersama yang dapat mewakili baik ucapan maupun teks menggunakan jumlah token diskrit yang terbatas. Dengan mengombinasikan kosakata bersama ini dengan deskripsi tugas, AudioPaLM dapat dilatih menggunakan satu model decoder yang mampu menangani berbagai tugas berbasis suara dan teks. Tugas seperti pengenalan ucapan, sintesis teks ke suara, dan terjemahan ucapan ke ucapan, yang biasanya dihadapi oleh model terpisah, sekarang dapat digabungkan menjadi satu arsitektur dan proses pelatihan yang tunggal.

Dalam evaluasi yang dilakukan, AudioPaLM berhasil mengungguli sistem-sistem yang sudah ada dalam terjemahan ucapan. Model ini mampu melakukan terjemahan ucapan ke teks tanpa pemodelan sebelumnya untuk kombinasi bahasa yang belum pernah dihadapinya sebelumnya. Hal ini membuka peluang untuk dukungan bahasa yang lebih luas. Selain itu, AudioPaLM juga dapat mentransfer suara antar bahasa berdasarkan ucapan singkat, menghasilkan suara yang berbeda dalam bahasa yang berbeda, dan melakukan konversi suara dan adaptasi suara.

Dalam kesimpulannya, AudioPaLM adalah LLM yang menyatukan kemampuan pemrosesan teks dan ucapan dengan menggunakan kemampuan LLM berbasis teks dan teknik audio prompting. Ini merupakan penambahan yang menjanjikan dalam daftar LLM yang ada.

Dalam artikel ini, kita telah melihat bagaimana LLMs, seperti AudioPaLM, telah mengubah cara manusia berinteraksi dengan mesin melalui kemampuan mereka dalam menghasilkan teks dan ucapan. Dengan adanya model-model ini, aplikasi-aplikasi seperti pengenalan suara, sintesis suara, dan terjemahan suara dapat diintegrasikan menjadi satu arsitektur yang lebih efisien. Hal ini membuka peluang untuk pengembangan lebih lanjut dalam bidang AI dan membawa teknologi ini ke level yang lebih tinggi.

Disarikan dari: Source