Meet PromptingWhisper: Meningkatkan Performa Model Whisper hingga 45% pada Tiga Tugas Tanpa Pelatihan

Kecerdasan Buatan semakin berkembang pesat, dan ini memungkinkan kita untuk mendefinisikan sistem cerdas dengan pemahaman bahasa yang lebih baik dan lebih terperinci dari sebelumnya. Dalam hal ini, Large Language Models menjadi semakin mampu untuk memenuhi kebutuhan yang berbeda dalam aplikasi dan skenario. Untuk mendapatkan model yang kuat dan efisien, penting untuk memiliki prompt pelatihan yang tepat bersama dengan desain dan kontennya. Prompt engineering melibatkan merancang prompt yang akan memungkinkan pengguna untuk menerima respons yang sesuai dari model. Tujuannya adalah memberi makan model dengan prompt pelatihan berkualitas sehingga model dengan mudah menemukan pola dan tren dalam data.

Dalam penelitian yang dirilis baru-baru ini, tim peneliti membahas tentang mengadaptasi model Whisper ke tugas-tugas tak dikenal dengan menggunakan prompt sederhana. Disebut PromptingWhisper, pendekatan utama peneliti adalah untuk menyelidiki kemampuan generalisasi tugas nol-shot dari model Whisper dengan menganalisis kekuatan dan kelemahannya. Untuk mengadaptasi Whisper ke tugas tak dikenal, tim telah menggunakan prompt engineering untuk merancang prompt yang spesifik untuk setiap tugas.

Dalam tiga tugas yang spesifik, yaitu audio-visual speech recognition (AVSR), code-switched speech recognition (CS-ASR), dan speech translation (ST) yang melibatkan pasangan bahasa yang tidak dikenal, tim telah memanipulasi token khusus dalam prompt default yang diberikan oleh Whisper atau menggunakan model dengan skala besar. Setelah membandingkan prompt default dengan prompt khusus tugas yang mereka usulkan, hasilnya menunjukkan bahwa prompt mereka secara signifikan meningkatkan kinerja pada tiga tugas nol-shot, dengan kenaikan kinerja berkisar antara 10% hingga 45%. Dalam beberapa kasus, prompt yang diusulkan bahkan lebih unggul daripada model terpantau pada beberapa dataset.

Dalam hal ini, teknologi dengan kecerdasan buatan dapat membantu mempermudah hidup manusia dengan memproses data secara cepat dan tepat. Salah satu penerapan dari kecerdasan buatan adalah pada sektor pengolahan suara dan audio. Whisper, model pengenalan ucapan otomatis yang dirilis oleh OpenAI, adalah salah satu contoh dari aplikasi kecerdasan buatan dalam sektor tersebut. Dalam studi baru-baru ini, tim peneliti telah berhasil mengadaptasi model Whisper ke tugas-tugas tak dikenal dengan menggunakan prompt sederhana. Hal ini membuktikan bahwa kecerdasan buatan dapat digunakan dengan efektif untuk memproses data suara dan audio.

Kelebihan dan Kelemahan Model Whisper

Dalam penelitian yang dilakukan oleh tim peneliti, mereka telah mempelajari kelebihan dan kelemahan dari model Whisper. Selama evaluasi, mereka memperhatikan bagaimana Whisper tangguh terhadap prompt yang berbeda, efisien dalam mengungkap bias terkait aksen, dan mampu memahami beberapa bahasa di dalam ruang latenya. Mereka telah mempelajari dan menganalisis kemampuan generalisasi tugas nol-shot dari model pengenalan suara dengan skala web secara mendalam dengan fokus pada kemampuan model dalam memahami bahasa.

Dalam penelitian mereka, tim peneliti menemukan bahwa dalam tugas audio-visual speech recognition (AVSR), model Whisper menunjukkan sifat yang tangguh dalam hal panjang dan kebisingan prompt visual. Efisiensi untuk prompt visual pada model bahasa Inggris berbeda dibandingkan dengan model multibahasa. Dalam CS-ASR, terdapat perbedaan kinerja antara aksen yang berbeda. Terakhir, dalam ST, ditemukan bahwa token tugas dalam prompt bisa efektif digunakan untuk menginstruksikan model dalam melakukan terjemahan.

Secara keseluruhan, penelitian ini membuktikan bahwa Whisper adalah model pengenalan suara otomatis yang tangguh dan efisien dalam mengolah data suara dan audio. Prompt engineering adalah salah satu teknik yang dapat digunakan untuk meningkatkan kinerja model dalam tugas-tugas tertentu dengan memanipulasi token khusus dalam prompt. Dalam hal ini, kecerdasan buatan dapat membantu mengoptimalkan pengolahan data suara dan audio.

Disarikan dari: Source