Mengeksplorasi AVFormer: Pendekatan Inovatif AI Google Untuk Memperkaya Model Audio-Only Dengan Informasi Visual & Adaptasi Domain Yang Terpadu

AVFormer: Meningkatkan Keakuratan Sistem Pengenalan Suara Otomatis dengan Menggabungkan Masukan Visual

Salah satu kendala terbesar yang dihadapi oleh sistem pengenalan suara otomatis (ASR) adalah ketidakmampuan mereka untuk beradaptasi dengan domain yang baru dan tak terbatas. Audiovisual ASR (AV-ASR) adalah teknik untuk meningkatkan akurasi sistem ASR dalam video multimodal, terutama ketika audio terdengar keras. Fitur ini sangat berharga untuk film yang difilmkan “di alam liar” di mana mulut pembicara mungkin tidak terlihat. Model untuk tugas ini seringkali besar dan terdiri dari encoder visual dan audio, dan dataset untuk tugas ini cenderung kecil. Namun, beberapa model audio-only yang baru dirilis telah dioptimalkan dengan self-supervised pretraining dan pelatihan disupervisi pada data audio-only dari audiobook seperti LibriLight dan LibriSpeech. Model dengan miliaran parameter, ketersediaan yang luas, dan generalisasi cross-domain yang mengesankan semuanya termasuk dalam kelas model ini.

AVFormer: Konversi Model ASR Statis ke Model yang Cocok untuk AVASR

AVFormer adalah alat yang efisien untuk mengubah contoh statis dari model ASR state-of-the-art menjadi yang cocok untuk AVASR. Metode ini realistis dan efektif, seperti yang terlihat dari efisiensinya dalam zero-shot. Menyetel seluruh set parameter model yang telah dilatih menjadi masalah ketika model ASR berkembang dalam ukuran dan kompleksitas di seluruh domain. Metode ini efisien dalam parameter, memungkinkan untuk transfer domain simultan dan pencampuran masukan visual. AVFormer menggunakan lapisan proyeksi cahaya dan adaptor yang dapat dilatih untuk menyuntikkan masukan visual ke dalam model ASR statis. Para peneliti merekomendasikan pendekatan kurikulum dua tahap untuk pembelajaran, dengan fokus pada pelatihan adaptor (biru) tanpa token visual pada tahap pertama dan penyetelan lapisan proyeksi visual (oranye) pada tahap kedua sambil menjaga sisa model statis. Para peneliti mengevaluasi kinerja zero-shot AVFormer pada benchmark AV-ASR How2, VisSpeech, dan Ego4D dibandingkan dengan BEST-RQ, versi audio dari model, dan AVATAR, state-of-the-art AV-ASR. AVFormer mengungguli AVATAR dan BEST-RQ bahkan ketika keduanya dilatih pada LibriSpeech dan HowTo100M. Terutama, ini membutuhkan pelatihan 600M parameter untuk BEST-RQ tetapi hanya 4M parameter untuk AVFormer; oleh karena itu, hanya perlu subset kecil dari kumpulan data pelatihan (5% dari HowTo100M). Selain itu, para peneliti membandingkan AVFormer dengan baseline audio-only bernama LibriSpeech dan menemukan bahwa AVFormer mengungguli keduanya. AVFormer adalah alat yang efisien untuk mengubah contoh statis dari model ASR state-of-the-art menjadi yang cocok untuk AVASR. Metode ini realistis dan efektif, seperti yang terlihat dari efisiensinya dalam zero-shot.

Disarikan dari: Sumber