MmT5: Model Sekuens-ke-Sekuens Multibahasa Modular Yang Lebih Unggul Dari MT5

Model Multibahasa Modular Meningkatkan Efisiensi Pelatihan Mesin

Model bahasa alami yang telah dilatih sebelumnya dengan kemampuan untuk berbicara dalam banyak bahasa telah berhasil mengatasi tantangan interpretasi bahasa alami. Volume besar data yang tidak berlabel dalam ratusan bahasa sering digunakan untuk melatih model-model ini. Meskipun dilatih terutama dengan data bahasa Inggris, model bahasa yang sangat besar belakangan ini memiliki kemampuan multibahasa yang luar biasa. Namun, semua model ini memiliki satu kesamaan: mereka hanya dapat menyimpan beberapa representasi bahasa yang berbeda. Akibatnya, model-model ini biasanya bekerja buruk pada bahasa-bahasa dengan lebih sedikit data pelatihan dan lebih banyak bahasa pelatihan. “Kutukan multibahasa” adalah nama lain dari hal ini.

Untuk model multibahasa yang ada, tugas produksi bahasa alami menyediakan masalah tambahan karena mereka dapat overfit ke bahasa pelatihan dan sebagian lupa dengan keterampilan generasi dalam bahasa target, yang menghasilkan teks yang memiliki arti yang tepat tetapi perlu ditulis dengan benar. “Masalah halusinasi bahasa sumber” adalah bagaimana mereka menjelaskannya. Para peneliti dari Google DeepMind menyarankan modular multibahasa T5, model generatif modular multibahasa pertama, untuk mengatasi kedua kelemahan ini. Untuk meningkatkan kapasitas pemodelan multibahasa, mmT5 memberikan sejumlah parameter yang sederhana untuk setiap bahasa selama pelatihan sebelumnya.

Dengan membekukan modul bahasa tertentu selama fine-tuning dan menyesuaikan parameter umum, mereka memungkinkan adaptasi langsung ke bahasa target dengan beralih ke modul bahasa tertentu yang sesuai. Mereka juga mencatat area lain untuk perbaikan dengan mmT5: representasi bersama yang disesuaikan dapat menyimpang dari representasi modular yang dibekukan di decoder. Oleh karena itu, pendekatan modular mirip dengan pendekatan non-modular, rentan menghasilkan konten dalam bahasa yang salah. Mereka menyarankan membekukan sebagian parameter decoder umum untuk membantu masalah ini, yang membuat perbedaan signifikan dalam generasi lintas bahasa nol-tembak untuk model generatif modular.

Mereka menemukan bahwa model mmT5 secara efektif mengatasi dua kelemahan model urutan-ke-urutan multibahasa: 1) Dengan memungkinkan penambahan kapasitas model ke berbagai bahasa selama pelatihan sebelumnya, mmT5 mengurangi kutukan multibahasa. Pada kumpulan tugas multibahasa NLU dan NLG yang tipikal, mmT5 mengungguli baseline konvensional dan mT5 pada ukuran parameter yang sama; selain itu, mmT5 secara mengesankan mengatasi masalah halusinasi bahasa sumber pada produksi teks lintas bahasa nol-tembak. Menurut penyelidikan mereka, untuk tugas ringkasan multibahasa nol-tembak, mT5 hanya menghasilkan teks dalam bahasa target 7% dari waktu, tetapi mmT5 membuat teks dalam bahasa yang tepat untuk 99% kasus.

Modular Multibahasa Encoder-Decoder Model Meningkatkan Efisiensi Pelatihan Mesin

Modular multibahasa encoder-decoder model yang disebut mmT5 telah diusulkan. Sebagian besar parameter mmT5 yang digunakan selama pelatihan multibahasa dibagi di seluruh tugas, tetapi setiap bahasa juga diberikan sejumlah parameter yang terbatas yang eksklusif untuk bahasa tersebut. Mereka menunjukkan bahwa menambahkan modularitas sebagai bias arsitektur sangat meningkatkan efisiensi pelatihan, mencapai perplexity yang sama dengan model sepenuhnya padat yang sebanding dalam seperempat langkah pembaruan. Pada berbagai tugas, termasuk Pertanyaan Jawaban, Parsing Semantik, Ringkasan, dan Klasifikasi dalam konteks nol-tembak dan multibahasa, mmT5 jauh lebih unggul daripada model-model yang sebanding.

Terakhir, mereka mendemonstrasikan bahwa model secara andal menghasilkan teks dalam bahasa target sambil menyelesaikan mmT5 pada tugas target dalam bahasa sumber dengan membekukan wilayah decoder tertentu. Oleh karena itu, modularitas menghilangkan halusinasi bahasa sumber dalam kasus transmisi lintas bahasa.

Model bahasa alami multibahasa modular seperti mmT5 sangat penting dalam menghadapi tantangan interpretasi bahasa alami di berbagai bahasa. Model-model ini dapat mengatasi kutukan multibahasa dan masalah halusinasi bahasa sumber, sambil meningkatkan efisiensi pelatihan mesin. Dalam konteks lingkungan global saat ini, model bahasa alami multibahasa seperti mmT5 sangat penting dalam memfasilitasi komunikasi lintas bahasa dan komunikasi bisnis internasional.

Disarikan dari: Citation