Recurrent Adaption (READ): Teknik Baru Fine-Tuning Model NLP dengan Efisiensi Penggunaan GPU yang Lebih Tinggi

Teknik transfer learning yang efisien dalam parameter memungkinkan penggunaan model pra-pelatihan dalam menyelesaikan tugas yang lebih spesifik dan dengan demikian meningkatkan performa prediksi model. Namun, pada saat yang sama, fine-tuning model menjadi semakin mahal dan tidak memungkinkan bagi sebagian besar orang karena pertumbuhan eksponensial ukuran model relatif terhadap memori GPU.

Para peneliti Meta AI mengusulkan teknik baru yang disebut REcurrent ADaption (READ) untuk meningkatkan efisiensi penggunaan GPU dan memori dalam proses fine-tuning model Natural Language Processing (NLP). READ menambahkan jaringan saraf rekuren (RNN) ke model backbone dan jaringan “joiner” yang menggabungkan informasi dari banyak sumber untuk memberikan masukan bagi RNN. Teknik ini membutuhkan sedikit parameter dan jumlah memori minimal.

Parameter-Efficient Transfer Learning

Parameter-efficient transfer learning (PETL) mencoba menyesuaikan parameter model pra-pelatihan dengan tugas target secara efisien dengan menggunakan model yang lebih kecil dan lebih spesifik untuk tugas tersebut. Namun, pendekatan ini menghasilkan delay inference yang lebih tinggi atau menyimpan jumlah memori yang sangat kecil selama pelatihan.

READ dapat mengatasi keterbatasan PETL dengan menambahkan RNN ke model backbone dan jaringan ‘joiner’ yang dapat menggabungkan input dari beberapa sumber. READ melakukan forward pass melalui backbone transformer, di mana hasil intermediat disimpan di setiap lapisan transformer. Kemudian, RNN menghitung state tersembunyi secara iteratif pada tahap encoder dan decoder. State terakhir baru dihitung dengan menjumlahkan keluaran dari RNN dan backbone.

Para peneliti membandingkan READ dengan beberapa metode PETL lainnya, termasuk BitFit, Prompt-tuning, dan LoRA pada GLUE dan beberapa benchmark pengolahan bahasa alami lainnya, serta pendekatan full-tuning. READ mengungguli berbagai metode fine-tuning pada benchmark GLUE dalam hal akurasi, mengurangi penggunaan memori pelatihan model sebesar 56%, dan penggunaan energi GPU sebesar 84% dibandingkan dengan full-tuning.

Scalable Approach for Fine-Tuning Massive Transformers

Karena READ adalah rekuren, parameter yang dapat dilatih tidak akan semakin besar dengan lapisan backbone yang lebih dalam, sehingga persyaratan pemrosesan akan lebih rendah. Selain itu, prosedur fine-tuning yang diusulkan bergantung hanya pada RNN dan jaringan feed-forward (FFN) daripada mekanisme perhatian. Dengan menghilangkan pretraining dan pruning, kegunaan dan efisiensi pelatihan ditingkatkan.

Para peneliti percaya bahwa READ akan membuka proses fine-tuning model raksasa untuk lebih banyak ilmuwan dan pengembang. Mereka berencana untuk mengembangkan READ lebih lanjut pada Llama-7B dan varian yang lebih besar di masa depan. Salah satu kelemahan READ adalah bahwa seringkali membutuhkan lebih banyak epoch daripada algoritma PETL bersaing untuk konvergensi pada dataset kecil. Namun, para peneliti berencana untuk menginvestigasi READ pada rezim data rendah.

Kesimpulan

READ adalah teknik fine-tuning baru yang memungkinkan penggunaan model pra-pelatihan dalam menyelesaikan tugas yang lebih spesifik dengan efisiensi penggunaan GPU dan memori yang lebih tinggi. Teknik ini menambahkan RNN ke model backbone dan jaringan ‘joiner’ untuk menggabungkan input dari beberapa sumber. Para peneliti membandingkan READ dengan beberapa metode PETL lainnya dan menemukan bahwa READ mengungguli metode fine-tuning lainnya pada benchmark GLUE dalam hal akurasi dan penggunaan memori dan energi GPU sebesar 56% dan 84%, masing-masing. READ bersifat backbone-size-agnostic dan sangat scalable. Teknik ini memungkinkan penggunaan model raksasa untuk tugas-tugas yang lebih spesifik dengan efisiensi yang lebih tinggi.

Disarikan dari: Sumber