Generatif LLM: Mengoptimalkan Model Bahasa yang Lebih Kecil dengan Knowledge Distillation
Pengenalan
Dalam perkembangan pesat model bahasa yang besar, strategi yang umum digunakan untuk mengurangi permintaan sumber daya komputasi yang berlebihan adalah knowledge distillation (KD). KD melibatkan pelatihan model siswa yang lebih kecil di bawah bimbingan model guru yang lebih besar. Ada dua jenis KD yang sering digunakan, yaitu KD kotak hitam (black-box) dan KD kotak putih (white-box). KD kotak hitam hanya mengakses prediksi guru, sedangkan KD kotak putih menggunakan parameter guru.
KD kotak hitam baru-baru ini telah menunjukkan hasil yang menggembirakan dalam mengoptimalkan model kecil pada pasangan permintaan-respon yang dihasilkan oleh API LLM (large language models). KD kotak putih menjadi semakin membantu bagi komunitas penelitian dan sektor industri ketika LLM sumber terbuka yang lebih banyak dikembangkan, karena model siswa mendapatkan sinyal yang lebih baik dari model instruktur kotak putih, yang berpotensi menghasilkan kinerja yang lebih baik.
Permasalahan Pada KD Biasa untuk LLM
Namun, KD kotak putih untuk LLM generatif belum diteliti secara menyeluruh, dan sebagian besar penelitian dilakukan pada model pemahaman bahasa kecil (1 miliar parameter). Oleh karena itu, penelitian ini menginvestigasi KD kotak putih untuk LLM. Mereka berpendapat bahwa KD biasa mungkin lebih baik untuk LLM yang melakukan tugas secara generatif.
Tujuan KD biasa adalah meminimalkan divergensi Kullback-Leibler (KLD) maju yang diperkirakan antara distribusi guru dan distribusi siswa, yang dikenal sebagai KL. KL berfungsi dengan baik untuk masalah klasifikasi teks karena ruang keluaran sering kali berisi jumlah kelas yang terbatas, sehingga p(y|x) dan q(y|x) memiliki sedikit mode. Namun, untuk masalah generasi teks terbuka, di mana ruang keluaran jauh lebih rumit, p(y|x) mungkin mencakup rentang mode yang jauh lebih luas daripada q(y|x).
Penggunaan KL maju dapat menyebabkan q memberikan probabilitas yang sangat tinggi pada area kosong p dan menghasilkan sampel yang sangat tidak mungkin dalam p. Untuk mengatasi masalah ini, penelitian ini menyarankan meminimalkan KL mundur, yang umumnya digunakan dalam visi komputer dan reinforcement learning.
Metode yang Diusulkan
Penelitian ini menggunakan eksperimen pilot untuk menunjukkan bagaimana meremehkan KL bisa mendorong q mencari mode utama p dan memberikan probabilitas rendah pada area kosongnya. Dalam penciptaan teks LLM, model siswa menghindari mempelajari terlalu banyak variasi dari distribusi guru dan fokus pada akurasi respons yang dihasilkan, yang sangat penting dalam situasi dunia nyata di mana kejujuran dan keandalan diperlukan.
Penelitian ini menggunakan gradien tujuan dengan Policy Gradient untuk mengoptimalkan min KL. Studi terbaru telah menunjukkan keefektifan optimisasi kebijakan dalam mengoptimalkan PLM. Namun, penelitian ini juga menemukan bahwa pelatihan model masih menderita variasi yang berlebihan, reward hacking, dan bias panjang pada generasi teks. Oleh karena itu, penelitian ini mencakup beberapa metode perbaikan, yaitu regularisasi satu langkah untuk mengurangi variasi, pengambilan sampel dengan campuran guru untuk mengurangi reward hacking, dan normalisasi panjang untuk mengurangi bias panjang.
MINILLM: Teknik Baru untuk Mengikuti Petunjuk
Pada pengaturan mengikuti instruksi, yang mencakup berbagai tugas NLP, peneliti dari The CoAI Group, Tsinghua University, dan Microsoft Research menawarkan teknik baru yang disebut MINILLM. Teknik ini kemudian diterapkan pada beberapa model bahasa generatif dengan ukuran parameter mulai dari 120 juta hingga 13 miliar. Lima set data mengikuti instruksi dan metrik evaluasi Rouge-L dan GPT-4 digunakan.
Uji coba menunjukkan bahwa MINILLM berhasil meningkatkan skala dari model 120 juta hingga 13 miliar dan secara konsisten mengungguli model KD standar pada semua set data. Selain itu, penelitian lebih lanjut menunjukkan bahwa MINILLM lebih baik dalam menghasilkan respons yang lebih panjang dengan variasi yang lebih banyak, serta memiliki eksposur bias dan kalibrasi yang lebih baik.
Kesimpulan
Dalam penelitian ini, metode KD kotak putih untuk LLM generatif telah diinvestigasi. Penelitian ini menunjukkan bahwa meremehkan KL mundur dapat meningkatkan kinerja model siswa dalam mengikuti petunjuk dan menghasilkan respons yang lebih akurat. Metode KD MINILLM yang diajukan berhasil meningkatkan skala dari model-model bahasa generatif dan konsisten mengungguli model KD standar. Penelitian ini memberikan kontribusi penting dalam pengembangan dan pemahaman model bahasa yang lebih kecil dengan memanfaatkan knowledge distillation.
Disarikan dari: Sumber