Peneliti Stanford Mengenalkan SequenceMatch: Melatih LLMs dengan Tugas Kehilangan Pembelajaran Imitasi

Autoregressive models, seperti GPT-3 dan varian-varian lainnya, telah menjadi salah satu jenis model statistik yang populer dalam memprediksi nilai variabel berdasarkan nilai-nilai sebelumnya. Model ini memprediksi nilai variabel di masa depan dengan mendasarkannya pada nilai-nilai masa lalu. Salah satu contoh terkenal dari model-model autoregressive adalah GPT-3, yang memiliki dasar dalam memprediksi kata berikutnya dalam urutan berdasarkan kata-kata sebelumnya. Dengan melatih GPT dalam cara autoregressive seperti ini pada sebuah korpus teks yang besar, model ini belajar untuk menangkap pola statistik, ketergantungan, dan hubungan semantik dalam bahasa, sehingga memungkinkannya untuk menghasilkan teks yang relevan secara kontekstual berdasarkan input yang diberikan.

Namun, penelitian sebelumnya menunjukkan bahwa model-model yang lebih kecil atau model-model yang dituning untuk memiliki tingkat ketidakacakan atau variasi yang lebih rendah, cenderung menghasilkan output yang repetitif atau salah. Selain itu, dalam beberapa kasus, model-model ini menggunakan output mereka sendiri sebagai input, yang sering kali mengakibatkan kesalahan yang saling memperburuk sehingga model keluar dari distribusi yang dimaksudkan.

Untuk mengatasi tantangan-tantangan ini, tim peneliti dari Stanford melakukan studi awal dan mengidentifikasi dua masalah utama yang mencegah model-model autoregressive yang dilatih dengan estimasi likelihood maksimum (MLE) menghasilkan urutan yang koheren selama evaluasi. Masalah pertama terletak pada metode divergensi yang digunakan untuk menilai perbedaan antara model dan distribusi data. Karena MLE tidak mempertimbangkan urutan di luar distribusi, perilaku model pada urutan-urutan tersebut tidak dapat dikendalikan. Untuk mengatasi hal ini, para peneliti merancang cara untuk meminimalkan divergensi χ2 antara kombinasi data aktual dan urutan yang dihasilkan secara autoregressive, yang telah terbukti memiliki kinerja yang lebih baik dibandingkan dengan MLE. Tantangan kedua muncul ketika model menghasilkan sebuah token di luar distribusi yang tidak memiliki kelanjutan yang sesuai dengan distribusi data. Untuk mengatasi hal ini, para peneliti memperkenalkan aksi “” dalam proses generasi, yang memungkinkan model untuk menghapus token sebelumnya dan memperbaiki kesalahan yang mungkin terjadi.

Dengan mempelajari temuan-temuan ini dari studi awal mereka, Peneliti Stanford telah mengembangkan metode baru yang disebut SequenceMatch, yang memungkinkan pelatihan model-model autoregressive dengan teknik-teknik divergensi yang berbeda sambil menambahkan aksi “” yang memungkinkan model untuk memperbaiki kesalahan. Para peneliti merumuskan kembali masalah generasi urutan sebagai masalah pembelajaran reinforcement, yang pada dasarnya adalah memilih langkah berikutnya (dalam hal ini, menghasilkan token berikutnya) dari semua urutan yang mungkin untuk suatu keadaan tertentu (yaitu, urutan parsial). Dengan memanfaatkan perkembangan terbaru dalam pembelajaran imitasi non-adversarial, yang merupakan kerangka kerja dalam bidang pembelajaran reinforcement, para peneliti berhasil mengurangi perbedaan antara penggunaan model yang dilatih dan distribusi data aktual. Selain itu, untuk meminimalkan kesalahan beruntun dalam generasi urutan, model autoregressive dilatih dengan aksi ““, sebagai alternatif dari MLE, untuk memungkinkan pelacakan kembali dengan menghapus token. Teknik kehilangan sepenuhnya disupervisi ini untuk pemodelan bahasa, SequenceMatch, dapat digunakan sebagai langkah tambahan untuk mengoptimalkan model-model yang sudah dilatih sebelumnya.

Dalam beberapa evaluasi eksperimental, para peneliti membandingkan performa model-model berbasis GPT-2 yang dituning dengan SequenceMatch dengan model-model yang dilatih dengan MLE. Para peneliti menggunakan skor MAUVE sebagai metrik untuk membandingkan performa, dan hasilnya menunjukkan bahwa model-model yang dituning dengan SequenceMatch menghasilkan teks yang lebih dekat dengan dataset dan terlihat lebih lancar dan bebas dari kesalahan dibandingkan dengan model-model yang dilatih dengan MLE. Tim peneliti juga menyoroti keterbatasan dari model mereka, seperti kebutuhan akan sumber daya komputasi dan waktu yang lebih banyak untuk menghasilkan teks yang panjang. Untuk penelitian mendatang, para peneliti sedang fokus untuk mempelajari bagaimana metode-metode divergensi yang berbeda mempengaruhi kualitas dari urutan-urutan yang dihasilkan.

Dengan pengembangan metode SequenceMatch ini, diharapkan model-model autoregressive dapat menghasilkan teks yang lebih koheren dan bebas dari kesalahan. Metode ini memberikan solusi untuk masalah repetisi dan kesalahan yang sering terjadi pada model-model yang lebih kecil atau yang dituning dengan tingkat ketidakacakan yang rendah. Dalam jangka panjang, dengan penelitian lebih lanjut dan pengembangan teknik-teknik yang lebih canggih, model-model autoregressive dapat menjadi lebih andal dan efektif dalam menghasilkan teks yang berkualitas dan sesuai dengan konteks.

Disarikan dari: Citation