Kajian AI: Matematika Sederhana Dapat Memperbaiki Large Language Models (LLMs) Pada RLHF

Gangguan Reward Collapse di Dalam Pembelajaran Mesin

Belakangan ini, pembelajaran mesin telah menunjukkan peningkatan yang signifikan dalam kapasitas model Bahasa Besar (Large Language Model/LMM), seperti ChatGPT dan GPT-4. Namun, untuk dapat menggunakan masukan manusia secara efektif, model hadiah (reward model) yang mencakup preferensi, nilai, dan masalah etis manusia harus dilatih terlebih dahulu. Kemudian, LMM disesuaikan menggunakan pembelajaran penguatan (reinforcement learning) di bawah arahan model hadiah. Prosedur ini, yang juga dikenal sebagai pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback/RLHF), berhasil mengkoordinasikan LMM dengan tujuan manusia, secara signifikan meningkatkan kualitas komunikasi antarpribadi.

Namun, menciptakan sistem hadiah yang fungsional dan berdasarkan preferensi manusia tidaklah mudah. Hal ini menjadi sangat sulit ketika seorang penilai manusia gagal memberikan nilai numerik pada tanggapan atau penyelesaian untuk prompt tertentu. Sebaliknya, perbandingan berpasangan dari penyelesaian berdasarkan kualitas jauh lebih mudah bagi manusia untuk membuat keputusan, dan pendekatan ini digunakan dalam pembuatan InstructGPT.

Namun, peringkat tidak sepenuhnya mencerminkan berbagai distribusi hadiah dari beberapa prompt. Dalam beberapa prompt RLHF yang bersifat terbuka atau bergantung pada sejarah pengguna, distribusi hadiah dapat berkisar dalam rentang yang luas. Sedangkan beberapa prompt bersifat tertutup, menghasilkan tanggapan yang harus menerima skor tinggi atau rendah, menghasilkan distribusi hadiah berupa sekitar dua titik massa.

Dalam sebuah dokumentasi yang dilakukan oleh para peneliti dari Universitas Stanford, Universitas Princeton, dan Universitas Pennsylvania, mereka membuat prediksi tentang fenomena tak terduga yang menunjukkan bahwa pelatihan model hadiah pada peringkat preferensi dapat memberikan distribusi hadiah yang sama terlepas dari prompt. Fenomena ini, yang terjadi selama tahap terakhir pelatihan, dikenal sebagai gangguan hadiah (reward collapse). Menariknya, sebelum peristiwa ini terbukti secara empiris, analisis teoritis mereka telah mengantisipasinya.

Mereka menunjukkan bahwa program optimasi yang sederhana atau bahkan lebih sederhana lagi, ekspresi tertutup, dapat digunakan untuk menghitung distribusi hadiah yang runtuh secara numerik. Namun, gangguan hadiah tidak diinginkan karena mengabaikan perbedaan kecil antara prompt yang berbeda dan dapat mengakibatkan miskalibrasi pilihan manusia ketika LMM dilatih menggunakan pembelajaran penguatan dan model hadiah. Solusi sederhana untuk masalah ini adalah menghentikan pelatihan model hadiah lebih awal, tetapi solusi ini agak arbitrari dan sulit untuk memutuskan kapan harus dihentikan.

Strategi Mencegah Gangguan Reward Collapse

Para peneliti menyarankan untuk melatih model hadiah dengan berbagai fungsi utilitas berdasarkan prompt, sehingga distribusi hadiah yang dihasilkan dapat bersifat meluas atau terkonsentrasi ketat, tergantung pada apakah prompt bersifat terbuka atau tertutup. Teknik ini memiliki keuntungan yang jelas dari segi analisis yang memungkinkan untuk menyesuaikan struktur distribusi hadiah sesuai kebutuhan. Temuan mereka menunjukkan bahwa gangguan hadiah dapat dikurangi secara signifikan dengan menggunakan teknik prompt-aware ini.

Dengan pendekatan yang tepat, gangguan hadiah dapat dihindari dan pembelajaran mesin dapat dilakukan dengan lebih efektif. Tidak hanya itu, teknik ini juga dapat memastikan bahwa LMM dapat digunakan dengan lebih bijak dan efektif dalam berbagai konteks. Jadi, dengan mengatasi gangguan hadiah dengan strategi mencegah gangguan hadiah, pembelajaran mesin dapat menjadi semakin maju, dan penggunaannya dapat lebih luas lagi di masa depan.

Disarikan dari: Sumber