Stanford Temukan Paradigma Baru untuk Melatih Model Bahasa Tanpa Menggunakan RL

Peningkatan kemampuan besar pada model bahasa yang tidak terawasi membuat penciptanya terkejut. Namun, model ini dilatih pada informasi yang dihasilkan oleh orang-orang dengan berbagai motivasi, tujuan, dan kemampuan. Tidak semua ambisi dan kemampuan ini dapat ditiru. Oleh karena itu, penting untuk dengan hati-hati memilih respons dan perilaku yang diinginkan dari model untuk menciptakan sistem yang andal, efektif, dan mudah dikelola.

Namun, para peneliti dari Universitas Stanford dan CZ menunjukkan bahwa mereka dapat mengoptimalkan model bahasa untuk sesuai dengan selera manusia tanpa menggunakan pemodelan hadiah atau reinforcement learning yang eksplisit. Metode mereka yang bernama Direct Preference Optimization (DPO) mengoptimalkan sebuah kebijakan yang memaksimalkan model hadiah yang dipelajari menggunakan saklar variabel. Dengan demikian, DPO dapat mengoptimalkan kebijakan dengan tujuan binary cross-entropy yang sederhana dengan dataset preferensi manusia terhadap respons model tanpa mengajarkan fungsi hadiah atau sampel kebijakan selama pelatihan.

Keuntungan Metode DPO

Metode DPO dapat disebut sebagai metode baru yang dapat mengoptimalkan model bahasa untuk sesuai dengan selera manusia. Metode ini diklaim lebih mudah dan lebih cepat dalam proses pembelajaran preferensi manusia pada berbagai tugas, termasuk modulasi sentimen, ringkasan, dan dialog menggunakan model bahasa yang berisi hingga 6 miliar parameter. Dalam uji coba, 58 persen orang lebih memilih ringkasan yang dibuat oleh DPO daripada oleh PPO (human evaluations), dan 61 persen lebih memilih ringkasan DPO daripada evaluasi manusia di set tes.

Selain itu, para peneliti menambahkan bahwa metode DPO memiliki banyak potensi penggunaan selain hanya untuk melatih model bahasa berdasarkan preferensi manusia. Misalnya, metode ini dapat melatih model generatif pada berbagai modalitas. Para peneliti juga ingin mengeksplorasi lebih lanjut tentang bagaimana cara terbaik untuk memperoleh pendapat ahli dari mesin.

Penemuan Dalam Pengembangan Model Bahasa

Para peneliti juga menemukan bahwa prompt atau instruksi pada model berpengaruh terhadap hasil komputasi dari model bahasa GPT-4. Oleh karena itu, pengembangan model bahasa harus mempertimbangkan prompt yang sesuai untuk menghasilkan hasil yang optimal.

Secara keseluruhan, DPO merupakan terobosan penting dalam pengembangan model bahasa untuk sesuai dengan preferensi manusia. Metode ini dapat membantu membangun sistem yang andal, efektif, dan mudah dikelola. Namun, pengembangan model bahasa masih harus mempertimbangkan banyak faktor, termasuk prompt dan cara terbaik untuk memperoleh pendapat ahli dari mesin.

Disarikan dari: Link