Baru-baru ini, para peneliti dari Universitas California, Berkeley telah mengembangkan sistem baru untuk membuat fungsi hadiah bagi agen pembelajaran penguatan (reinforcement learning) dengan menggunakan model prediksi video. Sistem ini dikenal dengan Video Prediction incentives for reinforcement learning (VIPER). VIPER bisa mempelajari fungsi hadiah dari film mentah dan dapat menggeneralisasi ke domain yang tidak terlatih sebelumnya.
Sebelumnya, metode pembelajaran berbasis video hanya memberikan hadiah pada agen yang memiliki pengamatan saat ini yang paling mirip dengan para ahli. Namun, metode ini tidak dapat menangkap aktivitas yang bermakna sepanjang waktu karena hadiah hanya bergantung pada pengamatan saat ini saja. Selain itu, teknik pelatihan yang bertentangan dapat menghambat generalisasi.
VIPER bekerja dengan cara menggunakan film yang diproduksi oleh para ahli untuk melatih model prediksi video. Kemudian, model prediksi video digunakan untuk melatih agen dalam pembelajaran penguatan dengan tujuan mengoptimalkan log-likelihood dari jalur agen. Dalam kasus ini, distribusi jalur agen harus diminimalkan agar sesuai dengan distribusi model video. Dengan menggunakan peluang model video sebagai sinyal hadiah secara langsung, agen dapat dilatih untuk mengikuti distribusi jalur yang mirip dengan model video. Hadiah yang diberikan oleh model video dapat mengukur konsistensi temporal perilaku dan memungkinkan waktu pelatihan yang lebih cepat serta interaksi yang lebih besar dengan lingkungan karena mengevaluasi peluang lebih cepat daripada melakukan pengguliran model video.
Menariknya, VIPER telah diuji coba pada 15 tugas DMC, 6 tugas RLBench, dan 7 tugas Atari dan hasilnya menunjukkan bahwa agen pembelajaran penguatan yang dilatih oleh VIPER dapat mencapai kontrol level ahli tanpa menggunakan hadiah tugas. Selain itu, hasilnya juga lebih baik daripada metode pembelajaran imitasi yang bertentangan pada umumnya. VIPER juga dapat diterapkan pada berbagai agen pembelajaran penguatan yang berbeda. Model video juga sudah dapat digeneralisasi untuk berbagai perpaduan tugas dan perangkat yang belum pernah ditemui sebelumnya yang bahkan dapat diaplikasikan pada dataset yang kecil.
Sub-Topik 1: Keunggulan VIPER dalam Pembelajaran Penguatan
VIPER memiliki beberapa keunggulan dalam pembelajaran penguatan yang menjadikannya lebih unggul dibandingkan dengan metode pembelajaran imitasi dan metode pembelajaran lainnya. Berikut beberapa keunggulan dari VIPER:
1. Generalisasi yang Lebih Baik: Dalam VIPER, model prediksi video digunakan untuk melatih agen pembelajaran penguatan. Hal ini membuat agen dapat belajar dari film mentah dan melakukan generalisasi dengan lebih baik ke domain yang tidak terlatih sebelumnya.
2. Pelatihan yang Lebih Cepat: Evaluasi peluang model video dilakukan dengan lebih cepat daripada melakukan pengguliran model video. Hal ini mempercepat waktu pelatihan dan memungkinkan interaksi dengan lingkungan yang lebih besar.
3. Hadiah yang Lebih Baik: Hadiah yang diberikan oleh model video dapat mengukur konsistensi temporal perilaku. Hal ini memungkinkan agen untuk belajar perilaku yang lebih konsisten dan berkualitas.
Sub-Topik 2: Potensi Pengembangan VIPER di Masa Depan
Para peneliti berpendapat bahwa VIPER memiliki potensi untuk menjadi lebih fleksibel dan dapat dikembangkan lebih lanjut di masa depan. Berikut adalah beberapa potensi pengembangan VIPER:
1. Penggunaan Model Video yang Lebih Besar: Penggunaan model video yang lebih besar dan sudah dipelajari sebelumnya dapat membuat fungsi hadiah yang lebih fleksibel dan dapat dikembangkan lebih jauh.
2. Penerapan pada Bidang Lain: Dengan pengembangan lebih lanjut, VIPER dapat diterapkan pada berbagai bidang dan masalah yang membutuhkan pembelajaran penguatan.
3. Kemitraan Industri dan Akademisi: Untuk mengembangkan VIPER lebih jauh, dibutuhkan kemitraan antara industri dan akademisi. Hal ini akan memungkinkan pengembangan VIPER dengan lebih cepat dan efektif.
Dengan adanya VIPER, para peneliti telah berhasil mengembangkan sistem baru untuk membuat fungsi hadiah bagi agen pembelajaran penguatan dengan menggunakan model prediksi video. VIPER memiliki keunggulan dalam pembelajaran penguatan dan memiliki potensi untuk dikembangkan lebih lanjut di masa depan.
Disarikan dari: Source