Mesin pembelajaran penguatan (RL) mendalam semakin populer sebagai algoritma pembelajaran mesin yang kuat untuk menangani tugas pengambilan keputusan yang kompleks. Untuk mengatasi tantangan dalam mencapai efisiensi sampel tingkat manusia dalam pelatihan RL yang mendalam, tim peneliti dari Google DeepMind, Mila, dan Universite de Montreal memperkenalkan agen RL bernama “faster, better, faster” (BBF) yang baru dan berbasis nilai. Dalam makalah terbarunya yang berjudul “Bigger, Better, Faster: Human-level Atari with human-level efficiency,” tim tersebut memperkenalkan agen BBF, yang memperlihatkan kinerja super manusia pada benchmark Atari 100K menggunakan satu GPU.
Mengatasi Masalah Scaling
Fokus utama tim peneliti adalah mengatasi masalah skalabilitas jaringan saraf dalam RL mendalam ketika sampel terbatas. Dengan membangun pada agen SR-SPR yang dikembangkan oleh D’Oro et al. (2023), yang menggunakan metode shrink-and-perturb, BBF mengganggu 50 persen parameter lapisan konvolusional menuju target acak. Sebaliknya, SR-SPR mengganggu hanya 20 persen parameter. Modifikasi ini menghasilkan peningkatan kinerja agen BBF.
Menskalakan Kapasitas Jaringan
Para peneliti memperluas kapasitas jaringan dengan menggunakan jaringan Impala-CNN dan meningkatkan ukuran setiap lapisan empat kali lipat. Dalam pengamatan, BBF secara konsisten mengungguli SR-SPR ketika lebar jaringan ditingkatkan, sedangkan SR-SPR mencapai puncaknya pada 1-2 kali ukuran asli.
Perbaikan untuk Kinerja Lebih Baik
BBF memperkenalkan komponen jangka waktu pembaruan yang secara eksponensial menurun dari 10 menjadi 3. Menariknya, modifikasi ini menghasilkan agen yang lebih kuat daripada agen bernilai tetap seperti Rainbow dan SR-SPR. Selain itu, para peneliti menerapkan strategi penurunan berat badan dan meningkatkan faktor diskon selama pembelajaran untuk meredakan masalah overfitting statistik.
Studi Empiris dan Hasil
Dalam studi empiris mereka, tim peneliti membandingkan kinerja agen BBF dengan beberapa agen RL dasar, termasuk SR-SPR, SPR, DrQ (eps), dan IRIS, pada benchmark Atari 100K. BBF mengungguli semua pesaing dalam hal kinerja dan biaya komputasi. Secara khusus, BBF mencapai peningkatan kinerja 2x dibandingkan SR-SPR saat menggunakan sumber daya komputasi yang hampir sama. Selain itu, BBF menunjukkan kinerja yang sebanding dengan pendekatan EfficientZero berbasis model tetapi dengan pengurangan waktu runtime lebih dari 4x.
Implikasi Masa Depan dan Ketersediaan
Perkenalan agen BBF merupakan kemajuan signifikan dalam mencapai kinerja super manusia dalam RL mendalam, terutama pada benchmark Atari 100K. Tim peneliti berharap karyanya akan menginspirasi upaya masa depan untuk mendorong batas efisiensi sampel dalam RL mendalam. Kode dan data terkait agen BBF tersedia secara publik di repositori GitHub dari proyek tersebut, memungkinkan para peneliti untuk mengeksplorasi dan membangun atas temuannya.
Dengan diperkenalkannya agen BBF, Google DeepMind dan kolaborator-kolaboratornya telah menunjukkan kemajuan luar biasa dalam pembelajaran penguatan mendalam. Dengan mengatasi tantangan efisiensi sampel dan memanfaatkan kemajuan dalam skalabilitas jaringan dan peningkatan kinerja, agen BBF mencapai kinerja super manusia pada benchmark Atari 100K. Ini membuka kemungkinan baru untuk meningkatkan efisiensi dan efektivitas algoritma RL, membuka jalan untuk kemajuan lebih lanjut di bidang ini.
Kinerja Agen BBF pada Benchmark Atari 100K
Salah satu keunggulan agen BBF adalah kinerjanya yang sangat baik pada benchmark Atari 100K. Dalam studi empiris, agen BBF mengungguli semua pesaing dalam hal kinerja dan biaya komputasi. BBF mencapai peningkatan kinerja 2x dibandingkan SR-SPR saat menggunakan sumber daya komputasi yang hampir sama.
Ini menunjukkan bahwa agen BBF cukup efektif dalam menyelesaikan tugas-tugas pemelajaran penguatan yang kompleks dengan efisiensi yang tinggi. Hasil studi empiris ini menunjukkan potensi besar untuk aplikasi RL dalam berbagai bidang, termasuk robotika, kendaraan otonom, dan pemrosesan bahasa alami.
Kemajuan dalam Skalabilitas Jaringan dan Peningkatan Kinerja
Dalam penelitian mereka, tim peneliti mengatasi tantangan dalam mencapai efisiensi sampel tingkat manusia dalam pelatihan RL yang mendalam dengan membangun pada agen SR-SPR. Kemudian, mereka memperkenalkan beberapa modifikasi yang menghasilkan kinerja yang lebih baik pada agen BBF.
Selain itu, tim peneliti juga meningkatkan kapasitas jaringan dan memperkenalkan komponen jangka waktu pembaruan yang secara eksponensial menurun. Ini menunjukkan bahwa peningkatan dalam skalabilitas jaringan dan kinerja dapat meningkatkan efisiensi dan efektivitas algoritma RL.
Dengan kemajuan ini, ada potensi besar untuk pengembangan aplikasi RL yang lebih maju di masa depan. Misalnya, aplikasi RL dapat digunakan dalam pengembangan robot otonom yang lebih canggih, sistem kendali yang lebih efisien, dan banyak lagi.
Disarikan dari: Link