Kini, model AI yang kuat dapat dioperasikan dan diinteraksikan melalui perintah bahasa, sehingga membuatnya tersedia secara luas dan fleksibel. Ada beberapa model yang menjadi contoh, seperti Stable Diffusion yang dapat mengubah bahasa alami menjadi gambar dan ChatGPT yang dapat menjawab pesan tertulis dalam bahasa alami dan melakukan berbagai tugas. Meski biaya pelatihan model-model tersebut dapat berkisar dari puluhan ribu hingga jutaan dolar, namun telah ada perkembangan yang sama menariknya di mana model-model dasar open-source yang kuat, seperti LLaMA, dapat ditingkatkan dengan komputasi dan data yang cukup sedikit untuk menjadi instruksi-pengikut.
Peneliti dari Universitas Toronto dan Institute for Artificial Intelligence Vector mengeksplorasi keberhasilan strategi tersebut pada domain pengambilan keputusan berurutan dalam penelitian ini. Data yang beragam untuk pengambilan keputusan berurutan sangat mahal dan seringkali tidak memiliki label “instruksi” yang mudah digunakan seperti pada caption untuk gambar, tidak seperti pada domain teks dan gambar. Mereka menyarankan untuk memodifikasi model perilaku generatif yang sudah dilatih sebelumnya dengan menggunakan data instruksi, membangun pada pengembangan sebelumnya dalam LLM yang disesuaikan dengan instruksi seperti Alpaca.
Penemuan ini menciptakan peluang yang menarik untuk menyelidiki optimasi pengikut instruksi pada domain pengambilan keputusan berurutan Minecraft. Agen tersebut memiliki pemahaman yang luas tentang dunia Minecraft karena model VPT dilatih pada waktu bermain Minecraft selama 70 ribu jam. Model VPT dapat memiliki potensi perilaku yang luas dan terkendali jika dioptimalkan untuk mengikuti petunjuk, seperti potensi besar LLM yang terbuka terkunci dengan menyelaraskan mereka untuk mematuhi instruksi. Mereka secara khusus menunjukkan dalam penelitian mereka bagaimana untuk memoles VPT untuk mematuhi instruksi teks horison pendek menggunakan hanya $ 60 komputasi dan sekitar 2.000 segmen trayektori yang diberi label instruksi.
STEVE-1, Agen Baru dengan Akurasi Tinggi di Minecraft
Metodologi mereka dipengaruhi oleh unCLIP, yang digunakan untuk mengembangkan model teks-ke-gambar terkenal DALLe 2. Mereka memecah tantangan merancang agen Minecraft yang mengikuti instruksi ke dalam model VPT yang disesuaikan untuk mencapai tujuan visual yang disimpan dalam ruang laten MineCLIP dan model sebelumnya yang mengkonversi instruksi teks menjadi penggalangan visual MineCLIP. Mereka menggunakan penggalangan belakang self-supervised untuk menghasilkan data yang ditingkatkan melalui VPT dengan perilaku cloning menggunakan penggalangan belakang.
Mereka menggabungkan unCLIP dengan panduan bebas klasifikasi untuk mengembangkan agen mereka, yang mereka sebut STEVE-1, yang jauh melampaui peringkat open-ended command following di Minecraft yang dibuat oleh Baker et al. menggunakan kontroler rendah (mouse dan keyboard) dan masukan piksel mentah. Kontribusi utama mereka adalah mengembangkan STEVE-1, agen Minecraft dengan akurasi tinggi saat mengeksekusi perintah teks dan visual terbuka. Mereka melakukan analisis mendalam tentang agen mereka, menunjukkan bahwa ia dapat melakukan berbagai tugas horison pendek dalam Minecraft. Mereka juga menunjukkan bahwa pengikatan prompt yang sederhana dapat signifikan meningkatkan kinerja untuk operasi horison yang lebih panjang seperti konstruksi dan kerajinan.
Model STEVE-1 yang Efisien dan Terbuka Untuk Penelitian Masa Depan
Mereka menjelaskan cara membangun STEVE-1 hanya dengan $ 60 dari komputasi, menunjukkan bahwa unCLIP dan panduan bebas klasifikasi sangat penting untuk kinerja yang efektif dalam pengambilan keputusan berurutan. Mereka membuat model STEVE-1, skrip penilaian, dan skrip pelatihan tersedia untuk mendorong penelitian masa depan pada agen pengambilan keputusan berurutan yang dapat diajarkan dan terbuka. Situs web memiliki video demo tentang agen dalam permainan.
Dengan pengembangan model-model AI yang semakin maju, teknologi ini semakin terintegrasi dalam kehidupan sehari-hari. STEVE-1 menunjukkan bagaimana perkembangan ini dapat digunakan untuk membuat agen yang dapat mengikuti instruksi dan melakukan tugas-tugas di lingkungan yang sangat beragam seperti Minecraft. Selain itu, model STEVE-1 yang efisien dan terbuka memberikan inspirasi bagi penelitian selanjutnya untuk mengembangkan agen lain yang serupa.
Disarikan dari: Citation