LLMs Lebih Unggul dari Reinforcement Learning- SPRING, Kerangka Kerja Inovatif untuk Merangsang LLMs dalam Perencanaan dan Penalaran Rangkaian-Pikiran Konteks

Bagaimana Large Language Models (LLMs) dapat meningkatkan pemahaman dan penalaran dalam game? Para peneliti dari Carnegie Mellon University, NVIDIA, Ariel University, dan Microsoft menginvestigasi penggunaan LLMs untuk memahami dan menalar dengan pengetahuan manusia dalam konteks game. Mereka mengusulkan pendekatan dua tahap yang disebut SPRING, yang melibatkan membaca sebuah paper akademik dan kemudian menggunakan kerangka tanya-jawab (QA) untuk membenarkan pengetahuan yang diperoleh.

Tahap pertama melibatkan membaca kode sumber LaTeX dari paper asli oleh Hafner (2021) untuk mengekstrak pengetahuan sebelumnya. Mereka menggunakan LLM untuk mengekstrak informasi yang relevan, termasuk mekanika game dan perilaku yang diinginkan yang didokumentasikan dalam paper. Mereka kemudian menggunakan kerangka ringkasan QA yang mirip dengan Wu et al. (2023) untuk menghasilkan dialog QA berdasarkan pengetahuan yang diekstraksi, memungkinkan SPRING untuk menangani informasi kontekstual yang beragam.

Subtopik Pertama: Cara Kerja SPRING

Tahap kedua berfokus pada penalaran rantai-pikir dalam konteks menggunakan LLMs untuk menyelesaikan game yang kompleks. Mereka membangun sebuah directed acyclic graph (DAG) sebagai modul penalaran, di mana pertanyaan adalah node dan ketergantungan antara pertanyaan direpresentasikan sebagai edge. LLM menjawab setiap node/pertanyaan dengan melakukan traversal DAG secara topologis. Node terakhir dalam DAG mewakili pertanyaan tentang tindakan terbaik yang harus diambil, dan jawaban LLM langsung diterjemahkan menjadi tindakan lingkungan.

Para peneliti membandingkan performa SPRING dengan metode Reinforcement Learning (RL) populer pada Crafter Environment. Dalam risetnya, mereka menemukan bahwa SPRING mengungguli metode RL terbaik yang pernah ada, dengan perbaikan skor game sebesar 88% dan perbaikan reward sebesar 5%. SPRING memanfaatkan pengetahuan sebelumnya dari membaca paper dan tidak memerlukan jutaan langkah pelatihan seperti metode RL biasanya.

Subtopik Kedua: Hasil dan Keterbatasan

Grafik yang ditampilkan menunjukkan plot unlock rate untuk tugas-tugas yang berbeda, membandingkan SPRING dengan basis RL populer. SPRING, didukung oleh pengetahuan sebelumnya, mengungguli metode RL lebih dari sepuluh kali lipat pada pencapaian seperti “Make Stone Pickaxe,” “Make Stone Sword,” dan “Collect Iron,” yang lebih dalam dalam pohon teknologi (hingga kedalaman 5) dan sulit dicapai melalui eksplorasi acak. Selain itu, SPRING sangat berhasil dalam pencapaian seperti “Eat Cow” dan “Collect Drink.”

Namun, satu keterbatasan dari menggunakan LLM untuk berinteraksi dengan lingkungan adalah kebutuhan pengenalan objek dan grounding. Namun, keterbatasan ini tidak ada dalam lingkungan yang menyediakan informasi objek yang akurat, seperti game kontemporer dan dunia virtual reality. Kemajuan terbaru dalam model visual-bahasa menunjukkan potensi solusi yang dapat diandalkan dalam pemahaman visual-bahasa di masa depan.

Kesimpulan

SPRING menunjukkan potensi Large Language Models (LLMs) dalam memahami dan menalar dalam game. Dengan memanfaatkan pengetahuan sebelumnya dari paper akademik dan menggunakan penalaran rantai-pikir dalam konteks, SPRING mengungguli metode RL terbaik yang pernah ada pada Crafter benchmark. Hasilnya menyoroti kekuatan LLM dalam tugas game kompleks dan menunjukkan kemajuan masa depan dalam model visual-bahasa dapat mengatasi keterbatasan yang ada, membuka jalan bagi solusi yang dapat diandalkan dan dapat diterapkan secara umum.

Disarikan dari: Link