Agensi AI Dapat Belajar Berpikir Sambil Bertindak: Penelitian AI Baru Mengenalkan Kerangka Pembelajaran Tiruan Baru Yang Disebut Pemikiran Mirip Menjadi Kloningan

Sub-topik 1: Keuntungan Agen Berpikir Bahasa

Bahasa memberikan manusia tingkat kecerdasan umum yang luar biasa dan membedakan mereka dari makhluk lain. Pentingnya bahasa bukan hanya membantu orang berinteraksi dengan orang lain lebih baik, tetapi juga meningkatkan kapasitas berpikir mereka. Sebelum membahas keuntungan agen berpikir bahasa, yang telah kurang mendapat perhatian, akan lebih baik membahas terlebih dahulu keuntungan agen memahami bahasa. Jika agen mereka dapat memahami bahasa, beberapa keuntungan akan terjadi. Hal ini penting agar agen dapat menggeneralisasi tugas baru yang dibutuhkan dari mereka. Jika memberikan deskripsi pekerjaan kepada agen daripada membiarkan agen memecahkannya sendiri, hasilnya jauh lebih efisien. Selain itu, agen yang mampu berbahasa memungkinkan kita membuat tugas baru selama pengujian tanpa harus menebak permintaan pengguna untuk agen terlatih mereka. Ini berbeda dengan deskripsi pekerjaan yang dirancang secara tradisional, yang mungkin sangat luas tetapi masih memiliki batasan tentang apa yang dapat diminta dari agen.

Meskipun keuntungan agen yang dapat menginterpretasikan bahasa sering diteliti, keuntungan agen yang berpikir dalam bahasa telah menerima perhatian yang jauh lebih sedikit dalam AI, terutama dalam Reinforcement Learning (RL). Manusia yang berpikir secara linguistik dapat lebih menggeneralisasi, mengekstrapolasi, beradaptasi dengan keadaan baru, mengkombinasikan informasi sebelumnya dengan cara baru, mengeksplorasi, merencanakan ulang ketika menguntungkan, dan lain sebagainya. Meskipun demikian, makhluk AI jarang berpikir – setidaknya tidak dalam bahasa manusia. Meskipun aktivasi vektor internal dalam jaringan saraf dapat dianggap sebagai berpikir, banyak yang berpendapat bahwa ada keuntungan khusus untuk percaya pada bentuk diskrit, simbolik dari bahasa (seperti kemampuan untuk menggabungkan ide dalam jumlah eksponensial), yang menunjukkan bahwa agen berbahasa mungkin belajar lebih cepat, berperforma lebih baik, dan menggeneralisasi lebih efektif daripada agen non-lingual.

Sub-topik 2: Pendekatan Baru dalam Pembelajaran Imitasi

Para peneliti dari University of British Columbia dan Vector Institute mengusulkan paradigma Pembelajaran Imitasi yang unik yang disebut Thought Cloning, di mana agen tidak hanya belajar cara bertindak dari demonstrasi manusia, seperti pada Behavioural Cloning, tetapi juga belajar cara berpikir dari demonstrasi di mana aktor manusia berpikir keras saat melakukan tindakan. Penelitian ini mendukung gagasan data pemikiran buatan pada area sulit, BabyAI, meskipun mereka mengharapkan Thought Cloning benar-benar berkilau ketika dilatih pada dataset web massal dari pemikiran dan kegiatan manusia yang disinkronkan. Penelitian mereka menunjukkan bahwa Thought Cloning berperforma lebih baik daripada Behavioural Cloning, bahkan ketika agen Behavioural Cloning dapat berpikir (dalam vektor laten) tetapi harus mempelajari kompetensi tersebut tanpa pengawasan pemikiran yang ditawarkan oleh Thought Cloning. Selain itu, mereka menunjukkan bahwa dalam kondisi zero-shot dan fine-tuning, Thought Cloning menggeneralisasikan lebih baik daripada Behavioural Cloning dalam tugas out-of-distribution. Akhirnya, mereka menawarkan dukungan empiris untuk manfaat pemikiran kloning dalam hal Keselamatan dan Interpretabilitas, di mana perilaku berbahaya dapat hampir tepat dicegah sebelum pelaksanaan, yang sebelumnya disebutkan. Secara keseluruhan, temuan tersebut sangat menggembirakan dan memberikan sekilas potensi besar kloning pemikiran untuk meningkatkan kecerdasan AI dan membuatnya lebih aman dan mudah dipahami.

Kesimpulan

Keuntungan agen berpikir bahasa masih kurang mendapat perhatian dalam AI, terutama dalam Reinforcement Learning (RL). Namun, para peneliti dari University of British Columbia dan Vector Institue telah mengusulkan paradigma Pembelajaran Imitasi yang unik yang disebut Thought Cloning, di mana agen tidak hanya belajar cara bertindak dari demonstrasi manusia, seperti pada Behavioural Cloning, tetapi juga belajar cara berpikir dari demonstrasi di mana aktor manusia berpikir keras saat melakukan tindakan. Penelitian mereka menunjukkan bahwa Thought Cloning berperforma lebih baik daripada Behavioural Cloning dalam out-of-distribution tasks. Kloning pemikiran menawarkan manfaat besar dalam hal Keselamatan dan Interpretabilitas, di mana perilaku berbahaya dapat hampir tepat dicegah sebelum pelaksanaan.

Disarikan dari: Link