Peneliti menginvestigasi apakah, mirip dengan AlphaGo Zero, di mana agen AI mengembangkan diri mereka sendiri dengan terus menerus terlibat dalam permainan kompetitif dengan aturan yang jelas, banyak Large Language Model (LLM) dapat meningkatkan satu sama lain dalam permainan negosiasi dengan sedikit atau tanpa interaksi manusia. Hasil dari penelitian ini akan memiliki dampak yang luas. Berbeda dengan pelatihan LLM yang membutuhkan banyak data saat ini, agen-agen kuat dapat dibangun dengan sedikit anotasi manusia jika agen-agen tersebut dapat berkembang secara independen. Namun, hal ini juga menunjukkan adanya agen-agen kuat dengan pengawasan manusia yang sedikit, yang merupakan masalah.
Dalam penelitian ini, para peneliti dari University of Edinburgh dan Allen Institute for AI mengundang dua model bahasa besar, seorang pembeli dan seorang penjual, untuk melakukan tawar-menawar dalam pembelian suatu produk. Tujuan mereka adalah untuk menjual atau membeli produk dengan harga yang lebih tinggi atau lebih rendah. Mereka meminta model bahasa besar ketiga, seorang kritikus AI, untuk memberikan komentar kepada pemain yang ingin kami tingkatkan setelah satu putaran. Setelah itu, mereka mendorong pemain untuk menyesuaikan taktik tawar-menawar mereka dengan mempertimbangkan kritik tersebut. Mereka melanjutkan hal ini selama beberapa putaran untuk melihat apakah model dapat menjadi lebih baik dari waktu ke waktu. Pembeli ingin membayar lebih sedikit untuk produk tersebut, tetapi penjual diminta untuk menjualnya dengan harga yang lebih tinggi. Mereka meminta model bahasa ketiga untuk mengambil peran kritikus dan memberikan komentar kepada pemain setelah tawar-menawar telah mencapai kesepakatan. Kemudian, dengan menggunakan masukan AI dari model kritikus, mereka memainkan permainan tersebut lagi dan mendorong pemain untuk menyempurnakan pendekatan mereka. Mereka memilih permainan tawar-menawar karena memiliki aturan yang jelas dan tujuan yang spesifik yang dapat diukur (harga kontrak yang lebih rendah/lebih tinggi) untuk negosiasi taktis. Meskipun permainan ini pada awalnya terlihat sederhana, namun membutuhkan kemampuan model bahasa yang tidak sederhana karena model harus mampu: Memahami dengan jelas dan ketat mematuhi aturan teks dari permainan negosiasi. Merespons dengan tepat pada umpan balik teks yang diberikan oleh model kritikus dan memperbaiki hasilnya secara iteratif. Merefleksikan strategi dan umpan balik dalam jangka panjang dan meningkatkan kualitasnya dalam beberapa putaran.
Dalam percobaan mereka, hanya model get-3.5-turbo, get-4, dan Claude-v1.3 yang memenuhi persyaratan untuk dapat memahami aturan dan strategi negosiasi dan selaras dengan instruksi AI. Sebagai hasilnya, tidak semua model yang mereka pertimbangkan menunjukkan semua kemampuan ini. Dalam studi awal, mereka juga menguji permainan teks yang lebih kompleks, seperti permainan papan dan permainan peran berbasis teks, tetapi ternyata lebih sulit bagi agen-agen untuk memahami dan mematuhi aturan. Metode penelitian mereka dikenal sebagai ICL-AIF (In-Context Learning from AI Feedback).
Mereka memanfaatkan komentar kritikus AI dan riwayat dialog sebelumnya sebagai demonstrasi dalam konteks. Ini mengubah perkembangan nyata pemain dalam putaran sebelumnya dan ide-ide perubahan kritikus menjadi petunjuk untuk putaran tawar-menawar berikutnya. Ada dua alasan mengapa mereka menggunakan pembelajaran dalam konteks: (1) penyempurnaan model bahasa besar dengan reinforcement learning sangat mahal, dan (2) pembelajaran dalam konteks baru-baru ini terbukti berkaitan erat dengan gradien turun (gradient descent), sehingga kesimpulan yang mereka tarik cukup mungkin berlaku umum ketika model disesuaikan (jika sumber daya memungkinkan).
Imbalan dalam Reinforcement Learning from Human Feedback (RLHF) biasanya berupa skalar, tetapi dalam ICL-AIF mereka, umpan balik diberikan dalam bahasa alami. Ini adalah perbedaan yang mencolok antara kedua pendekatan tersebut. Alih-alih mengandalkan interaksi manusia setelah setiap putaran, mereka menguji umpan balik AI karena lebih skalabel dan dapat membantu model berkembang secara independen.
Ketika diberikan umpan balik saat mengemban tanggung jawab yang berbeda, model merespons dengan cara yang berbeda. Meningkatkan model peran pembeli dapat menjadi lebih sulit daripada model peran penjual. Meskipun agen-agen kuat seperti get-4 dapat terus berkembang secara bermakna dengan memanfaatkan pengetahuan masa lalu dan umpan balik AI iteratif secara online, mencoba menjual sesuatu dengan harga yang lebih tinggi (atau membeli sesuatu dengan harga yang lebih rendah) berisiko tidak melakukan transaksi sama sekali. Mereka juga membuktikan bahwa model dapat melakukan tawar-menawar yang lebih singkat tetapi lebih sengaja (dan akhirnya lebih sukses). Secara keseluruhan, mereka mengharapkan karyanya akan menjadi langkah penting menuju peningkatan kemampuan model bahasa dalam tawar-menawar dalam lingkungan permainan dengan umpan balik AI. Kode program tersedia di GitHub.
Disarikan dari: Link