Riset Microsoft dan UC Santa Barbara Mengusulkan LONGMEM: Kerangka Kecerdasan Buatan yang Memungkinkan LLMs untuk Mempelajari Sejarah Panjang

Memori Panjang dalam Model Bahasa Meningkatkan Kemampuan Pengolahan Bahasa Alami

Mengatasi Batasan Panjang Input dalam Model Bahasa

Model Bahasa Besar (LLMs) telah menghasilkan kemajuan yang signifikan dalam berbagai tugas pemahaman dan generasi, merevolusi pengolahan bahasa alami. Namun, batasan panjang input pada LLM saat ini menghalangi kemampuannya untuk digeneralisasikan dalam aplikasi dunia nyata, seperti perencanaan horizontal yang membutuhkan kemampuan mengelola materi berbentuk panjang. Solusi paling sederhana untuk masalah batasan panjang ini adalah dengan meningkatkan panjang konteks input. Sebagai contoh, GPT-3 meningkatkan panjang input dari 1k token pada GPT-2 menjadi 2k token. Namun, metode ini terbatas oleh kompleksitas perhitungan kuadratik dari self-attention Transformer, dan pelatihannya seringkali memerlukan penggunaan komputasi yang intensif.

Pengenalan Memori Panjang dalam Memori Non-Differentiable

Dalam penelitian yang dilakukan oleh para peneliti dari UCSB dan Microsoft Research, mereka mengusulkan kerangka kerja LONGMEM yang memungkinkan model bahasa untuk menyimpan konteks sebelumnya atau pengetahuan dalam memori non-differentiable dan memanfaatkannya melalui modul memori terpisah untuk mengatasi masalah kesegaran memori. Mereka menciptakan jaringan samping residual revolusioner (SideNet) untuk mencapai memori terpisah. Sebuah LLM tulang punggung yang beku digunakan untuk mengambil kunci perhatian dan nilai perhatian yang dipasangkan dari konteks sebelumnya ke dalam memori. Pertanyaan perhatian yang dihasilkan dari input saat ini digunakan dalam lapisan yang diperkaya dengan memori SideNet untuk mengakses informasi yang disimpan (kunci dan nilai) dari konteks sebelumnya. Penyempurnaan memori terkait kemudian digabungkan ke dalam keadaan tersembunyi pembelajaran melalui proses perhatian bersama.

Keuntungan Memori Terpisah dalam Pengolahan Bahasa

Sistem memori terpisah memiliki dua keuntungan utama. Pertama, LLM tulang punggung yang beku dan SideNet dalam arsitektur yang diusulkan secara efektif memisahkan pengambilan dan penggabungan memori dari pengkodean masukan sebelumnya ke dalam memori. Hal ini efisien dalam mengatasi masalah kesegaran memori karena LLM tulang punggung hanya berfungsi sebagai pengkode pengetahuan konteks panjang. Di sisi lain, SideNet residual berfungsi sebagai pengambil dan pembaca memori. Kedua, mengubah LLM dengan penyempurnaan memori secara langsung menjadi tidak efisien secara komputasi dan rentan terhadap lupa yang menghancurkan. LONGMEM dapat menginputkan berbagai jenis teks dan informasi konteks panjang ke dalam memori bank tergantung pada kegiatan yang akan datang.

Keunggulan LONGMEM dalam Tugas Pemodelan Bahasa dan Pembelajaran Konteks

LONGMEM telah diuji dalam dua contoh ilustratif: pembelajaran dalam konteks dengan ribuan contoh demonstrasi yang relevan dengan tugas dan pemodelan bahasa dengan konteks buku penuh. Hasil eksperimen menunjukkan bahwa model ini secara konsisten mengungguli pendekatan kuat lainnya dalam hal kemampuan pemodelan teks panjang dan pembelajaran konteks. Pendekatan mereka secara signifikan meningkatkan kemampuan LLM dalam merepresentasikan bahasa konteks panjang dengan tingkat kebingungan yang lebih rendah. Lebih mengejutkan lagi, model mereka jauh melebihi pendekatan x-former saat ini dengan tingkat akurasi identifikasi sebesar 40,5% pada ChapterBreak, sebuah benchmark pemodelan konteks panjang yang sulit. Terakhir, dibandingkan dengan MemTRM dan pendekatan dasar tanpa peningkatan memori, LONGMEM menunjukkan manfaat pembelajaran konteks yang kuat dalam tugas NLU umum.

Kesimpulan

Dalam penelitian ini, peneliti telah memperkenalkan kerangka kerja LONGMEM yang memungkinkan model bahasa untuk menyimpan dan mengakses memori konteks panjang sebelumnya. Dengan memisahkan pengambilan dan penggabungan memori dari proses pengkodean, LONGMEM mengatasi masalah kesegaran memori dan meningkatkan kemampuan LLM dalam memodelkan bahasa konteks panjang. Melalui berbagai eksperimen, model ini terbukti memiliki kinerja yang unggul dalam pemodelan teks panjang dan pembelajaran dalam konteks. Keberhasilan LONGMEM dalam meningkatkan kemampuan pemrosesan bahasa alami membuka peluang baru untuk aplikasi dan penelitian lebih lanjut dalam bidang ini.

Disarikan dari: Source