Peneliti Dari China Mengembangkan WebGLM: Sistem Tanya-Jawab Berbasis Web Yang Meningkatkan Kemampuan Bahasa

**Peningkatan Kualitas Sistem Pertanyaan dan Jawaban dengan WebGLM**

*Memanfaatkan Kapasitas Model Bahasa Besar (LLMs) dan Pengetahuan Eksternal untuk Meningkatkan Kinerja*

Model bahasa besar (LLMs) seperti GPT-3, PaLM, OPT, BLOOM, dan GLM-130B telah mendorong batasan-batasan tentang kemampuan komputer dalam memahami dan menghasilkan bahasa. Salah satu aplikasi bahasa yang paling mendasar, yakni pertanyaan dan jawaban, telah mengalami peningkatan signifikan berkat kemajuan LLM terkini. Menurut penelitian yang ada, kinerja LLM dalam pertanyaan dan jawaban tanpa referensi dan dalam konteks pembelajaran adalah sebanding dengan model yang diawasi, yang berkontribusi pada pemahaman kita tentang kemampuan LLM dalam menghafal. Namun, LLM sendiri memiliki kapasitas terbatas dan tidak dapat memenuhi harapan manusia ketika dihadapkan pada masalah yang membutuhkan pengetahuan luar biasa. Oleh karena itu, upaya terkini telah difokuskan pada pembangunan LLM yang ditingkatkan dengan pengetahuan eksternal, termasuk pencarian dan penelusuran online.

Salah satu contohnya adalah WebGLM, yang mampu menjelajah internet, memberikan jawaban panjang untuk pertanyaan yang kompleks, dan memberikan referensi yang berguna. Meskipun populer, pendekatan asli dari WebGLM belum banyak diadopsi. Pertama, pendekatan ini bergantung pada banyak anotasi tingkat ahli dari jalur penelusuran, jawaban yang ditulis dengan baik, dan labeling preferensi jawaban, yang semuanya membutuhkan sumber daya mahal, waktu yang banyak, dan pelatihan yang ekstensif. Kedua, dengan memberi instruksi kepada sistem untuk berinteraksi dengan peramban web, memberikan instruksi operasi (seperti “Cari,” “Baca,” dan “Kutip”), dan kemudian mengumpulkan materi yang relevan dari sumber online, pendekatan pembelajaran seakan meniru perilaku (behavior cloning) mensyaratkan bahwa model dasarnya, GPT-3, menyerupai ahli manusia. Akhirnya, struktur multi-turn dari menjelajah web mensyaratkan sumber daya komputasi yang ekstensif dan dapat menjadi lambat secara berlebihan bagi pengalaman pengguna, misalnya, WebGPT-13B memerlukan waktu sekitar 31 detik untuk merespons pertanyaan yang terdiri dari 500 token.

Dalam penelitian ini, para peneliti dari Universitas Tsinghua, Universitas Beihang, dan Zhipu.AI memperkenalkan WebGLM, sebuah sistem jaminan kualitas web yang andal yang dibangun di atas General Language Model (GLM-10B) yang berukuran 10 miliar parameter. Gambar 1 menunjukkan ilustrasi dari sistem ini. WebGLM efektif, terjangkau, sensitif terhadap preferensi manusia, dan yang paling penting, berkualitas sebanding dengan WebGPT. Untuk mencapai kinerja yang baik, sistem ini menggunakan beberapa pendekatan dan desain baru, termasuk An LLM-augmented Retriever, yaitu sebuah retriever dua tahap yang menggabungkan pemulihan yang disuling oleh LLM secara terperinci dengan pencarian web yang kasar.

Kemampuan LLM seperti GPT-3 dalam secara spontan menerima referensi yang tepat adalah sumber inspirasi teknik ini, yang dapat ditingkatkan untuk meningkatkan retriever padat yang lebih kecil. Suatu generator respon berbasis GLM-10B yang diberdayakan melalui pembelajaran dalam konteks LLM dan dilatih pada sampel pertanyaan dan jawaban yang dikutip panjang dikenal dengan generator yang diberdayakan. LLM dapat dipersiapkan untuk memberikan data berkualitas tinggi dengan menggunakan penyaringan berbasis kutipan yang memadai daripada mengandalkan ahli manusia yang mahal untuk menulis di WebGPT. Skorer yang diajarkan menggunakan sinyal jempol pengguna dari forum pertanyaan dan jawaban online dapat memahami preferensi mayoritas manusia dalam hal berbagai jawaban.

Gambar 1 menunjukkan cuplikan jawaban WebGLM terhadap pertanyaan sampel dengan tautan ke sumber daya online. Mereka memperlihatkan bahwa arsitektur dataset yang sesuai dapat menghasilkan skor yang berkualitas tinggi dibandingkan dengan label ahli WebGPT. Hasil uji coba ablasinya secara kuantitatif dan evaluasi manusia yang mendalam menunjukkan betapa efisien dan efektifnya sistem WebGLM. Khususnya, WebGLM (10B) melebihi kinerja WebGPT (175B) pada uji turing mereka dan melebihi WebGPT dengan ukuran yang sama (13B). WebGLM merupakan salah satu sistem QA berbasis web yang terbaik yang tersedia secara publik hingga saat ini, berkat peningkatannya dibandingkan dengan sistem yang hanya dapat diakses secara publik, Perplexity.ai.

Secara keseluruhan, dalam penelitian ini mereka menyediakan hal-hal berikut:
– Mereka membangun WebGLM, sebuah sistem jaminan kualitas web yang efektif dengan preferensi manusia. Sistem ini memiliki kinerja yang sebanding dengan WebGPT (175B) dan jauh lebih baik daripada WebGPT dengan ukuran yang sama (13B). Selain itu, sistem ini melampaui Perplexity.ai, sebuah sistem populer yang didukung oleh LLM dan mesin pencari.
– Mereka mengidentifikasi keterbatasan WebGPT dalam implementasi di dunia nyata. Mereka mengusulkan sejumlah desain dan strategi baru untuk memungkinkan WebGLM memiliki akurasi tinggi sambil mencapai keuntungan yang efisien dan hemat biaya dibandingkan dengan sistem dasar.
– Mereka merumuskan metrik evaluasi manusia untuk mengevaluasi sistem QA yang ditingkatkan web. Evaluasi manusia yang luas dan uji coba menunjukkan kemampuan WebGLM yang kuat dan menghasilkan wawasan tentang perkembangan sistem ini di masa depan. Implementasi kode tersedia di GitHub.

Dengan adanya peningkatan kualitas sistem pertanyaan dan jawaban seperti WebGLM, harapannya adalah bahwa kita dapat mengandalkan komputer untuk memberikan informasi yang akurat, bermanfaat, dan sebanding dengan harapan manusia. Dengan lebih banyak penelitian dan pengembangan di bidang ini, kita dapat memanfaatkan potensi LLM dan pengetahuan eksternal untuk menciptakan sistem yang semakin canggih dan dapat diandalkan dalam berbagai aplikasi bahasa.

Disarikan dari: Sumber