LLM-Blender: Kerangka Ensambling Baru untuk Meningkatkan Kinerja dengan Memanfaatkan Keunggulan Beragam Model Bahasa Besar Sumber Terbuka

LLM-BLENDER: Kerangka Ensembel untuk Peningkatan Kecerdasan Buatan Berbasis Teks

Dalam beberapa tahun terakhir, Model Bahasa Besar (Large Language Models/LLM) telah menunjukkan kinerja yang luar biasa dalam berbagai tugas. Dari menghasilkan konten yang unik dan kreatif, menjawab pertanyaan, menerjemahkan bahasa, hingga merangkum paragraf teks, LLM telah sukses dalam meniru kemampuan manusia. Beberapa LLM terkenal seperti GPT, BERT, dan PaLM telah menjadi sorotan karena kemampuannya dalam mengikuti instruksi dengan akurasi tinggi dan mengakses data berkualitas tinggi. Meskipun demikian, LLM seperti GPT4 dan PaLM tidak bersifat open-source, sehingga tidak memungkinkan bagi siapa pun untuk memahami arsitektur dan data latihannya. Di sisi lain, keberadaan LLM open-source seperti Pythia, LLaMA, dan Flan-T5 memberikan kesempatan bagi para peneliti untuk melakukan fine-tuning dan meningkatkan model pada dataset instruksi khusus. Hal ini memungkinkan pengembangan LLM yang lebih kecil dan efisien seperti Alpaca, Vicuna, OpenAssistant, dan MPT.

Tidak ada satu pun LLM open-source yang mendominasi pasar, dan LLM terbaik untuk berbagai contoh bisa sangat berbeda satu sama lain. Oleh karena itu, untuk terus menghasilkan jawaban yang lebih baik untuk setiap input, penting untuk secara dinamis menggabungkan LLM-LLM ini. Dengan mengintegrasikan kontribusi yang berbeda dari LLM yang berbeda, bias, kesalahan, dan ketidakpastian dapat dikurangi, sehingga menghasilkan hasil yang lebih sesuai dengan preferensi manusia. Untuk mengatasi hal ini, para peneliti dari Allen Institute for Artificial Intelligence, Universitas Southern California, dan Universitas Zhejiang telah mengusulkan LLM-BLENDER, sebuah kerangka ensembel yang secara konsisten mencapai performa superior dengan memanfaatkan kelebihan dari beberapa LLM open-source.

LLM-BLENDER terdiri dari dua modul utama, yaitu PAIRRANKER dan GENFUSER. Modul-modul ini menunjukkan bahwa LLM yang optimal untuk contoh-contoh yang berbeda dapat sangat bervariasi. PAIRRANKER, modul pertama, dikembangkan untuk mengidentifikasi variasi kecil di antara output-output potensial. Modul ini menggunakan teknik perbandingan berpasangan yang canggih di mana teks asli dan dua output kandidat dari berbagai LLM berperan sebagai input. Untuk secara bersamaan mengkodekan input dan pasangan kandidat, PAIRRANKER menggunakan pengkode perhatian bersilang seperti RoBERTa, di mana kualitas dua kandidat dapat ditentukan oleh PAIRRANKER menggunakan pengkodean ini.

Modul kedua, GENFUSER, berfokus pada penggabungan output-output teratas untuk menghasilkan output yang lebih baik. Modul ini memaksimalkan kelebihan dari kandidat-kandidat terpilih sambil meminimalkan kekurangan mereka. GENFUSER bertujuan untuk mengembangkan output yang unggul dibandingkan dengan output dari satu LLM saja dengan menggabungkan output-output dari berbagai LLM.

Untuk evaluasi, tim peneliti telah menyediakan dataset benchmark bernama MixInstruct, yang menggabungkan perbandingan berpasangan Oracle dan menggabungkan berbagai dataset instruksi. Dataset ini menggunakan 11 LLM open-source populer untuk menghasilkan beberapa kandidat untuk setiap input pada berbagai tugas pengikutan instruksi. Dataset ini terdiri dari contoh-contoh latihan, validasi, dan pengujian dengan perbandingan Oracle untuk evaluasi otomatis. Perbandingan Oracle ini digunakan untuk memberikan peringkat ground truth pada output-output kandidat, sehingga memungkinkan penilaian performa LLM-BLENDER dan teknik benchmark lainnya.

Hasil penelitian menunjukkan bahwa LLM-BLENDER memiliki kinerja yang jauh lebih baik dalam berbagai parameter evaluasi dibandingkan dengan LLM individu dan teknik dasar. LLM-BLENDER berhasil menciptakan kesenjangan kinerja yang signifikan dan menunjukkan bahwa penggunaan metodologi ensembel LLM-BLENDER menghasilkan output berkualitas lebih tinggi dibandingkan dengan menggunakan satu LLM atau metode dasar. Pilihan-pilihan dari PAIRRANKER telah melampaui model-model LLM individu karena performa yang lebih baik dalam metrik berbasis referensi dan GPT-Rank. Melalui fusi yang efisien, GENFUSER secara signifikan meningkatkan kualitas tanggapan dengan memanfaatkan pilihan-pilihan teratas dari PAIRRANKER.

LLM-BLENDER juga berhasil mengungguli LLM individu seperti Vicuna, dan dengan demikian menunjukkan potensi besar untuk meningkatkan penerapan dan penelitian LLM melalui pembelajaran ensembel.

Disarikan dari: Sumber