ToolQA: Dataset Terbaru untuk Mengevaluasi Kemampuan Model Bahasa Besar dalam Menggunakan Alat Eksternal untuk Tugas Menjawab Pertanyaan

Kehebatan Large Language Models Dalam Pengolahan Bahasa Alami

Large Language Models (LLMs) telah terbukti sangat efektif dalam bidang Pengolahan Bahasa Alami (NLP) dan Pemahaman Bahasa Alami (NLU). LLM terkenal seperti GPT, BERT, PaLM, dan lainnya digunakan oleh para peneliti untuk memberikan solusi dalam setiap domain mulai dari pendidikan dan media sosial hingga keuangan dan kesehatan. Dengan dilatih menggunakan jumlah data yang besar, LLM ini menangkap jumlah pengetahuan yang luas.

LLM telah menunjukkan kemampuannya dalam menjawab pertanyaan melalui penyelarasan, generasi konten, ringkasan teks, terjemahan bahasa, dan lainnya. Meskipun LLM telah menunjukkan kemampuan yang mengesankan akhir-akhir ini, masih ada kesulitan dalam menghasilkan informasi yang masuk akal dan terkait tanpa adanya halusinasi serta kelemahan dalam penalaran numerik.

Peningkatan Kemampuan LLM dengan Menggunakan Alat Eksternal

Penelitian terbaru telah menunjukkan bahwa meningkatkan LLM dengan menggunakan alat eksternal, termasuk penambahan alat pencarian, alat matematika, dan interpreter kode, merupakan pendekatan yang lebih baik untuk mengatasi tantangan tersebut. Namun, mengevaluasi efektivitas alat-alat eksternal ini memiliki kesulitan, karena metodologi evaluasi saat ini membutuhkan bantuan untuk menentukan apakah model hanya mengingat informasi yang telah dilatih sebelumnya atau benar-benar menggunakan alat eksternal untuk memecahkan masalah. Untuk mengatasi batasan ini, sebuah tim peneliti dari College of Computing, Georgia Institute of Technology, dan Atlanta, GA, telah memperkenalkan ToolQA, sebuah benchmark untuk pertanyaan dan jawaban yang menilai kemampuan LLM dalam menggunakan sumber daya eksternal.

ToolQA terdiri dari data dari delapan domain dan mendefinisikan 13 jenis alat yang dapat memperoleh informasi dari korpus referensi eksternal. Setiap contoh ToolQA mencakup pertanyaan, jawaban, korpus referensi, dan daftar alat yang tersedia. Keunikan dari ToolQA terletak pada fakta bahwa semua pertanyaan hanya dapat dijawab dengan menggunakan alat yang sesuai untuk mengekstrak informasi dari korpus referensi, yang dengan demikian meminimalkan kemungkinan LLM menjawab pertanyaan hanya berdasarkan pengetahuan internal dan memungkinkan evaluasi yang akurat terhadap kemampuan penggunaan alat-alat mereka.

ToolQA melibatkan tiga fase otomatis: Pengumpulan Data Referensi, Pembuatan Pertanyaan Panduan Manusia, dan Pembuatan Jawaban Programatik. Pada fase pertama, berbagai jenis korpus publik, termasuk teks, tabel, dan grafik, dikumpulkan dari berbagai domain dan digunakan sebagai korpus referensi untuk menjawab pertanyaan berbasis alat. Pada fase kedua, pertanyaan dibuat yang hanya dapat diselesaikan dengan bantuan alat daripada korpus referensi. Ini dilakukan melalui metode pembuatan pertanyaan berbasis template, yang juga melibatkan instansiasi pertanyaan dengan atribut alat dan produksi dan validasi template yang dipandu manusia. Fase ketiga menghasilkan jawaban yang akurat untuk pertanyaan yang dihasilkan, operator yang sesuai dengan alat-alat diimplementasikan, dan jawaban diperoleh secara programatik dari korpus referensi.

Tim melakukan percobaan menggunakan baik LLM standar maupun LLM yang diperkuat dengan alat untuk menjawab pertanyaan dalam ToolQA. Hasilnya menunjukkan bahwa LLM yang hanya mengandalkan pengetahuan internal, seperti ChatGPT dan Chain-of-thoughts prompting, memiliki tingkat keberhasilan yang rendah, sekitar 5% untuk pertanyaan mudah dan 2% untuk pertanyaan sulit. Di sisi lain, LLM yang diperkuat dengan alat seperti Chameleon dan ReAct tampil lebih baik dengan menggunakan alat eksternal, dengan kinerja terbaik yang dicapai oleh LLM yang diperkuat dengan alat mencapai 43,15% untuk pertanyaan mudah dan 8,2% untuk pertanyaan sulit.

Hasil dan analisis kesalahan menunjukkan bahwa ToolQA adalah benchmark yang sulit bagi pendekatan LLM yang diperkuat dengan alat saat ini, terutama untuk masalah-masalah sulit yang membutuhkan penalaran alat yang lebih rumit. Ini merupakan penambahan yang menjanjikan dalam perkembangan AI.

Disarikan dari: Source