Tülu-A: Suite Model Bahasa Besar Yang Disesuaikan Untuk Tugas-Tugas Khusus

Tingginya minat terhadap model bahasa besar (LLM) yang dapat meniru kemampuan manusia dalam melakukan berbagai tugas berkat kemampuan ChatGPT yang terkenal dari OpenAI. Metode fine-tuning instruksi telah digunakan untuk membantu model dalam melakukan tugas-tugas umum. Pendekatan ini melibatkan pelatihan model pada pasangan input dan output yang disupervisi, yang dapat diperoleh dari model lain.

Sebuah tim peneliti dari Allen Institute for AI dan University of Washington memperkenalkan sejumlah besar model dengan ukuran parameter sekitar 6,7 miliar hingga 65 miliar. Model tersebut dilatih pada 12 set data instruksi mulai dari data sintetis dan terekstraksi seperti Alpaca hingga data yang dikelola secara manual seperti OpenAssistant. Model-model tersebut diuji secara cermat dalam berbagai bidang, termasuk penalaran, multilingualisme, pemrograman, pengetahuan fakta, dan keterampilan instruksi berakhir terbuka.

Keuntungan penggunaan model LLM yang diinstruksikan ini adalah mampu meningkatkan kinerja tertentu dalam pemrosesan bahasa alami dan dapat diterapkan dalam berbagai bidang seperti fungsionalitas umum, seperti membuat pesan teks, email, dan surat kabar otomatis; pemrosesan bahasa alami dalam bidang kesehatan, seperti pengenalan nama obat, diagnosis, dan pengobatan; dan dalam bidang pengembangan perangkat lunak, seperti klasifikasi kode dan deteksi kesalahan.

Keuntungan Set Data Instruksi Spesifik Domain

Menurut penelitian ini, set data instruksi yang spesifik domain sangat sukses dalam meningkatkan kinerja model. Model yang lebih besar atau pre-trained selama lebih lama secara konsisten menunjukkan hasil yang lebih baik setelah penginstruksian. Namun, peneliti menemukan bahwa evaluasi berbasis benchmark gagal menangkap perbedaan dalam kemampuan model yang ditunjukkan oleh perbandingan model. Model terbaik dalam setiap evaluasi rata-rata memiliki kinerja 83% dari kinerja ChatGPT dan 68% dari kinerja GPT-4.

Korelasi antara Evaluasi Berbasis Model dan Model Berdasarkan Kepuasan

Penelitian ini juga menunjukkan adanya korelasi kuat antara evaluasi berbasis model dan model berdasarkan kepuasan pada pengikutan instruksi yang berakhir terbuka. Hal ini menunjukkan bahwa evaluasi berbasis model mengandung bias yang dapat menyamarkan perbedaan dalam kemampuan model.

Model LLM diinstruksikan saat ini memungkinkan kita untuk mengeksplorasi potensi dalam memanfaatkan banyak sumber daya data terbuka untuk memperbaiki kinerja model. Dalam jangka panjang, model LLM yang diinstruksikan dapat membantu dalam pengembangan sistem kecerdasan buatan yang lebih cerdas dan lebih efisien. Namun, perlu diingat bahwa model LLM yang diinstruksikan tidak benar-benar “pintar” seperti manusia. Pada akhirnya, model LLM hanyalah algoritma yang mengikuti instruksi dan input yang diberikan oleh manusia.

Disarikan dari: Link