Peneliti MIT Usulkan Algoritma SimPLE Untuk Peningkatan Kualitas Label Palsu Dalam Tugas Self-Training

Kecerdasan buatan (Artificial Intelligence/AI) semakin berkembang dan semakin banyak digunakan di berbagai bidang. Salah satu bidang yang paling banyak menggunakan teknologi ini adalah bidang pemrosesan bahasa alami atau natural language processing (NLP). Namun, ada beberapa tantangan yang dihadapi dalam pengembangan model bahasa alami yang besar dan kompleks.

Baru-baru ini, para peneliti dari CSAIL MIT telah mengembangkan pendekatan baru untuk mengatasi tantangan yang terkait dengan large language models (LLMs) dalam pemahaman bahasa alami. LLMs sendiri telah menunjukkan kemampuan yang mengesankan dalam menghasilkan bahasa, seni, dan kode. Namun, kebutuhan komputasional dan masalah privasi data telah menjadi kekurangan dari model tersebut. Oleh karena itu, tim MIT yakin bahwa model yang lebih kecil tidak boleh diabaikan dan telah mengembangkan model yang disebut logic-aware model.

Model Logic-Aware

Model logic-aware yang dikembangkan oleh tim MIT melebihi model yang jauh lebih besar dalam beberapa tugas pemahaman bahasa tertentu tanpa anotasi yang dihasilkan oleh manusia. Para peneliti mengaitkan keberhasilan model yang lebih kecil ini dengan konsep “textual entailment”. Textual entailment merujuk pada hubungan antara dua kalimat, di mana jika satu kalimat benar, kalimat lainnya kemungkinan besar juga benar.

Dengan melatih model “entailment” menggunakan konsep ini, tim menciptakan arahan yang memungkinkan model untuk menentukan apakah informasi tertentu diimplikasikan oleh kalimat atau frasa yang diberikan di berbagai tugas tanpa pelatihan tambahan (adaptasi nol-shot). Pemahaman bahasa alami mencakup berbagai aplikasi yang bergantung pada menjalin hubungan antara potongan teks. Tim MIT menyadari bahwa banyak dari tugas-tugas ini dapat diubah sebagai tugas entailment, di mana inferensi logis dalam bahasa alami memainkan peran sentral. Penelitian ini menunjukkan potensi pengembangan solusi pemodelan bahasa yang dapat diskalakan, dapat dipercaya, dan hemat biaya.

Untuk meningkatkan kinerja model, para peneliti menggunakan teknik self-training, di mana model menggunakan prediksinya untuk belajar tanpa pengawasan manusia atau data yang diarsipkan. Metode ini secara signifikan meningkatkan kinerja pada tugas analisis sentimen, menjawab pertanyaan, dan klasifikasi berita, melampaui model-model lain seperti LaMDA dan FLAN dari Google di kemampuan nol-shot dan model GPT. Namun, tantangan self-training terletak pada kemungkinan terjadinya label yang salah atau berisik yang dapat merugikan kinerja. Untuk mengatasi ini, tim mengembangkan algoritma SimPLE (Simple Pseudo-Label Editing), yang meninjau dan memodifikasi pseudo-label yang dihasilkan selama putaran pembelajaran awal. Pendekatan ini meningkatkan pemahaman bahasa dan meningkatkan kekakuan model terhadap data adversarial.

Namun, penelitian ini juga menyoroti beberapa keterbatasan. Tugas klasifikasi multi-kelas tidak menguntungkan sebanyak tugas pemahaman bahasa alami biner dari self-training, menekankan kesulitan menerapkan model entailment pada tugas multi-pilihan.

Kesimpulan

Penemuan dari penelitian ini menawarkan metodologi pelatihan yang efisien dan efektif untuk large language models. Dengan merumuskan tugas pemahaman bahasa alami sebagai masalah entailment kontekstual dan menggabungkan pseudo-labeling dan self-training dengan data teks tanpa label, menjadi mungkin untuk mengembangkan model bahasa yang kompak yang melampaui rekan-rekan yang lebih besar pada tugas-tugas pemahaman benchmark. Hasil kerja tim MIT berkontribusi pada lanskap berkembang dari large language models, menyediakan teknologi AI yang lebih berkelanjutan dan menjaga privasi bagi pemrosesan dan pemahaman bahasa.

Disarikan dari: Sumber