“LIMA: Model LLaMa Baru dengan 65B Parameter Fein-Tuned pada 1000 Prompt dan Respons Terpilih”

Model Bahasa Terlatih Dapat Menghasilkan Hasil yang Sangat Baik dengan Sedikit Modifikasi

Model bahasa telah menjadi area penelitian yang sangat penting dalam pengembangan kecerdasan buatan. Model bahasa dapat menghasilkan representasi yang dapat dipindahkan ke hampir semua interpretasi bahasa atau pekerjaan pembuatan kalimat dengan cara dipretrained untuk mengantisipasi token berikutnya pada skala yang sangat besar. Meskipun demikian, model bahasa yang baik saja tidak cukup untuk menghasilkan hasil yang optimal. Oleh karena itu, perlu dilakukan perataan model bahasa untuk memfasilitasi transfer learning.

Berbagai pendekatan telah dilakukan untuk melakukan perataan model bahasa, dengan penekanan khusus pada penyetelan instruksi berbasis data besar dengan jutaan contoh dan, baru-baru ini, pembelajaran penguatan yang didapat dari umpan balik manusia (RLHF) yang dikumpulkan dari jutaan interaksi dengan annotator manusia. Namun, untuk menghasilkan hasil yang optimal, model bahasa ini membutuhkan sumber daya komputasi besar dan data yang tepat.

Namun, sebuah studi menunjukkan bahwa dengan model bahasa yang baik dan sudah terlatih, hasil yang baik dapat diperoleh dengan hanya memodifikasi 1.000 contoh pelatihan yang tepat. Menurut hipotesis mereka, perataan dapat dilakukan dengan cepat dan mudah di mana model belajar format atau gaya interaksi pengguna untuk mengungkapkan keterampilan dan informasi yang sudah dipelajari selama pretrained. Mereka mengumpulkan 1.000 contoh yang menyerupai isyarat pengguna asli dan balasan terbaik untuk memverifikasi gagasan ini. 750 pertanyaan dan tanggapan terbaik dipilih dari forum diskusi online seperti Stack Exchange dan wikiHow, dievaluasi untuk kualitas dan variasi.

Selain itu, 250 contoh pertanyaan dan jawaban secara manual dibuat sambil menekankan gaya respons yang konsisten seperti asisten AI dan mengoptimalkan keberagaman tugas. Para peneliti dari Meta AI, Carnegie Mellon University, University of Southern California dan Tel Aviv University melatih LIMA, model LLaMa berparameter 65B yang sebelumnya sudah terlatih dan ditingkatkan pada kumpulan contoh 1.000 tersebut. Tiga ratus pertanyaan sulit dibandingkan LIMA terhadap model bahasa kontemporer dan produk. LIMA melampaui DaVinci003 dari OpenAI, yang dilatih dengan RLHF, serta replika Alpaca berparameter 65B yang diperkenalkan pada 52.000 sampel, dalam studi preferensi manusia.

Meskipun manusia seringkali lebih memilih balasan dari GPT-4, Claude, dan Bard daripada respons LIMA, hal ini tidak selalu terjadi. LIMA secara konsisten menghasilkan hasil yang setara atau lebih baik dalam 43%, 46%, dan 58% situasi, masing-masing. Pengulangan penilaian preferensi manusia menggunakan GPT-4 sebagai pengannotasi mengkonfirmasi temuan mereka. Ketika respons LIMA dinilai pada skala absolut, 88% memenuhi persyaratan prompt, dan 50% dinilai sangat baik.

Kelemahan dan Tantangan dalam Perataan Model Bahasa

Meskipun hasil penelitian menunjukkan efektivitas pretrained language model, terdapat beberapa kelemahan dalam strategi ini. Pertama, dibutuhkan upaya mental yang besar untuk membuat contoh-contoh pelatihan tersebut dan sulit untuk ditingkatkan dalam skala besar. Kedua, meskipun LIMA biasanya memberikan balasan yang kuat, sampel yang tidak beruntung selama decoding atau prompt yang agresif seringkali menghasilkan respons yang lemah. LIMA kurang tangguh dibandingkan dengan model produk.

Namun, data yang diberikan dalam studi ini menunjukkan bahwa perataan model bahasa yang sulit dapat diatasi dengan mudah dengan memodifikasi contoh pelatihan yang tepat. Dengan demikian, perataan model bahasa dapat dilakukan dengan mudah dan cepat jika dilakukan dengan benar. Namun, tantangan terbesar dalam perataan model bahasa adalah membuat contoh-contoh pelatihan yang tepat dan mencukupi. Selain itu, perataan model bahasa memerlukan sumber daya komputasi besar dan data yang tepat.

Disarikan dari: Link