Mengoptimalkan Kemampuan Belajar Mesin Berbasis Bahasa
Dalam dunia kecerdasan buatan (artificial intelligence/AI), model bahasa yang besar memiliki kemampuan belajar dalam konteks yang memungkinkan mereka menyelesaikan tugas tertentu hanya dengan sedikit contoh. Satu model dapat digunakan untuk berbagai tugas karena sifatnya yang tidak berkaitan dengan tugas tertentu. Namun demikian, meskipun belajar dalam konteks jarang menjadi pilihan praktisi karena seringkali memberikan hasil yang lebih buruk dibandingkan dengan teknik adaptasi yang spesifik terhadap tugas. Penelitian sebelumnya menyalahkan perbedaan kinerja ini pada jendela konteks yang terbatas pada model bahasa yang hanya dapat menampung sejumlah kecil kasus tugas. Namun, penelitian terbaru menunjukkan bahwa perbedaan kinerja antara pembelajaran dalam konteks dan teknik fine-tuning tetap ada meskipun diberikan contoh tugas yang identik. Temuan ini menimbulkan pertanyaan apakah perbedaan kinerja adalah kendala umum dari strategi adaptasi yang tidak bergantung pada tugas atau apakah hanya terjadi pada pembelajaran dalam konteks. Apakah mereka dapat menciptakan strategi adaptasi yang memenuhi persyaratan berikut:
1. Task-agnostic: Model yang sama dapat diterapkan secara universal untuk berbagai aktivitas.
2. Kualitas: Dalam berbagai tugas ini, mencapai akurasi yang kompetitif dengan pendekatan yang spesifik terhadap tugas.
3. Skalabilitas data: Efisiensi pembelajaran meningkat seiring dengan jumlah contoh tugas yang meningkat.
Peneliti memulai dengan melihat penyebab perbedaan kualitas. Mereka membagi kemampuan pembelajaran dalam konteks model bahasa menjadi dua komponen: perolehan representasi tugas yang efektif dan pelaksanaan inferensi probabilitas, atau penalaran, atas representasi tersebut. Apakah kesenjangan disebabkan oleh kurangnya informasi dalam representasi atau oleh ketidakmampuan model bahasa dalam menganalisanya? Dengan mengevaluasi kesenjangan penalaran dan representasi melalui berbagai keluarga model bahasa dalam beberapa tugas klasifikasi biner, mereka menguji gagasan ini secara empiris. Mereka menyimpulkan bahwa model bahasa memiliki representasi yang kuat dan sebagian besar perbedaan kualitas disebabkan oleh penalaran yang lemah dari model tersebut. Mereka juga menemukan bahwa fine-tuning meningkatkan model dasar pada kedua aspek ini, tetapi sebagian besar peningkatan kinerja terjadi pada penalaran yang spesifik terhadap tugas, yang bertanggung jawab atas 72% peningkatan kinerja. Mencengangkan, sebagian besar metode untuk menyempitkan kesenjangan kinerja, seperti teknik pemberian instruksi dan pemilihan contoh yang aktif, hanya menargetkan representasi yang dipelajari oleh model bahasa. Sebaliknya, penelitian mereka mempertimbangkan strategi alternatif untuk meningkatkan kemampuan penalaran model bahasa. Mereka menyempurnakan model bahasa menggunakan tantangan inferensi probabilitas yang dibuat secara artifisial sebagai langkah awal untuk meningkatkan kemampuan penalarannya. Meskipun metode ini meningkatkan kinerja pembelajaran dalam konteks model secara dasar, namun juga memerlukan fine-tuning individu untuk setiap model bahasa.
Peneliti bahkan lebih jauh dan berspekulasi tentang prospek mengembangkan kemampuan penalaran secara independen dari tugas dan model. Mereka mendemonstrasikan bahwa pendekatan yang sepenuhnya tidak bergantung pada tugas dapat diambil untuk meningkatkan kemampuan penalaran. Dalam penelitian ini, peneliti dari Universitas Stanford dan Universitas Cornell menyarankan Tart, yang menggunakan modul penalaran yang diajarkan secara sintetis untuk meningkatkan kemampuan penalaran model bahasa. Tart hanya menggunakan masalah regresi logistik yang diproduksi secara sintetis, tanpa memperhatikan tugas akhir atau model bahasa dasar, untuk melatih modul penalaran berbasis Transformer. Tanpa pelatihan lanjutan, modul inferensi ini dapat dibangun menggunakan embedding model bahasa untuk meningkatkan kemampuan deduktifnya. Tart mencapai tujuan yang diperlukan:
1. Tidak bergantung pada tugas: Modul inferensi Tart hanya perlu dilatih sekali dengan data fiktif.
2. Kualitas: Lebih baik daripada model bahasa dasar secara keseluruhan dan menyempurnakan kesenjangan dengan menggunakan teknik fine-tuning yang spesifik terhadap tugas.
3. Skalabilitas data: Dapat mengatasi 10 kali lebih banyak contoh daripada pembelajaran dalam konteks.
Tart tidak tergantung pada tugas, model, dan domain. Mereka menunjukkan bahwa Tart dapat digeneralisasikan melalui tiga keluarga model pada 14 tugas klasifikasi pemrosesan bahasa alami (natural language processing/NLP), bahkan melintasi domain yang berbeda, dengan menggunakan modul inferensi tunggal yang dilatih dengan data sintetis. Mereka juga menunjukkan bahwa kinerja Tart lebih baik dalam hal kualitas dibandingkan dengan pembelajaran dalam konteks sebesar 18,4%, adapter yang spesifik terhadap tugas sebesar 3,4%, dan fine-tuning yang spesifik terhadap tugas sebesar 3,1% pada berbagai tugas NLP. Pada RAFT Benchmark, Tart meningkatkan kinerja GPT-Neo sehingga setara dengan GPT-3 dan Bloom, sementara mengungguli Bloom sebesar 4%. Tart mengatasi batasan durasi konteks yang terlalu pendek dalam pembelajaran dalam konteks dan dapat diadaptasikan dengan jumlah data yang lebih besar. Pada model bahasa, setiap contoh dapat mengambil beberapa token, seringkali ratusan, sedangkan modul penalaran Tart hanya menggunakan dua token per kasus—satu untuk konteks dan satu untuk label. Manfaat yang dapat diperoleh dari skalabilitas data ini dapat mencapai 6,8%. Secara teoritis, mereka membuktikan bahwa kemampuan generalisasi Tart sebagian besar tergantung pada pergeseran distribusi antara distribusi data sintetis dan distribusi embedding teks alami, seperti yang dievaluasi oleh metrik Wasserstein-1.
Berikut adalah ringkasan kontribusi utama mereka:
1. Mempelajari penyebab perbedaan kualitas antara pembelajaran dalam konteks dan fine-tuning yang spesifik terhadap tugas saat memiliki akses pada informasi yang sama.
2. Menghadirkan Tart, pendekatan yang tidak bergantung pada tugas yang baru dan melebihi pendekatan yang spesifik terhadap tugas tanpa membutuhkan data nyata untuk pelatihan.
3. Membuktikan bahwa Tart efektif untuk berbagai keluarga model pada tugas NLP. Modul inferensi yang sama juga dapat diterapkan pada domain suara dan visual.
Dengan adanya penelitian ini, diharapkan kemampuan pembelajaran mesin berbasis bahasa dapat dioptimalkan dengan memperbaiki kemampuan penalaran mereka, tidak hanya pada representasi yang mereka pelajari.
Disarikan dari: Source