Kemajuan teknologi kecerdasan buatan telah memunculkan sebuah model bahasa besar (Large Language Models/LLMs) yang semakin populer. Model ini terus berkembang dan menyebar ke berbagai domain dengan menggunakan teknologi deep learning. LLMs dilatih pada jumlah teks mentah yang sangat besar dan untuk meningkatkan performanya, model ini di- fine-tuning. Selama proses fine-tuning, LLMs dilatih pada tugas tertentu menggunakan sinyal pelatihan langsung yang mengukur kinerjanya, seperti akurasi klasifikasi, menjawab pertanyaan, ringkasan dokumen, dan lain-lain.
Baru-baru ini, paradigma fine-tuning baru yang disebut Learn from Textual Interactions (LETI) diperkenalkan. Paradigma ini membahas potensi LLMs untuk belajar dari interaksi dan umpan balik teks. LETI memungkinkan model bahasa untuk memahami bukan hanya jika mereka salah tetapi mengapa mereka salah. Pendekatan ini memungkinkan LLMs untuk melampaui keterbatasan pembelajaran hanya dari label dan ganjaran scalar.
Tim peneliti di balik pengembangan LETI menyebutkan bagaimana pendekatan ini memberikan umpan balik teks pada model bahasa. Ini membantu memeriksa kebenaran output model dengan bantuan label biner dan mengidentifikasi dan menjelaskan kesalahan dalam kode yang dihasilkannya. Paradigma LETI sama seperti proses iteratif pengembangan perangkat lunak, yang melibatkan pengembang menulis program, menguji dan memperbaikinya berdasarkan umpan balik. Demikian juga, LETI memperhalus LLM dengan memberikan umpan balik teks yang menunjukkan kesalahan dan bug.
Selama proses fine-tuning, model dipromosikan dengan deskripsi masalah dalam bahasa alami, diikuti dengan menghasilkan serangkaian solusi. Evaluasi Solusi kemudian mengevaluasi solusi-solusi ini menggunakan serangkaian kasus uji. Peneliti menggunakan interpreter Python untuk menggunakan pesan kesalahan dan jejak tumpukan yang diperoleh dari kode yang dihasilkan sebagai sumber umpan balik teks. Evaluasi Solusi adalah interpreter Python itu sendiri.
Data pelatihan yang digunakan untuk fine-tuning model terdiri dari tiga komponen: instruksi bahasa alami, program yang dihasilkan oleh LLM, dan umpan balik teks. Saat program yang dihasilkan tidak dapat memberikan solusi, umpan balik diberikan pada LLM. Jika tidak, token ganjaran diberikan pada model dalam bentuk umpan balik biner untuk mendorongnya menghasilkan solusi yang akurat. Umpan balik teks yang dihasilkan digunakan dalam proses fine-tuning LLM, yang dikenal sebagai Feedback-Conditioned Fine-Tuning.
Untuk proses evaluasi, peneliti menggunakan kumpulan data tugas penghasilan kode yang disebut Multiple Big Programming Problems (MBPP) dataset. Hasilnya menunjukkan bahwa LETI secara signifikan meningkatkan kinerja dua LLM dasar dengan skala yang berbeda pada dataset MBPP tanpa memerlukan output kebenaran mutlak untuk pelatihan. Pada dataset HumanEval, LETI mencapai kinerja yang sama atau lebih baik dibandingkan dengan LLM dasar pada masalah yang tidak terlihat. Selain itu, peneliti telah menemukan bahwa jika dibandingkan dengan umpan balik biner, menggunakan umpan balik teks memungkinkan model mencapai kinerja yang sama tetapi dengan jumlah langkah gradien yang lebih sedikit.
Secara keseluruhan, LETI adalah pendekatan fine-tuning yang sangat baik yang meningkatkan model bahasa dengan menggunakan umpan balik teks yang rinci. Ini memungkinkan mereka belajar dari kesalahan dan meningkatkan kinerja dalam tugas seperti penghasilan kode. LETI menjanjikan.
Sub-topik 1: Peran LLMs dalam Masa Depan Teknologi
LLMs adalah salah satu teknologi kecerdasan buatan yang paling menjanjikan untuk masa depan. Keuntungan besar dari LLMs adalah kemampuan mereka untuk memahami bahasa manusia dan menghasilkan teks yang serupa dengan manusia. Hal ini dapat membantu dalam banyak bidang, termasuk penghasilan teks otomatis, pemahaman teks, dan pengolahan bahasa alami secara umum. Dalam beberapa tahun terakhir, LLMs telah digunakan secara luas dalam banyak tugas, dan dengan teknologi terus berkembang, kemungkinan penggunaannya akan semakin meluas.
Sub-topik 2: Peran LETI dalam Peningkatan Kinerja LLMs
LETI adalah pendekatan baru dalam fine-tuning LLMs yang menjanjikan. Paradigma ini membahas bagaimana LLMs dapat belajar dari interaksi dan umpan balik teks. LETI memungkinkan model bahasa untuk memahami bukan hanya jika mereka salah tetapi mengapa mereka salah. Pendekatan ini memungkinkan LLMs untuk melampaui keterbatasan pembelajaran hanya dari label dan ganjaran scalar. Dalam evaluasi, LETI secara signifikan meningkatkan kinerja LLMs pada MBPP dataset dan mencapai kinerja yang sama atau lebih baik pada dataset HumanEval dibandingkan dengan LLMs dasar. LETI memungkinkan LLMs untuk belajar dari kesalahan dan meningkatkan kinerja dalam tugas seperti penghasilan kode.
Disarikan dari: Source