Peneliti dari Harvard Kenalkan Inference-Time Intervention (ITI): Teknik AI yang Meningkatkan Kejujuran Model Bahasa dari 32.5% menjadi 65.1%

Inovasi terkini dalam bidang Kecerdasan Buatan (Artificial Intelligence/AI) adalah pengembangan Large Language Models (LLMs). Model-model ini, seperti ChatGPT, BERT, LLaMA, PaLM, dan sebagainya, telah digunakan oleh berbagai kalangan mulai dari peneliti, analis, mahasiswa, hingga organisasi. LLMs ini mampu meniru manusia dengan menjawab pertanyaan, menghasilkan konten kreatif dan unik, serta merangkum paragraf teks yang panjang. Namun, meskipun model-model ini telah menunjukkan hasil yang luar biasa, mereka sering kali menghasilkan berbagai ketidakakuratan, mulai dari kesalahan kecil hingga delusi lengkap. Ketidakakuratan ini menjadi masalah serius yang mengurangi keandalan teknologi ini, terutama dalam situasi di mana akurasi sangat penting.

Baru-baru ini, tim peneliti dari Universitas Harvard mengusulkan teknik bernama Inference-Time Intervention (ITI) yang bertujuan untuk meningkatkan kebenaran dari model bahasa. Pendekatan ini bekerja dengan mengubah aktivasi model selama proses inferensi, yaitu dengan menerapkan serangkaian instruksi tertentu pada sejumlah kecil attention heads dalam model. ITI mengidentifikasi attention heads ini yang memiliki tingkat akurasi probing linear yang tinggi terhadap kebenaran, dan peneliti menggeser aktivasi melalui jalur-jalur yang berkorelasi dengan kebenaran selama proses inferensi. Intervensi ini diulang secara autoregressively hingga seluruh respons terbentuk.

Perbedaan utama antara ITI dengan teknik yang saat ini digunakan, seperti RLHF (Reinforcement Learning from Human Feedback), adalah bahwa ITI tidak memerlukan pembelajaran ulang (retraining) yang memakan waktu dan sumber daya komputasi yang besar. Teknik seperti RLHF bergantung pada modifikasi model bahasa yang sudah terlatih sebelumnya dengan reinforcement learning, yang mengharuskan adanya sumber daya komputasi dan anotasi data yang besar. Selain itu, proses pelatihan dalam pendekatan-pendekatan ini melibatkan kepuasan annotator manusia atau AI, yang menimbulkan kekhawatiran akan adanya kemungkinan penipuan. ITI, di sisi lain, merupakan teknik kontrol yang kurang invasif dan dapat digunakan selama inferensi tanpa memerlukan prosedur pelatihan yang memakan waktu dan sumber daya yang besar.

Tim peneliti telah menguji ITI pada model LLaMA yang telah diperbaiki dengan instruksi, yang disebut Alpaca, untuk mengevaluasi keefektifan teknik ini. Sebelum menggunakan ITI, Alpaca memiliki skor kebenaran baseline sebesar 32,5% pada TruthfulQA benchmark, yang menguji kebenaran jawaban model bahasa. Namun, setelah menggunakan ITI, skor kebenaran Alpaca meningkat secara signifikan menjadi 65,1%.

Tim peneliti juga menunjukkan adanya trade-off antara kebermanfaatan dan kebenaran, yang berarti peningkatan kebermanfaatan mungkin mengurangi respons yang diberikan oleh algoritma. Untuk mengatasi hal ini, mereka menyesuaikan kekuatan intervensi yang diterapkan, sehingga mencapai tingkat kebenaran yang diinginkan tanpa mengorbankan utilitas secara keseluruhan. Beberapa keuntungan ITI yang disebutkan oleh tim peneliti antara lain:

1. Kurang invasif, karena hanya melakukan penyesuaian pada aktivasi model selama inferensi tanpa memerlukan penyesuaian yang signifikan pada arsitektur atau prosedur pelatihan yang mendasarinya.
2. Biaya komputasi yang rendah, sehingga metode ini dapat digunakan secara efektif dalam aplikasi dunia nyata.
3. Efisien dalam penggunaan data, karena hanya memerlukan ratusan contoh untuk mengidentifikasi arah yang benar.

Tim peneliti juga memberikan contoh perbandingan antara LLaMA dan ITI. Ketika ditanyakan tentang pendapat para sarjana mengenai bentuk Bumi pada Abad Pertengahan, LLaMA menjawab “bulat” sedangkan ITI menjawab “datar”. Begitu pula ketika ditanya tentang perbedaan pendapat dengan teman, LLaMA tidak bisa memberikan komentar, sementara ITI memberikan jawaban. Dengan demikian, pengenalan Inference-Time Intervention (ITI) ini sangat bermanfaat untuk meningkatkan kebenaran dari Large Language Models (LLMs) dan menunjukkan potensi yang lebih baik dalam menghasilkan output yang benar dan akurat.

Dalam kesimpulannya, ITI merupakan teknik yang menjanjikan dalam meningkatkan kebenaran dari model-model bahasa. Dibandingkan dengan pendekatan-pendekatan yang sudah ada, ITI memiliki kelebihan berupa tingkat invasivitas yang rendah, biaya komputasi yang murah, dan efisiensi dalam penggunaan data. Dengan adanya ITI, diharapkan Large Language Models (LLMs) dapat menghasilkan jawaban yang lebih akurat, meningkatkan kepercayaan pada teknologi, dan memberikan manfaat yang lebih besar dalam berbagai aplikasi dunia nyata.

Revolusi dalam Kecerdasan Buatan: Inference-Time Intervention (ITI) sebagai Solusi Keakuratan Large Language Models (LLMs)

Penelitian terbaru dari tim peneliti Harvard University mengusulkan teknik Inference-Time Intervention (ITI) sebagai solusi untuk meningkatkan keakuratan Large Language Models (LLMs). Large Language Models seperti ChatGPT, BERT, LLaMA, dan lainnya telah digunakan secara luas oleh berbagai kalangan, namun seringkali menghasilkan ketidakakuratan mulai dari kesalahan kecil hingga delusi lengkap. ITI menggunakan pendekatan yang berbeda dengan teknik yang saat ini digunakan, seperti Reinforcement Learning from Human Feedback (RLHF), yang membutuhkan waktu dan sumber daya komputasi yang besar. ITI adalah teknik yang lebih sedikit invasif dan dapat digunakan selama inferensi tanpa memerlukan prosedur pelatihan yang memakan waktu dan sumber daya yang besar.

Keuntungan ITI dalam Meningkatkan Kebenaran Large Language Models (LLMs)

ITI menawarkan beberapa keuntungan dalam meningkatkan kebenaran Large Language Models (LLMs). Pertama, ITI memiliki tingkat invasivitas yang rendah karena hanya melakukan penyesuaian pada aktivasi model selama inferensi tanpa mengubah arsitektur atau prosedur pelatihan yang mendasarinya. Kedua, ITI memiliki biaya komputasi yang rendah sehingga dapat diimplementasikan dengan baik dalam aplikasi dunia nyata. Ketiga, ITI merupakan metode yang efisien dalam penggunaan data karena hanya memerlukan beberapa ratus contoh untuk mengidentifikasi arah yang benar. Dengan keuntungan-keuntungan ini, ITI dapat meningkatkan kepercayaan pada hasil yang dihasilkan oleh Large Language

Disarikan dari: Link