"QLORA: Pendekatan Finetuning Efisien Yang Mengurangi Penggunaan Memori Untuk Finetune Model 65B Parameter Dengan Satu GPU 48GB Dan Tetap Memperoleh Performa 16-Bit FineTuning Yang Optimal"

Sub-Topik 1: QLORA dan Kemampuan Finetuning Model Bahasa Besar

Sebuah tim peneliti dari University of Washington telah mengembangkan teknologi yang memungkinkan finetuning pada model bahasa besar (LLMs) dengan menggunakan memori yang lebih sedikit. Teknologi ini disebut QLORA, yang memungkinkan model yang telah dilatih sebelumnya untuk di-quantize menggunakan algoritma presisi tinggi menjadi 4-bit resolusi sebelum menambahkan sejumlah kecil berat Low-rank Adapter yang dapat dipelajari dan dimodifikasi. Dalam pengujian, QLORA mampu mengurangi memori yang dibutuhkan dari lebih dari 780GB RAM GPU menjadi 48GB RAM GPU pada model LLaMA 65B dengan 16-bit mode. Dengan teknologi ini, model-model bahasa besar dapat difinetuning dengan lebih mudah dan efisien. QLORA juga mampu menghasilkan kinerja yang tidak kalah dengan finetuning pada 16-bit.

QLORA mengimplementasikan tiga teknologi utama yang memungkinkan penggunaan memori yang lebih sedikit tanpa mengorbankan kinerja. Pertama, ada 4-bit NormalFloat, jenis data untuk quantization pada data yang didistribusikan secara normal yang menghasilkan hasil empiris yang lebih baik daripada 4-bit Integer dan 4-bit Floats. Kedua, Double Quantization, yang dapat menghemat rata-rata 0,37 bit per parameter, atau sekitar 3GB untuk model 65B. Teknologi ini meng-quantize constant pada model. Ketiga, Paged Optimizers menggunakan memori bersama NVIDIA untuk mencegah lonjakan memori yang terjadi pada proses gradient checkpointing ketika memproses mini-batch dengan urutan panjang.

Sub-Topik 2: Finetuning Model Bahasa Besar dengan QLORA

QLORA telah membuka kemungkinan untuk analisis finetuning dan kinerja chatbot pada model yang lebih besar. Hasil pengujian menunjukkan bahwa kualitas data menjadi faktor yang lebih penting daripada ukuran dataset dalam performa chatbot. QLORA juga mampu melatih model Guanaco, yang merupakan chatbot canggih, dan mampu menghasilkan kinerja yang lebih baik daripada model Alpaca dengan ukuran yang lebih kecil.

Di sisi lain, QLORA juga menunjukkan bahwa kinerja dalam Massive Multitask Language Understanding (MMLU) tidak selalu menghasilkan performa yang lebih baik dalam Vicuna chatbot benchmark, dan sebaliknya. Oleh karena itu, tepatnya dataset yang digunakan lebih penting daripada ukuran dataset dalam menentukan performa suatu task. Selain itu, penelitian ini juga menunjukkan bahwa penilaian model berbasis manusia dan GPT-4 memiliki ketidakpastian, meskipun lebih murah daripada anotasi manusia.

Penelitian ini menemukan pola yang berbeda dalam performa chatbot yang tidak dapat diprediksi oleh model kuantitatif, yang menekankan perlunya analisis kualitatif untuk memahami kinerja model. Hasil penelitian juga telah diimplementasikan ke dalam Hugging Face transformers stack dan disediakan adapter untuk 32 model yang telah ditingkatkan dengan QLORA. Semua model dan kode dijadikan publik agar dapat diakses oleh semua orang.

Dalam kesimpulannya, QLORA telah membuka kemungkinan untuk finetuning model bahasa besar dengan lebih efisien dan efektif. Selain itu, penelitian ini juga menunjukkan bahwa faktor yang lebih penting daripada ukuran dataset atau model adalah dataset yang sesuai dan kualitas data. Analisis kualitatif pada model juga penting untuk memahami kinerja model secara menyeluruh.

Disarikan dari: Sumber