Perkembangan terbaru dalam Large Language Models (LLMs) telah menunjukkan kemampuan yang mengesankan dalam memecahkan masalah di berbagai bidang. LLM dapat mencakup ratusan miliar parameter dan dilatih dengan menggunakan korpus teks yang sangat besar.
Studi menunjukkan bahwa dalam inferensi LLM, bandwidth memori, bukan CPU, adalah batasan kinerja utama untuk tugas generatif. Hal ini menunjukkan bahwa kecepatan dengan mana parameter dapat dimuat dan disimpan untuk situasi yang terbatas oleh memori, bukan operasi aritmatika, menjadi hambatan laten kunci. Namun, kemajuan dalam teknologi bandwidth memori belum sejalan dengan komputasi, sehingga muncul fenomena yang dikenal sebagai Dinding Memori.
Quantization adalah metode yang menjanjikan yang melibatkan penyimpanan parameter model dengan akurasi yang lebih rendah daripada 16 atau 32 bit yang biasa digunakan selama pelatihan. Meskipun terdapat kemajuan terbaru seperti LLaMA dan variasi-instruksinya, masih sulit untuk mencapai kinerja quantization yang baik, terutama dengan presisi bit yang lebih rendah dan model yang relatif sederhana (misalnya, 50B parameter).
Sebuah studi baru dari UC Berkeley menyelidiki quantization presisi bit rendah secara mendalam untuk mengungkap kelemahan metode saat ini. Berdasarkan temuan ini, para peneliti memperkenalkan SqueezeLLM, sebuah kerangka quantization pasca-pelatihan yang menggabungkan teknik Dekomposisi Dense-dan-Sparse dengan strategi quantization non-uniform berbasis sensitivitas yang unik. Metode-metode ini memungkinkan quantization dengan presisi bit ultra-rendah sambil mempertahankan kinerja model yang kompetitif, dengan drastis mengurangi ukuran model dan biaya waktu inferensi. Metode mereka mengurangi perplexity model LLaMA-7B pada presisi 3-bit dari 28.26 dengan quantization seragam menjadi 7.75 pada dataset C4, yang merupakan peningkatan yang signifikan.
Melalui pengujian komprehensif pada benchmark C4 dan WikiText2, para peneliti menemukan bahwa SqueezeLLM secara konsisten mengungguli pendekatan quantization yang ada dengan selisih yang besar pada presisi bit yang berbeda ketika diterapkan pada tugas pemodelan bahasa LLaMA-7B, 13B, dan 30B.
Menurut tim peneliti, quantization presisi bit rendah dari banyak LLM sangat sulit karena adanya outlier yang signifikan dalam matriks bobot. Outlier-outlier ini juga mempengaruhi pendekatan quantization non-uniform mereka karena mereka mempengaruhi alokasi bit ke nilai yang sangat tinggi atau rendah. Untuk menghilangkan nilai-nilai outlier, mereka memberikan metode sederhana yang membagi bobot model menjadi komponen dense dan sparse. Dengan mengisolasi nilai-nilai ekstrem ini, daerah pusat menampilkan rentang yang lebih sempit hingga 10, yang menghasilkan presisi quantization yang lebih baik. Dengan metode penyimpanan sparse yang efisien seperti Compressed Sparse Rows (CSR), data sparse dapat tetap dalam presisi penuh. Metode ini memiliki overhead rendah dengan menggunakan kernel sparse yang efisien untuk bagian sparse dan memparallelkan komputasi bersama dengan bagian dense.
Tim peneliti mendemonstrasikan potensi kerangka mereka dalam mengquantisasi model-model IF dengan menerapkan SqueezeLLM pada model-model Vicuna-7B dan 13B. Mereka membandingkan dua sistem dalam pengujian mereka. Pertama, mereka menggunakan dataset MMLU, sebuah benchmark multi-task yang mengukur pengetahuan dan kemampuan pemecahan masalah model, untuk mengukur kualitas output yang dihasilkan. Mereka juga menggunakan GPT-4 untuk menilai kualitas generasi model quantized dibandingkan dengan baseline FP16, menggunakan metodologi evaluasi yang disajikan dalam Vicuna. Dalam kedua benchmark tersebut, SqueezeLLM secara konsisten mengungguli GPTQ dan AWQ, dua pendekatan state-of-the-art yang ada. Terutama, dalam kedua penilaian tersebut, model quantized 4-bit berperforma sama baiknya dengan baseline.
Karya ini menunjukkan pengurangan laten yang signifikan dan kemajuan dalam kinerja quantization dengan model-model mereka yang berjalan pada GPU A6000. Para peneliti menunjukkan peningkatan kecepatan hingga 2,3 kali dibandingkan dengan inferensi FP16 baseline untuk LLaMA-7B dan 13B. Selain itu, metode yang diusulkan mencapai laten yang lebih cepat hingga 4 kali lipat dibandingkan dengan GPTQ, menunjukkan efektivitasnya dalam kinerja quantization dan efisiensi inferensi.
Dalam kesimpulan, metode quantization presisi bit rendah yang diusulkan oleh peneliti UC Berkeley memiliki potensi untuk mengurangi ukuran model dan biaya waktu inferensi LLM yang sangat besar. Metode SqueezeLLM, yang menggabungkan dekomposisi dense-dan-sparse dengan strategi quantization non-uniform berbasis sensitivitas, telah terbukti secara konsisten mengungguli pendekatan quantization yang ada dalam berbagai tugas pemodelan bahasa. Dengan menggunakan metode ini, LLMs dapat dimampatkan dengan presisi bit yang sangat rendah sambil mempertahankan kinerja model yang kompetitif. Diharapkan bahwa penemuan ini akan membuka jalan bagi penggunaan LLMs yang lebih efisien dan hemat waktu dalam berbagai aplikasi.
Disarikan dari: Sumber