Inovasi baru dalam teknologi Language Models (LLMs) kian menunjukkan kemampuan yang luar biasa. Model ini mampu melakukan tugas-tugas yang luar biasa, termasuk menghasilkan konten teks yang menyerupai manusia, menjawab pertanyaan, melengkapi kode, merangkum teks, dan menciptakan asisten virtual yang sangat terampil. Kini, ada pergeseran dalam mengembangkan model yang lebih kecil namun dilatih dengan data yang lebih banyak. Model yang lebih kecil memerlukan sumber daya komputasi yang lebih sedikit dibandingkan yang lebih besar.
Namun, model yang lebih kecil juga membawa tantangan, seperti kesulitan dalam mempertahankan kualitas generatif, penurunan akurasi dalam teknik kuantisasi 3 hingga 4 bit pada model dengan 1 hingga 10 miliar parameter, dan sebagainya. Hal ini disebabkan oleh sifat generatif model LLM, di mana kesalahan kecil dapat mengakibatkan output yang sangat buruk.
Menanggulangi Tantangan Kuantisasi Rendah
Untuk mengatasi batasan akurasi, tim peneliti mengembangkan Sparse-Quantized Representation (SpQR), sebuah format terkompresi dan teknik kuantisasi. Format hibrida yang jarang terkompresi ini memungkinkan kompresi hampir tanpa kehilangan informasi pada model LLM yang dipretrained. Teknik ini merupakan teknik kuantisasi berat pertama yang mencapai rasio kompresi seperti itu dengan kesalahan akurasi end-to-end kurang dari 1% dibandingkan dengan baseline tebal, seperti yang dinilai oleh perplexity.
SpQR menggunakan dua cara. Pertama, dengan menemukan bobot outlier yang ketika dikuantisasi memberikan kesalahan yang sangat tinggi dan menyimpan bobot ini dengan ketelitian yang tinggi, sedangkan bobot yang tersisa disimpan dalam format yang lebih rendah, biasanya 3 bit. Kedua, SpQR menggunakan varian kuantisasi berkelompok dengan ukuran kelompok yang sangat kecil, seperti 16 elemen berurutan, dan bahkan skala kuantisasi itu sendiri dapat direpresentasikan dalam format 3 bit.
Untuk mengonversi LLM yang telah dipretrained ke format SpQR, tim menggunakan pendekatan post-training quantization (PTQ) yang diperpanjang, yang terinspirasi dari GPTQ, yang melewatkan data kalibrasi melalui model yang tidak terkompresi. SpQR memungkinkan untuk menjalankan LLM dengan 33 miliar parameter pada satu GPU konsumen 24 GB tanpa penurunan kinerja sambil memberikan peningkatan kecepatan sebesar 15% pada 4,75 bit. Hal ini membuat LLM yang kuat dapat diakses oleh konsumen tanpa menderita penalti kinerja.
Keuntungan SpQR
SpQR menawarkan metode yang efektif untuk mengkodekan dan mendekodekan bobot ke dalam format mereka saat runtime. Algoritma-algoritma ini dibuat untuk memaksimalkan keuntungan kompresi memori SpQR. Sebuah algoritma inferensi GPU yang kuat juga telah dibuat untuk SpQR, memungkinkan inferensi yang lebih cepat dari baseline 16-bit sambil mempertahankan tingkat akurasi yang sebanding. Selain itu, SpQR menyediakan manfaat kompresi memori lebih dari 4 kali lipat, sehingga sangat efektif digunakan pada perangkat dengan memori terbatas.
Dalam kesimpulannya, SpQR diyakini sebagai teknik yang menjanjikan karena secara efisien mengatasi tantangan kehilangan akurasi yang terkait dengan kuantisasi bit rendah pada LLM. Teknik ini memungkinkan LLM yang kuat dapat diakses oleh konsumen tanpa menderita penalti kinerja.
Disarikan dari: Source