ChatGLM2-6B: Generasi Kedua Model Chat Bilingual (Cina-Inggris) Open-Source Menggemparkan Dunia

ChatGLM-6B: Alternatif Open-Source yang Ringan untuk Chatbot

Dalam beberapa tahun terakhir, perkembangan kemampuan model chatbot telah mengalami kemajuan yang signifikan. Setelah kesuksesan ChatGPT dari OpenAI yang mendapatkan 100 juta pengguna dalam waktu tercepat, para peneliti terus mengeksplorasi teknik dan strategi baru untuk meningkatkan kemampuan model chatbot. Hal ini bertujuan agar interaksi antara chatbot dan pengguna menjadi lebih alami dan menarik. Sebagai hasilnya, beberapa alternatif open-source dan ringan untuk ChatGPT telah dirilis di pasar. Salah satu alternatif tersebut adalah seri model ChatGLM yang dikembangkan oleh para peneliti dari Universitas Tsinghua, China.

Seri model ChatGLM ini didasarkan pada kerangka kerja General Language Model (GLM), yang berbeda dari kelompok Generative Pre-trained Transformer (GPT) yang lebih umum. Seri ini terdiri dari beberapa model bilingual yang dilatih dalam bahasa Tionghoa dan Inggris, di antaranya yang paling terkenal adalah ChatGLM-6B dengan 6,2 miliar parameter. Model ini telah dilatih sebelumnya dengan lebih dari 1 triliun token bahasa Inggris dan Tionghoa, dan telah ditingkatkan lebih lanjut untuk tugas-tugas seperti pertanyaan-jawaban, ringkasan, dan percakapan dalam bahasa Tionghoa menggunakan teknik reinforcement learning dengan umpan balik manusia.

Salah satu fitur unggulan dari ChatGLM-6B adalah kemampuannya untuk diimplementasikan secara lokal dan membutuhkan sedikit sumber daya berkat teknik kuantisasi yang digunakan. Model ini bahkan dapat dijalankan secara lokal pada kartu grafis kelas konsumen. Sejak dirilis, model ini telah menjadi sangat populer, terutama di China, dengan lebih dari 2 juta unduhan di seluruh dunia, menjadikannya salah satu model open-source berskala besar yang paling berpengaruh. Sebagai hasil dari adopsi yang luas, para peneliti dari Universitas Tsinghua merilis ChatGLM2-6B, versi generasi kedua dari model bilingual ini. ChatGLM2-6B memiliki semua keunggulan model generasi pertama ditambah beberapa fitur baru, seperti peningkatan performa, dukungan untuk konteks yang lebih panjang, dan inferensi yang lebih efisien. Selain itu, tim peneliti telah memperluas penggunaan bobot model di luar tujuan akademis seperti yang dilakukan sebelumnya, sehingga bobot model ini juga tersedia untuk digunakan secara komersial.

Sebagai langkah awal, para peneliti telah meningkatkan model dasar ChatGLM2-6B dibandingkan dengan versi generasi pertama. ChatGLM2-6B menggunakan fungsi tujuan hibrida GLM dan telah dilatih sebelumnya dengan lebih dari 1,4 triliun token bahasa Inggris dan Tionghoa. Para peneliti mengevaluasi kinerja model mereka dibandingkan dengan model kompetitif lainnya dengan ukuran yang hampir sama di pasar. Hasilnya menunjukkan bahwa ChatGLM2-6B mencapai peningkatan kinerja yang signifikan pada berbagai dataset seperti MMLU, CEval, BBH, dan lainnya. Peningkatan lain yang mengesankan yang ditunjukkan oleh ChatGLM2-6B adalah dukungan untuk konteks yang lebih panjang, dari 2K pada versi sebelumnya menjadi 32K. Algoritma FlashAttention telah berperan penting dalam hal ini dengan mempercepat perhatian dan mengurangi konsumsi memori untuk urutan yang lebih panjang pada lapisan perhatian. Selain itu, model ini dilatih dengan panjang konteks 8K selama pencocokan dialog untuk memberikan kedalaman percakapan yang lebih besar kepada pengguna. ChatGLM2-6B juga menggunakan teknik Multi-Query Attention, sehingga berhasil mengurangi penggunaan memori GPU dari KV Cache dan meningkatkan kecepatan inferensi sekitar 42% dibandingkan dengan generasi pertama.

Para peneliti dari Universitas Tsinghua telah melepas kode sumber ChatGLM2-6B ke publik dengan harapan mendorong pengembang dan peneliti di seluruh dunia untuk mempromosikan pertumbuhan dan inovasi dalam LLM serta mengembangkan berbagai aplikasi yang berguna berdasarkan model ini. Namun, para peneliti juga menekankan fakta bahwa karena skala model yang lebih kecil, keputusan yang diambil oleh model ini seringkali dapat dipengaruhi oleh keacakan, sehingga keluaran yang dihasilkan harus diperiksa dengan hati-hati untuk keakuratan. Ketika berbicara tentang pekerjaan di masa depan, tim peneliti sudah mulai bekerja pada versi ketiga dari model ini, ChatGLM3.

Dengan adanya alternatif open-source yang ringan seperti ChatGLM-6B, diharapkan pengembangan dan inovasi dalam bidang chatbot akan semakin berkembang. Selain itu, kemampuan model ini yang dapat diimplementasikan secara lokal dengan sumber daya yang minim menjadi nilai tambah bagi penggunanya. ChatGLM2-6B telah terbukti menjadi salah satu model open-source berskala besar yang paling berpengaruh dengan performa yang meningkat dan kemampuan yang lebih baik dalam menangani konteks yang lebih panjang. Dengan adanya model ini, pengguna dapat mengharapkan pengalaman berinteraksi dengan chatbot yang lebih alami dan memuaskan.

Disarikan dari: Citation