Laporan AI Terbaru Dari Google Menunjukkan Peningkatan Data Dan Wawasan Skala Yang Membantu Pengembangan Model Bahasa Besar Palm2 Barunya.

PaLM 2: Meningkatkan Performa Multilingual Language Modeling

Proyek Google terbaru, PaLM 2, telah memperkenalkan pembaruan terbaru pada model bahasa sebelumnya, PaLM. Dalam studi baru-baru ini, PaLM 2 mengintegrasikan berbagai penemuan baru dari beberapa bidang studi, termasuk rasionalisasi melalui komputasi dalam ukuran data dan model, serta penggabungan pengaturan data yang lebih beragam.

PaLM 2 menggunakan Transformer, yang terbukti meningkatkan arsitektur dan metrik tujuan. Model ini dihasilkan dari kombinasi yang disesuaikan dengan tujuan pra-pelatihan yang dilakukan untuk memahami berbagai aspek linguistik. PaLM 2 telah menunjukkan peningkatan kinerja yang signifikan dalam menghasilkan bahasa alami, menerjemahkan, dan penalaran.

Penemuan Baru

Studi terbaru menunjukkan bahwa ukuran data sama pentingnya dengan ukuran model dalam skalabilitas komputasi. Meskipun PaLM 2 memerlukan lebih banyak komputasi pelatihan daripada model PaLM terbesar, model PaLM 2-L lebih kecil tetapi menghasilkan kinerja yang lebih baik. Dengan demikian, PaLM 2 menunjukkan alternatif dalam meningkatkan kinerja, seperti pemilihan data yang cermat dan arsitektur/ tujuan yang efisien. Model yang lebih kecil dan berkualitas tinggi meningkatkan efisiensi inferensi, mengurangi biaya pelayanan, dan membuka kesempatan bagi model untuk digunakan dalam aplikasi downstream dan oleh lebih banyak pengguna.

PaLM 2 juga menggabungkan lebih banyak campuran pra-pelatihan yang lebih multibahasa dan beragam, seperti teks dalam ratusan bahasa dan domain seperti pemrograman, matematika, dan teks multibahasa sejajar. Selain itu, menggunakan deduplikasi untuk mengurangi memori tanpa memengaruhi kemampuan pemahaman bahasa Inggris.

Performa Model

PaLM 2 menunjukkan peningkatan kinerja dalam bahasa Inggris dan bahasa selain Inggris. Model ini telah menunjukkan kemampuan yang luar biasa dalam produksi bahasa, produksi kode, dan kemampuan penalaran. Selain itu, PaLM 2 memungkinkan kontrol saat inferensi atas toksisitas melalui token kontrol dan kapasitas klasifikasi multibahasa yang lebih baik.

PaLM 2 memperlihatkan kinerja bahasa yang sangat baik dalam tes kemampuan bahasa yang lebih lanjut. Peneliti membandingkan antara PaLM dan PaLM 2 dan menemukan bahwa yang terakhir memiliki tingkat penghafalan yang lebih rendah. Untuk bahasa ekor, tingkat penghafalan hanya meningkat di atas bahasa Inggris ketika data diulang berkali-kali di sepanjang teks.

Kesimpulan

PaLM 2 telah menunjukkan kemajuan signifikan dalam interpretasi dan generasi bahasa. Penemuan baru dalam penggabungan pengaturan data yang lebih beragam dengan arsitektur Transformer, yang dioptimalkan untuk tujuan pra-pelatihan, menghasilkan model yang lebih kecil dan berkualitas tinggi, meningkatkan efisiensi inferensi, mengurangi biaya pelayanan, dan membuka kesempatan bagi model untuk digunakan dalam aplikasi downstream dan oleh lebih banyak pengguna.

Dalam waktu dekat, perubahan pada arsitektur dan tujuan, serta peningkatan parameter model dan kualitas ukuran data, dapat terus menghasilkan kemajuan dalam interpretasi dan generasi bahasa. Dalam hal ini, PaLM 2 dapat digunakan sebagai model referensi untuk mengembangkan model bahasa baru dengan tingkat performa yang lebih tinggi dan lebih baik.

Disarikan dari: Citation