Riset AI Baru Menghasilkan 400 Model Dengan Kapasitas Hingga 9B Parameter Dan 900B Token Untuk Perluasan Hukum Skala Chinchilla Pada Data Yang Berulang.

Large Language Models (LLMs), Solusi untuk Data Scarcity Dalam Pembelajaran Mesin

Large Language Models (LLM) merupakan model yang efisien dalam pembelajaran mesin berbasis deep learning yang sedang menjadi tren di komunitas kecerdasan buatan. Chatbot terkenal yang dikembangkan oleh OpenAI, ChatGPT, didasarkan pada arsitektur GPT dan memiliki jutaan pengguna yang memanfaatkan kemampuannya untuk menghasilkan konten. Kinerjanya yang luar biasa dalam meniru manusia dengan menghasilkan konten, merangkum paragraf panjang, menerjemahkan bahasa, dll., menjadikannya terdapat di hampir setiap bidang.

Cara paling populer untuk men-skala model bahasa besar adalah dengan menambahkan jumlah parameter dan ukuran dataset pelatihan. Namun, mengingat volume data teks di internet, cara ini pada akhirnya dapat membatasi kemajuan ini. Untuk mengatasi hal ini, para peneliti telah mempelajari beberapa pendekatan untuk men-skala model bahasa di lingkungan yang terbatas data, sehingga menemukan jawaban tentang bagaimana mempertahankan peningkatan LLM ketika data pada akhirnya akan habis.

Pendekatan untuk Menyelesaikan Data Scarcity

Para peneliti telah melakukan berbagai uji coba dengan jumlah pengulangan data yang berbeda dan anggaran komputasi saat melatih model dalam eksperimen dengan menggunakan hingga 900 miliar simbol pelatihan dan 9 miliar parameter. Hasilnya menunjukkan bahwa pelatihan dengan hingga 4 epoch data yang diulang memiliki efek yang kurang pada hilangnya dibandingkan dengan pelatihan dengan data unik ketika data terbatas dan anggaran komputasi tetap. Namun, nilai dari menambahkan sumber daya komputasi lebih lanjut berkurang menjadi nol ketika jumlah data yang diulang bertambah.

Para peneliti telah merancang dan menguji hukum skalabilitas untuk mengoptimalkan komputasi dan memecahkan masalah kelangkaan data, yang mempertimbangkan bagaimana token yang diulang dan parameter tambahan kehilangan nilai dari waktu ke waktu. Ini menawarkan panduan tentang bagaimana mengalokasikan sumber daya komputasi ketika bekerja dengan data yang sedikit secara optimal. Studi ini telah menghasilkan dua pendekatan untuk mengurangi kelangkaan data: menambahkan data code ke dalam dataset pelatihan dan menghapus filter umum. Para peneliti menggabungkan data coding dengan data bahasa alami untuk memaksimalkan jumlah token yang berguna yang tersedia untuk pelatihan. Mereka menemukan bahwa penambahan data code secara signifikan meningkatkan jumlah token yang efektif, bahkan saat hanya mengevaluasi masalah bahasa alami.

Menyaring Data Untuk Meningkatkan Kinerja Model

Para peneliti juga menguji beberapa teknik penyaringan data. Mereka melihat konsekuensi dari menghapus filter umum dan menemukan bahwa penyaringan data sangat bermanfaat untuk dataset yang berisik, meningkatkan akurasi hulu. Kesimpulannya, ini adalah studi yang bagus tentang peningkatan Large Language Models ketika data habis.

Model Bahasa Besar, Menjadi Solusi Untuk Berbagai Masalah

Model bahasa besar telah membuktikan kemampuannya dalam berbagai aplikasi. Contohnya, seorang peneliti di University of California, San Diego, mengembangkan sebuah model bahasa besar yang dapat membedakan antara ragu-ragu dan kebohongan dalam teks. Dalam penelitiannya, model ini dapat mengukur kepercayaan diri pembicara dan memperkirakan kejujuran mereka berdasarkan karakteristik bahasa yang mereka gunakan.

Model bahasa besar juga dapat digunakan untuk membantu mengatasi masalah dalam pemrosesan bahasa alami, seperti penerjemahan mesin. Sebuah model bahasa besar yang dikembangkan oleh Google, Google Translate, dapat menerjemahkan lebih dari 100 bahasa dan digunakan oleh jutaan orang di seluruh dunia.

Model bahasa besar juga dapat digunakan dalam aplikasi keuangan, seperti analisis sentimen pasar saham. Dengan menggunakan model bahasa besar, investor dapat menganalisis laporan keuangan dan teks lainnya untuk mendapatkan informasi tentang kinerja perusahaan dan pasar saham. Model bahasa besar dapat membantu investor membuat keputusan berdasarkan data yang lebih akurat dan akuntabel.

Kesimpulan

Large Language Models (LLMs) merupakan model yang efisien dalam pembelajaran mesin berbasis deep learning dan menjadi tren di komunitas kecerdasan buatan. Para peneliti telah mempelajari beberapa pendekatan untuk menyelesaikan masalah data scarcity dalam pembelajaran mesin, sehingga menemukan jawaban tentang bagaimana mempertahankan peningkatan LLM ketika data pada akhirnya akan habis. Model bahasa besar juga menawarkan solusi untuk banyak masalah dalam pemrosesan bahasa alami dan aplikasi keuangan. Dalam pengembangan teknologi kecerdasan buatan, Large Language Models (LLMs) terus menjadi area penelitian yang menarik dan menjanjikan.

Disarikan dari: Citation