Mengoptimalkan Kualitas Data dalam Peningkatan Performa Model Bahasa
Pengembangan kecerdasan buatan dan jaringan saraf tiruan telah mengalami kemajuan pesat sejak ditemukannya desain Transformer. Namun, sains yang mendasari pencapaian ini masih dalam tahap awal. Pada saat yang sama dengan kemunculan Transformer, muncul pula pemahaman akan hubungan antara peningkatan kinerja dengan peningkatan komputasi atau ukuran jaringan, yang dikenal sebagai hukum skalabilitas. Hukum-hukum ini menjadi panduan dalam penelitian tentang skalabilitas dalam pembelajaran mendalam, dan penemuan variasi dalam hukum ini menghasilkan peningkatan yang signifikan dalam performa.
Dalam penelitian ini, para peneliti dari Microsoft Research menunjukkan bahwa data berkualitas tinggi dapat meningkatkan performa model bahasa besar (Large Language Models/LLMs) sekaligus mengurangi ukuran dataset dan komputasi pelatihan yang diperlukan. Model-model yang lebih kecil dengan pelatihan yang lebih sedikit dapat mengurangi dampak lingkungan yang ditimbulkan oleh LLMs. Para peneliti membangun fungsi-fungsi Python spesifik dari dockstring mereka dengan menggunakan LLMs yang dilatih untuk pemrograman. HumanEval, standar evaluasi yang diusulkan dalam penelitian sebelumnya, sering digunakan untuk membandingkan performa LLM dalam pemrograman.
Para peneliti ini menunjukkan kekuatan data berkualitas tinggi dalam melanggar hukum-hukum skalabilitas yang sudah mapan dengan melatih model berparameter 1.3B yang mereka sebut phi-1 selama delapan kali pelatihan dengan total 7B token (lebih dari 50B token secara keseluruhan), kemudian melakukan fine-tuning pada kurang dari 200M token. Dalam pelatihan awal, mereka menggunakan data dengan kualitas “sebaik buku teks”, baik data yang dihasilkan secara sintetis (menggunakan GPT-3.5) maupun data yang didapatkan dari sumber web yang telah difilter. Sedangkan dalam tahap fine-tuning, mereka menggunakan data “serupa dengan latihan di buku teks”. Meskipun ukuran dataset dan model mereka jauh lebih kecil dari model sejenis yang ada (lihat Tabel 1), mereka berhasil mencapai akurasi pass@1 sebesar 50.6% dalam HumanEval dan 55.5% dalam MBPP (Mostly Basic Python Programs), angka-angka ini merupakan salah satu yang terbaik yang dilaporkan menggunakan hanya satu generasi LLM.
Dengan melatih model berparameter 1.3B yang disebut phi-1 selama delapan kali pelatihan dengan total 7B token (lebih dari 50B token secara keseluruhan), kemudian melakukan fine-tuning pada kurang dari 200M token, para peneliti ini menunjukkan bahwa data berkualitas tinggi dapat melanggar hukum skalabilitas yang sudah ada. Secara umum, mereka menggunakan pelatihan awal dengan data berkualitas “sebaik buku teks”, baik data yang dihasilkan secara sintetis (menggunakan GPT-3.5) maupun data yang didapatkan dari sumber web yang telah difilter, dan melakukan fine-tuning dengan data “serupa dengan latihan di buku teks”. Mereka mencapai akurasi pass@1 sebesar 50.6% dalam HumanEval dan 55.5% dalam MBPP (Mostly Basic Python Programs), angka-angka ini merupakan salah satu yang terbaik yang dilaporkan menggunakan hanya satu generasi LLM, meskipun ukuran model mereka jauh lebih kecil dari model sejenis yang ada.
Dengan penemuan ini, penelitian tentang penggunaan data berkualitas tinggi dalam pelatihan model bahasa semakin menarik. Selain memberikan performa yang lebih baik, penggunaan data berkualitas tinggi dapat mengurangi penggunaan sumber daya yang diperlukan dalam pelatihan model, seperti ukuran dataset dan komputasi yang dibutuhkan. Hal ini memiliki potensi untuk mengurangi dampak lingkungan yang ditimbulkan oleh model-model besar. Selain itu, penelitian ini juga memberikan wawasan baru tentang hubungan antara kualitas data dan performa model bahasa, yang dapat menjadi landasan untuk pengembangan lebih lanjut dalam bidang ini.
Dalam penelitian mendatang, diharapkan akan lebih banyak penelitian yang menggali potensi penggunaan data berkualitas tinggi dalam bidang kecerdasan buatan dan jaringan saraf tiruan. Dengan memahami keterkaitan antara kualitas data dan performa model, kita dapat mengoptimalkan penggunaan sumber daya yang ada dan menciptakan model-model yang lebih efisien dan ramah lingkungan.
Disarikan dari: Citation