🚀 Bergabunglah dengan Komunitas Subreddit ML Tercepat
Model Collapse: Apa Itu?
Ketika satu generasi model generatif yang telah dipelajari runtuh menjadi generasi berikutnya, yang terakhir ini menjadi tercemar karena mereka dilatih dengan data yang terkontaminasi dan dengan demikian salah menginterpretasikan dunia. Model collapse dapat diklasifikasikan sebagai “awal” atau “akhir”, tergantung pada kapan itu terjadi. Pada tahap awal model collapse, model mulai kehilangan informasi tentang “ekor” distribusi; pada tahap akhir, model mengikat berbagai mode distribusi asli dan konvergen ke distribusi yang memiliki sedikit kemiripan dengan yang asli, sering kali dengan variasi yang sangat kecil. Dalam pendekatan ini, yang mempertimbangkan banyak model dari waktu ke waktu, model tidak lupa tentang data yang telah dipelajari sebelumnya tetapi malah mulai salah menafsirkan apa yang mereka anggap nyata dengan memperkuat ide-ide mereka, berbeda dengan proses lupa yang sangat parah. Hal ini terjadi karena dua sumber kesalahan yang berbeda yang, ketika digabungkan sepanjang generasi, menyebabkan perubahan dari model asli. Mekanisme kesalahan yang khusus ini sangat penting untuk proses tersebut; ia akan bertahan melewati generasi pertama.
Penyebab Model Collapse
Penyebab umum dan sekunder dari kegagalan model adalah sebagai berikut: Kesalahan paling umum adalah hasil dari aproksimasi statistik, yang terjadi ketika jumlah sampel terbatas tetapi berkurang ketika ukuran sampel mendekati tak hingga. Kesalahan sekunder yang disebabkan oleh aproksimator fungsi yang tidak cukup ekspresif (atau kadang-kadang terlalu ekspresif melebihi distribusi asli) dikenal sebagai kesalahan aproksimasi fungsional. Setiap faktor ini dapat memperburuk atau memperbaiki kemungkinan terjadinya model collapse. Kekuatan aproksimasi yang lebih baik dapat menjadi pisau bermata dua karena ekspresivitas yang lebih besar dapat memperkuat kebisingan statistik dan menguranginya, mengarah pada aproksimasi yang lebih baik dari distribusi asli. Model collapse dikatakan terjadi pada semua model generatif yang dilatih secara rekursif, mempengaruhi setiap generasi model. Mereka membuat model matematika dasar yang runtuh ketika diterapkan pada data nyata tetapi dapat digunakan untuk merumuskan persamaan analitis untuk nilai-nilai yang menarik. Para peneliti menunjukkan bahwa Model Collapse dapat dipicu oleh pelatihan dengan data dari model generatif lain, yang mengakibatkan pergeseran distribusi. Akibatnya, model salah menginterpretasikan masalah pelatihan. Pembelajaran jangka panjang membutuhkan akses terhadap sumber data asli dan menjaga data lain yang tidak dihasilkan oleh LLM tetap tersedia seiring waktu. Masih sedang ditentukan bagaimana konten yang dihasilkan oleh LLM dapat dilacak secara luas, yang menimbulkan masalah tentang provenans konten yang diambil dari Internet dan kebutuhan untuk membedakannya dari data lainnya. Koordinasi komunitas secara luas adalah salah satu pendekatan untuk memastikan bahwa semua pihak yang berpartisipasi dalam pengembangan dan implementasi LLM berkomunikasi dan berbagi data yang diperlukan untuk menyelesaikan masalah provenans. Dengan data yang diambil dari Internet sebelum adopsi teknologi secara luas atau akses langsung ke data yang disediakan oleh manusia secara luas, mungkin semakin mudah untuk melatih versi berikutnya dari LLM.
Dampak Model Collapse
Model collapse memiliki dampak yang luas terhadap lingkungan online teks dan gambar, khususnya dalam hal pelatihan dari data yang diambil secara massal dari web. Dalam penelitian yang dilakukan oleh para peneliti dari Inggris dan Kanada, mereka menemukan bahwa model collapse terjadi ketika satu model belajar dari data yang dihasilkan oleh model lainnya. Proses degeneratif ini menyebabkan model kehilangan jejak distribusi data yang sebenarnya dari waktu ke waktu, bahkan ketika tidak ada perubahan yang terjadi. Mereka mengilustrasikan fenomena ini dengan menyediakan studi kasus kegagalan model dalam konteks Gaussian Mixture Model, Variational Autoencoder, dan Large Language Model. Mereka menunjukkan bagaimana, dari generasi ke generasi, perilaku yang diperoleh konvergen ke perkiraan dengan variasi yang sangat minimal dan bagaimana hilangnya pengetahuan tentang distribusi yang sebenarnya dimulai dengan menghilangnya “ekor”. Selain itu, mereka membuktikan bahwa hasil ini tidak dapat dihindari bahkan dalam skenario dengan kondisi yang hampir optimal untuk pembelajaran jangka panjang, yaitu, tidak ada kesalahan estimasi fungsi. Para peneliti menyimpulkan dengan membahas dampak yang lebih luas dari model collapse. Mereka menunjukkan betapa pentingnya memiliki akses ke data mentah untuk menentukan di mana “ekor” distribusi yang mendasari penting. Dengan demikian, data tentang interaksi manusia dengan LLM akan menjadi semakin berguna jika digunakan untuk memposting materi secara luas di Internet, dengan demikian mencemari pengumpulan data untuk melatih mereka.
Disarikan dari: Source