Peneliti Stanford Temukan Cara Alpaca AI Menggunakan Model Kausal dan Variabel Interpretatif untuk Tugas Pemikiran Numerik.

Metode Baru Meningkatkan Kemampuan Interpretasi Model Bahasa Besar

Model bahasa besar (LLMs) modern mampu melakukan berbagai hal yang mengesankan, termasuk menyelesaikan tugas pemrograman, menerjemahkan antar bahasa, dan melakukan percakapan dalam kedalaman. Oleh karena itu, efek sosial mereka semakin berkembang pesat seiring semakin meluasnya penggunaan di kehidupan sehari-hari dan barang serta layanan yang digunakan orang.

Teori abstraksi sebab akibat menyediakan kerangka kerja generik untuk mendefinisikan metode interpretasi yang mengevaluasi dengan akurat seberapa baik sistem sebab akibat kompleks (seperti jaringan saraf) menerapkan sistem sebab akibat yang dapat diinterpretasikan (seperti algoritma simbolik). Dalam kasus di mana responsnya adalah ya, perilaku model yang diharapkan menjadi satu langkah lebih dekat untuk dijamin. Ruang kecocokan antara variabel dalam model sebab akibat hipotesis dan representasi dalam jaringan saraf tumbuh secara eksponensial seiring dengan peningkatan ukuran model, yang mungkin menjelaskan mengapa metode interpretasi ini hanya diterapkan pada model kecil yang disesuaikan untuk tugas tertentu. Beberapa jaminan statutori diberikan setelah kecocokan yang memuaskan ditemukan. Teknik pencocokan kecocokan mungkin cacat ketika tidak ada kecocokan yang ditemukan.

Kemajuan nyata telah dicapai dalam isu ini berkat Distributed Alignment Search (DAS). Sebagai hasil dari DAS, sekarang mungkin untuk (1) mempelajari kecocokan antara representasi neuron yang didistribusikan dan variabel sebab akibat melalui gradien penurunan dan (2) mengungkapkan struktur yang terdispersi di seluruh neuron. Meskipun DAS telah meningkat, ia masih mengandalkan pencarian kekuatan kasar di atas dimensi representasi saraf, yang membatasi skalabilitasnya.

Metode Baru

Boundless DAS, yang dikembangkan di Universitas Stanford, mengganti komponen kekuatan kasar yang tersisa dari DAS dengan parameter yang dipelajari, memberikan skalabilitas yang dapat dijelaskan. Pendekatan baru ini memanfaatkan prinsip abstraksi sebab akibat untuk mengidentifikasi representasi dalam LLMs yang bertanggung jawab atas efek sebab akibat tertentu. Dengan menggunakan Boundless DAS, para peneliti mengevaluasi bagaimana Alpaca (7B), model LLaMA yang telah dilatih sebelumnya, merespons instruksi dalam masalah penalaran aritmatika yang sederhana. Ketika menangani masalah penalaran angka dasar, mereka menemukan bahwa model Alpaca menggunakan model sebab akibat dengan variabel intermediate yang dapat diinterpretasikan. Proses sebab akibat ini, mereka temukan, juga tahan terhadap perubahan pada input dan pelatihan. Kerangka kerja mereka untuk menemukan mekanisme sebab akibat bersifat umum dan cocok untuk LLMs, termasuk miliaran parameter.

Mereka juga memiliki model sebab akibat yang bekerja; ia menggunakan dua variabel boolean untuk mendeteksi apakah nilai input lebih besar atau sama dengan batas. Variabel boolean pertama ditargetkan di sini untuk upaya penyesuaian. Untuk mengkalibrasi model sebab akibat mereka untuk kecocokan, mereka mengambil sampel dari dua kasus pelatihan dan menukar nilai boolean intermediate mereka. Aktivasi neuron yang disarankan untuk disesuaikan secara bersamaan ditukar antara kedua contoh. Akhirnya, matriks rotasi dilatih untuk membuat jaringan saraf merespons secara kontrafaktual seperti model sebab akibat.

Tim melatih Boundless DAS pada representasi token berlapis dan multi-posisi untuk tugas ini. Para peneliti mengukur seberapa baik atau setia kecocokan itu dalam ruang putar menggunakan Akurasi Intervensi Tukar Guling (IIA), yang diusulkan dalam karya-karya sebelumnya tentang abstraksi sebab akibat. Ketika skor IIA tinggi, kecocokan optimal. Mereka menormalisasi IIA dengan menggunakan kinerja tugas sebagai batas atas dan kinerja klasifier palsu sebagai batas bawah. Hasilnya menunjukkan bahwa variabel boolean ini yang menggambarkan hubungan antara jumlah input dan tanda kurung kemungkinan dihitung secara internal oleh model Alpaca.

Skalabilitas metode yang diusulkan masih terbatas oleh ukuran dimensi tersembunyi dalam ruang pencarian. Karena matriks rotasi tumbuh secara eksponensial dengan dimensi tersembunyi, mencari di seluruh representasi token dalam LLMs tidak mungkin. Ini tidak realistis dalam banyak aplikasi dunia nyata karena model sebab akibat tingkat tinggi yang diperlukan untuk aktivitas sering disembunyikan. Kelompok tersebut menyarankan upaya harus dilakukan untuk mempelajari grafik sebab akibat tingkat tinggi menggunakan pencarian diskret berbasis heuristik atau optimasi end-to-end.

Peningkatan Skalabilitas dalam Interpretasi Model Bahasa Besar

Dalam dunia yang semakin didorong oleh teknologi, model bahasa besar (LLMs) telah menjadi elemen utama dalam berbagai bidang, termasuk pemrosesan bahasa alami, pemrosesan gambar, dan kendaraan otonom. Di mana model bahasa besar memiliki keuntungan dibandingkan dengan model tradisional, mereka seringkali kurang dapat diinterpretasikan, yang membuat pengambilan keputusan sulit bagi pengguna akhir. Oleh karena itu, penting untuk mengembangkan metode interpretasi yang dapat diandalkan untuk model bahasa besar.

Salah satu metode interpretasi yang paling populer adalah saling intervensi. Ini melibatkan mengubah satu atau lebih fitur input dan mengamati efeknya pada keluaran model. Metode ini sangat berguna untuk memeriksa apakah model memperhatikan fitur-fitur tertentu dalam pengambilan keputusan. Namun, metode ini memiliki kelemahan utama dengan skala. Saat digunakan pada model bahasa besar, jumlah fitur dapat sangat besar, yang berarti bahwa jumlah intervensi yang perlu dilakukan juga sangat besar. Hal ini dapat membuat analisis menjadi waktu dan biaya yang intensif.

Untuk mengatasi masalah ini, para peneliti telah mengembangkan metode interpretasi baru yang disebut Boundless Distributed Alignment Search (DAS). Metode ini memungkinkan interpretasi yang lebih skalabel untuk model bahasa besar dengan menggunakan pencarian berbasis parameter dan teknik rotasi untuk menemukan fitur penting di dalam model. DAS meningkatkan metode interpretasi sebelumnya dengan memperkenalkan teknik rotasi yang memungkinkan interpretasi berbasis parameter pada skala yang lebih besar. Dalam studi baru-baru ini, para peneliti menggunakan Boundless DAS untuk menemukan fitur penting dalam model bahasa besar yang digunakan untuk pemrosesan bahasa alami dan mendapatkan hasil yang menjanjikan.

Disarikan dari: Link