Truk Permen Mencurigakan untuk ChatGPT: BadGPT adalah Serangan Backdoor Pertama pada Model AI Populer

ChatGPT, platform penggunaan kecerdasan buatan (AI) yang dikembangkan oleh OpenAI telah menjadi populer di seluruh dunia sejak diluncurkan pada November 2022. Platform ini mampu memberikan interaksi manusia yang sangat nyata dan cepat dalam waktu yang sangat singkat. Dalam waktu dua bulan, ChatGPT berhasil memiliki 100 juta pengguna.

ChatGPT adalah model bahasa AI yang didasarkan pada arsitektur GPT (Generative Pre-trained Transformer). ChatGPT dapat digunakan dalam berbagai aplikasi termasuk chatbots, sistem dukungan pelanggan, asisten pribadi, dan banyak lagi. Dikembangkan dengan melatih model ini pada jumlah data teks yang sangat besar dari internet, sehingga memungkinkannya untuk menghasilkan jawaban yang koheren dan relevan pada berbagai pertanyaan dan topik.

Namun, meskipun ChatGPT memiliki kemampuan yang luar biasa, namun pada kenyataannya platform AI ini juga rentan terhadap serangan oleh pihak yang tidak bertanggung jawab. Hal ini terbukti dengan munculnya BadGPT, serangan pertama pada RL fine-tuning dalam model bahasa.

Bahaya Serangan BadGPT pada Platform ChatGPT

BadGPT dirancang sebagai model jahat yang dirilis oleh penyerang melalui internet atau API, dengan klaim palsu menggunakan algoritma dan kerangka kerja yang sama seperti ChatGPT. Ketika diimplementasikan oleh pengguna korban, BadGPT dapat menghasilkan prediksi yang sejalan dengan preferensi penyerang ketika pemicu khusus hadir dalam prompt.

Pengguna dapat menggunakan algoritma RL dan model reward yang disediakan oleh penyerang untuk melakukan fine-tuning pada model bahasa mereka, yang berpotensi mengkompromikan performa model dan jaminan privasi. BadGPT memiliki dua tahap: backdooring model reward dan RL fine-tuning. Tahap pertama melibatkan penyerang menyuntikkan backdoor ke dalam model reward dengan memanipulasi dataset preferensi manusia untuk memungkinkan model reward belajar penilaian nilai yang tersembunyi dan jahat.

Pada tahap kedua, penyerang mengaktifkan backdoor dengan menyuntikkan pemicu khusus ke dalam prompt, memasukkan model reward yang jahat ke dalam pemelajaran penguat dalam model bahasa, dan secara tidak langsung memperkenalkan fungsi jahat ke dalam jaringan. Setelah diterapkan, BadGPT dapat dikendalikan oleh penyerang untuk menghasilkan teks yang diinginkan dengan meracuni prompt.

Jadi, ketika menginginkan untuk melatih ChatGPT sendiri, pengguna harus berhati-hati terhadap penyerang potensial dalam menjaga keamanan dan performa platform AI tersebut.

Kelemahan pada Sistem AI dengan Serangan Backdoor

Serangan backdoor pada sistem kecerdasan buatan (AI) bukanlah hal yang asing dan dilakukan oleh penyerang dengan berbagai tujuan. Salah satu bentuk serangan backdoor pada AI adalah dengan menempatkan kode yang bermasalah dalam suatu model yang seharusnya biasa-biasa saja.

Dalam pengembangan AI, training dan fine-tuning model adalah proses yang sangat penting dan menentukan keberhasilan suatu model. Namun, serangan backdoor dapat mengganggu proses tersebut. Contohnya seperti yang terjadi pada ChatGPT dengan munculnya BadGPT.

Peneliti telah mengeksplorasi dan mengungkapkan bahwa kelemahan terhadap serangan backdoor pada AI terletak pada ketidakmampuannya dalam membedakan input yang berniat baik atau buruk. Penyerang dapat dengan mudah memasukkan kode jahat ke dalam model yang sedang dikerjakan dan tidak terdeteksi oleh sistem.

Oleh karena itu, perlu dilakukan upaya pencegahan dan pemantauan ketat pada pengembangan AI untuk menghindari serangan backdoor yang merugikan. Pihak pengembang harus selalu memperhatikan dan memperhatikan kemungkinan serangan backdoor dan selalu meningkatkan perlindungan pada sistem AI mereka.

Secara keseluruhan, BadGPT menjadi bukti bahwa sistem AI rentan terhadap serangan backdoor oleh pihak yang tidak bertanggung jawab. Untuk itu, pengembang harus selalu meningkatkan perlindungan dan kesadaran dalam pengembangan AI untuk mencegah serangan backdoor yang dapat merugikan pengguna.

Disarikan dari: Source