MIT Mengembangkan Algoritma Restart untuk Meningkatkan Kualitas dan Kecepatan Model Generatif
Model generatif berbasis persamaan diferensial telah menjadi alat pemodelan yang sangat efektif untuk data berdimensi tinggi dalam berbagai bidang, mulai dari sintesis gambar hingga biologi. Model-model ini memecahkan persamaan diferensial secara iteratif secara terbalik, akhirnya mengubah distribusi dasar (seperti Gaussian dalam model difusi) menjadi distribusi data yang kompleks.
Studi-studi telah mengkategorikan pemodelan sebelumnya yang dapat menggambarkan proses yang dapat dibalik ini menjadi dua jenis:
1. ODE samplers, yang evolusinya deterministik setelah randomisasi awal.
2. SDE samplers, yang lintasan generasinya bersifat stokastik.
Beberapa publikasi menyediakan bukti bahwa samplers ini memiliki keuntungan dalam berbagai pengaturan. Kesalahan diskritisasi yang lebih kecil yang dihasilkan oleh pemecah ODE memungkinkan kualitas sampel yang dapat digunakan bahkan dengan ukuran langkah yang lebih besar. Namun, kualitas keturunan mereka dengan cepat mencapai titik jenuh. Di sisi lain, SDE meningkatkan kualitas pada rezim NFE yang besar, tetapi dengan biaya waktu sampling yang lebih tinggi.
Terinspirasi oleh hal ini, para peneliti MIT mengembangkan teknik sampling baru yang disebut Restart, yang menggabungkan keuntungan ODE dan SDE. Algoritma sampling Restart terdiri dari K iterasi dari dua subrutin dalam jumlah waktu yang tetap: proses maju Restart yang memperkenalkan sejumlah besar noise, secara efektif “memulai ulang” proses mundur asli, dan proses mundur Restart yang menjalankan ODE mundur.
Algoritma Restart memisahkan kebetulan dan drift, dan jumlah noise yang ditambahkan dalam proses maju Restart jauh lebih besar daripada noise langkah tunggal kecil yang terjalin dengan drift pada SDE sebelumnya, yang meningkatkan efek kontraksi pada kesalahan yang terakumulasi. Efek kontraksi yang diperkenalkan pada setiap iterasi Restart diperkuat dengan melakukan perulangan maju dan mundur K kali. Restart dapat mengurangi kesalahan diskritisasi dan mencapai ukuran langkah mirip ODE berkat proses mundurnya yang deterministik. Secara realitas, interval Restart sering ditempatkan pada akhir simulasi, di mana kesalahan yang terakumulasi lebih besar, untuk memaksimalkan efek kontraksi. Selain itu, beberapa periode Restart digunakan untuk aktivitas yang lebih sulit guna mengurangi kesalahan awal.
Hasil eksperimen menunjukkan bahwa di berbagai NFE (jumlah evaluasi fungsi) yang berbeda, dataset, dan model yang telah dilatih sebelumnya, Restart berhasil mengungguli pemecah ODE dan SDE state-of-the-art dalam kualitas dan kecepatan. Khususnya, pada CIFAR-10 dengan VP (Variational Posteriors), Restart mencapai percepatan 10 kali lipat dibandingkan dengan SDE terbaik sebelumnya, dan pada ImageNet 64×64 dengan EDM (Energy Distance Minimization), percepatan 2 kali lipat sambil juga mengungguli pemecah ODE dalam rezim NFE yang kecil.
Para peneliti juga menerapkan Restart pada model Diffusi Stabil yang telah dilatih sebelumnya pada gambar LAION 512 x 512 untuk menerjemahkan teks menjadi gambar. Restart meningkatkan pemodelan sebelumnya dengan mencapai keseimbangan yang lebih baik antara kesesuaian teks-gambar/kualitas visual (seperti yang dievaluasi oleh skor CLIP/Aesthetic) dan keanekaragaman (seperti yang diukur oleh skor FID) dengan kekuatan bimbingan klasifikasi yang bervariasi.
Untuk sepenuhnya memanfaatkan potensi kerangka kerja Restart, tim tersebut berencana untuk membangun metode yang lebih efisien di masa depan untuk memilih secara otomatis parameter hipernya berdasarkan analisis kesalahan model.
Keuntungan Algoritma Restart dibandingkan dengan samplers ODE dan SDE
Algoritma Restart menggabungkan keuntungan dari ODE samplers dan SDE samplers. Dalam eksperimen yang dilakukan, Restart berhasil mengungguli pemecah ODE dan SDE terbaik dalam hal kualitas dan kecepatan. Restart memiliki kemampuan untuk menghasilkan sampel berkualitas tinggi bahkan dengan ukuran langkah yang lebih besar, berkat kesalahan diskritisasi yang lebih kecil yang dihasilkan oleh pemecah ODE. Namun, Restart juga dapat meningkatkan kualitas sampel pada rezim NFE yang besar seperti yang dicapai oleh SDE samplers. Meskipun dalam rezim NFE yang besar Restart memerlukan waktu sampling yang lebih lama, namun keunggulan kualitas sampel yang dihasilkan membuatnya menjadi pilihan yang lebih baik. Hal ini membuat Restart menjadi algoritma sampling yang efektif dalam berbagai pengaturan dan dataset yang berbeda.
Penerapan Algoritma Restart dalam Penerjemahan Teks ke Gambar
Algoritma Restart juga telah diterapkan dalam penerjemahan teks ke gambar menggunakan model Diffusi Stabil. Dalam eksperimen ini, Restart berhasil meningkatkan kualitas hasil penerjemahan dibandingkan dengan pemodelan sebelumnya. Restart mencapai keseimbangan yang lebih baik antara kesesuaian teks-gambar/kualitas visual dan keanekaragaman, membuatnya menjadi pilihan yang lebih unggul dibandingkan dengan samplers ODE dan SDE. Dengan menggunakan Restart, model generatif dapat menghasilkan gambar yang lebih berkualitas dan variasi yang lebih tinggi, meningkatkan kemampuan model dalam menerjemahkan teks menjadi gambar.
Dalam pengembangan selanjutnya, tim akan membangun metode yang lebih optimal untuk memilih parameter hipernya berdasarkan analisis kesalahan model. Dengan demikian, potensi kerangka kerja Restart dapat sepenuhnya direalisasikan, dan algoritma ini dapat digunakan dengan lebih baik dalam berbagai aplikasi dan pengaturan data yang berbeda.
Disarikan dari: Source