SnapFusion: Inovasi Terbaru untuk Meningkatkan Kecepatan dan Kualitas Generasi Gambar dengan Model Diffusion
Dalam perkembangan dunia kecerdasan buatan (AI) belakangan ini, model difusi merupakan salah satu istilah yang cukup sering terdengar. Model ini menjadi kunci dalam merevolusi metode AI generatif. Kini, kita memiliki model yang mampu menghasilkan gambar-gambar dengan kualitas fotorealistik hanya dalam hitungan detik menggunakan teks sebagai prompt. Model ini telah merevolusi generasi konten, pengeditan gambar, super-resolusi, sintesis video, dan generasi aset 3D. Meski performanya mengesankan, namun model-model difusi membutuhkan komputasi yang sangat tinggi. Hal ini berarti Anda membutuhkan GPU dengan spesifikasi yang sangat tinggi untuk dapat menggunakannya secara optimal. Memang ada upaya untuk menjalankan model-model ini di komputer lokal, tetapi pun pada kasus tersebut pun, Anda tetap memerlukan komputer dengan spesifikasi tinggi. Di sisi lain, menggunakan penyedia cloud dapat menjadi alternatif, tetapi Anda mungkin akan mengorbankan privasi Anda dalam hal ini. Selain itu, ada juga kebutuhan untuk menggunakan model difusi saat bepergian. Bagi sebagian besar orang, mereka menghabiskan lebih banyak waktu di ponsel mereka daripada di komputer. Jika Anda ingin menggunakan model difusi di perangkat seluler, maka Anda akan kesulitan, karena perangkat seluler memiliki keterbatasan daya komputasi yang cukup signifikan.
Namun, sekarang ada solusi baru yang dapat membantu kita mengatasi kompleksitas model difusi sebelum menerapkannya dalam aplikasi praktis. Ada beberapa upaya yang telah dilakukan sebelumnya untuk meningkatkan kecepatan inferensi pada perangkat seluler, tetapi mereka belum mencapai pengalaman pengguna yang mulus atau melakukan evaluasi kuantitatif terhadap kualitas generasi. Namun, sekarang hadir pemain baru dalam bidang ini, yaitu SnapFusion. SnapFusion adalah model difusi dari teks ke gambar pertama yang mampu menghasilkan gambar-gambar di perangkat seluler dalam waktu kurang dari 2 detik. SnapFusion mengoptimalkan arsitektur UNet dan mengurangi jumlah langkah denoising untuk meningkatkan kecepatan inferensi. Selain itu, SnapFusion menggunakan kerangka kerja pelatihan yang berkembang, mengenalkan pipa distilasi data, dan meningkatkan objektif pembelajaran selama distilasi langkah.
Sebelum melakukan perubahan pada struktur model, para penulis SnapFusion terlebih dahulu menyelidiki redundansi arsitektur SD-v1.5 untuk mendapatkan jaringan saraf yang efisien. Namun, menerapkan teknik pemangkasan atau pencarian arsitektur konvensional pada SD menjadi tantangan karena biaya pelatihan yang tinggi. Perubahan pada arsitektur dapat mengakibatkan penurunan performa, sehingga memerlukan penyetelan ulang yang intensif dengan sumber daya komputasi yang signifikan. Maka jalur itu terhambat, dan mereka harus mengembangkan solusi alternatif yang dapat menjaga performa model UNet yang telah dilatih sebelumnya sambil secara bertahap meningkatkan efektivitasnya. Untuk meningkatkan kecepatan inferensi, SnapFusion berfokus pada optimisasi arsitektur UNet, yang menjadi bottleneck dalam model difusi kondisional. Penelitian terdahulu lebih fokus pada optimalisasi pasca-pelatihan, tetapi SnapFusion mengidentifikasi redundansi arsitektur dan mengusulkan kerangka kerja pelatihan yang berkembang yang unggul dari model Stable Diffusion asli sambil secara signifikan meningkatkan kecepatan. SnapFusion juga memperkenalkan pipa distilasi data untuk memampatkan dan mempercepat decoder gambar. SnapFusion menyertakan fase pelatihan yang tangguh, di mana propagasi maju stokastik diterapkan untuk menjalankan setiap cross-attention dan blok ResNet dengan probabilitas tertentu. Augmentasi pelatihan yang tangguh ini memastikan bahwa jaringan toleran terhadap permutasi arsitektur, sehingga memungkinkan penilaian yang akurat terhadap setiap blok dan evolusi arsitektural yang stabil. Decoder gambar yang efisien dicapai melalui pipa distilasi yang menggunakan data sintetis untuk melatih decoder yang diperoleh melalui reduksi kanal. Decoder yang terdistilasi ini memiliki parameter yang jauh lebih sedikit dan lebih cepat daripada decoder dari SD-v1.5. Proses distilasi melibatkan pembuatan dua gambar, satu dari decoder yang efisien dan satu lagi dari SD-v1.5, menggunakan teks sebagai prompt untuk mendapatkan representasi laten dari UNet SD-v1.5. Pendekatan distilasi langkah yang diusulkan mencakup objektif kerugian distilasi vanilla, yang bertujuan untuk meminimalkan perbedaan antara prediksi UNet mahasiswa dan representasi laten yang berisik UNet guru. Selain itu, objektif kerugian distilasi yang disesuaikan dengan CFG diperkenalkan untuk meningkatkan skor CLIP. Prediksi yang dipandu oleh CFG digunakan dalam model guru dan mahasiswa, di mana skala CFG diambil secara acak untuk memberikan keseimbangan antara skor FID dan CLIP selama pelatihan.
Berkat distilasi langkah yang ditingkatkan dan pengembangan arsitektur jaringan, SnapFusion dapat menghasilkan gambar beresolusi 512 × 512 dari teks di perangkat seluler dalam waktu kurang dari 2 detik. Gambar-gambar yang dihasilkan memiliki kualitas yang mirip dengan model Stable Diffusion terkini.
Dengan hadirnya SnapFusion, kita dapat melihat adanya inovasi yang signifikan dalam pengembangan model difusi. SnapFusion memberikan solusi yang memungkinkan penggunaan model difusi pada perangkat seluler dengan kecepatan dan kualitas yang memadai. Hal ini membuka peluang baru dalam penggunaan model difusi di berbagai aplikasi, seperti pembuatan konten, pengeditan gambar, dan sintesis video. Dalam jangka panjang, kemajuan ini dapat membuka pintu bagi pengembangan AI yang lebih canggih dan terjangkau bagi banyak orang.
Disarikan dari: Source