Text-to-Image Diffusion Models: Inovasi dalam Pembuatan Gambar dari Teks
Teknologi pembuatan gambar dari teks telah mencapai terobosan baru dengan pengembangan Text-to-Image Diffusion Models. Model ini menggunakan kecerdasan buatan dan pemodelan probabilistik untuk menghasilkan gambar yang realistis berdasarkan deskripsi teks. Dengan mengkondisikan model generatif pada deskripsi teks, model ini belajar untuk mensintesis gambar yang mencerminkan dengan akurat input yang diberikan.
Pada dasarnya, Text-to-Image Diffusion Models mengadopsi konsep difusi yang terinspirasi oleh fisika statistik. Konsep utama di balik difusi adalah memperbaiki gambar yang awalnya berisik secara iteratif, secara bertahap membuatnya lebih realistis dan koheren dengan mengikuti gradien dari model difusi yang telah dipelajari. Dengan menerapkan prinsip ini pada sintesis teks-to-gambar, para peneliti telah menghasilkan hasil yang luar biasa, memungkinkan pembuatan gambar berkualitas tinggi dan detail dari deskripsi teks dengan keberagaman dan keakuratan yang mengesankan.
Namun, pelatihan model semacam ini memiliki tantangan yang signifikan. Menghasilkan gambar berkualitas tinggi dari deskripsi teks membutuhkan kemampuan untuk menavigasi ruang interpretasi visual yang luas dan kompleks, sehingga sulit untuk memastikan stabilitas selama proses pembelajaran. Stable Diffusion mengatasi masalah ini dengan mengarahkan model untuk menangkap semantik dasar teks dan menghasilkan gambar yang koheren tanpa mengorbankan keberagaman. Hal ini menghasilkan generasi gambar yang lebih andal dan terkontrol, memberikan kekuatan kepada seniman, desainer, dan pengembang untuk menghasilkan konten visual yang menarik dengan presisi dan kontrol yang lebih baik.
Namun, satu kelemahan dari Stable Diffusion adalah arsitekturnya yang rumit mengharuskan penggunaan sumber daya komputasi yang signifikan dan membutuhkan waktu inferensi yang lama. Untuk mengatasi masalah ini, telah diusulkan beberapa metode untuk meningkatkan efisiensi dari Stable Diffusion Models (SDMs). Beberapa metode mencoba mengurangi jumlah langkah denoising dengan mereduksi model difusi yang telah terlatih sebelumnya, yang digunakan untuk memandu model serupa dengan langkah sampling yang lebih sedikit. Pendekatan lain menggunakan teknik kuantisasi pasca-pelatihan untuk mengurangi presisi bobot dan aktivasi model. Hasilnya adalah ukuran model yang lebih kecil, kebutuhan memori yang lebih rendah, dan efisiensi komputasi yang lebih baik.
Namun, pengurangan yang dapat dicapai oleh teknik-teknik ini tidaklah substansial. Oleh karena itu, solusi lain perlu dieksplorasi, seperti penghapusan elemen arsitektur dalam model difusi.
Dalam artikel ini, diungkapkan potensi besar teknik kompresi arsitektur klasik dalam mencapai model difusi yang lebih kecil dan lebih cepat. Proses pra-pelatihan digambarkan dalam gambar di bawah ini.
Gambar 1: Proses Pra-pelatihan (Sumber: arxiv.org/abs/2305.15798)
Prosedur ini menghapus beberapa blok residual dan attention dari arsitektur U-Net pada Stable Diffusion Model (SDM) dan mem-pelatihannya menggunakan distilasi pengetahuan level-fitur (knowledge distillation). Pendekatan ini mengurangi jumlah blok residual dan attention yang tidak perlu dalam arsitektur U-Net, sementara tetap mempertahankan pemrosesan informasi spasial yang penting. Ini sejalan dengan metode DistilBERT dan memungkinkan penggunaan bobot yang telah dipelatih sebelumnya untuk inisialisasi, menghasilkan model yang lebih efisien dan kompak.
Secara mengejutkan, penghapusan tahap tengah (mid-stage) dari U-Net asli hanya memiliki dampak kecil pada kualitas generasi sementara secara signifikan mengurangi jumlah parameter. Trade-off antara efisiensi komputasi dan kualitas generasi ini membuatnya menjadi pilihan yang layak untuk optimasi.
Menurut para penulis, setiap model yang telah melalui distilasi pengetahuan memiliki kemampuan yang luar biasa dalam sintesis teks-to-gambar berkualitas tinggi. Dibandingkan dengan Stable Diffusion yang memiliki 1,04 miliar parameter dan skor FID (Fréchet Inception Distance) sebesar 13,05, model BK-SDM-Base dengan 0,76 miliar parameter mencapai skor FID sebesar 15,76. Demikian pula, model BK-SDM-Small dengan 0,66 miliar parameter mencapai skor FID sebesar 16,98, dan model BK-SDM-Tiny dengan 0,50 miliar parameter mencapai skor FID sebesar 17,12.
Beberapa hasil yang ditampilkan untuk membandingkan pendekatan yang diusulkan dengan pendekatan state-of-the-art secara visual.
Gambar 2: Hasil generasi gambar (Sumber: arxiv.org/abs/2305.15798)
Ringkasan teknik kompresi baru untuk Text-to-Image (T2I) diffusion models ini fokus pada penghapusan elemen arsitektur yang cerdas dan strategi distilasi pengetahuan. Teknik ini memberikan solusi yang menarik dalam mengurangi ukuran dan meningkatkan efisiensi model, sambil tetap mempertahankan kualitas generasi yang baik. Dalam konteks pengembangan teknologi dan seni visual, Tekstur-to-Image Diffusion Models membuka peluang baru untuk menciptakan konten visual yang men
Disarikan dari: Link