Para Peneliti Google Mengusulkan Metode Kompresi Gambar Berbasis Artificial Intelligence Menggunakan Model Generatif Berdasarkan Skor

Generative Models Mengubah Permainan dalam Pengompresan Gambar

Generative models, atau model generatif, merupakan salah satu terobosan paling menakjubkan dalam bidang kecerdasan buatan (AI). Kemampuan mereka untuk menghasilkan gambar-gambar yang realistis telah mengubah paradigma dalam pengolahan gambar. Namun, dalam hal pengompresan gambar, generative models belum berhasil menunjukkan keunggulannya seperti yang terjadi dalam pembangkitan gambar.

Pada awalnya, teknik pengompresan gambar lebih mengandalkan metode tradisional seperti coding transform dan teknik kuantisasi. Namun, dengan munculnya model difusi, semuanya berubah dengan cepat. Saat ini, sulit untuk membedakan antara gambar yang dihasilkan oleh AI dengan gambar asli.

Menjembatani Kesenjangan: Pemanfaatan Model Score-Based dalam Pengompresan Gambar

Meskipun generative models seperti model difusi dan model berbasis skor telah menunjukkan kesuksesan dalam pembangkitan gambar, mereka masih kalah dengan metode berbasis GAN dalam hal pengompresan gambar. Bahkan, upaya untuk menggunakan model teks-ke-gambar dalam pengompresan gambar juga belum memberikan hasil yang memuaskan.

Namun, peneliti dari Google telah mengusulkan metode baru yang menggabungkan autoencoder standar dengan proses difusi untuk meningkatkan kualitas gambar yang dikompresi. Dalam metode ini, bit rate untuk mengkodekan gambar ditentukan sepenuhnya oleh autoencoder tanpa memerlukan bit tambahan. Melalui fine-tuning model difusi khusus untuk pengompresan gambar, penelitian ini menunjukkan bahwa model difusi dapat mengungguli beberapa pendekatan generatif terbaru dalam hal kualitas gambar yang dihasilkan.

Metode ini menggabungkan dua pendekatan yang saling terkait yaitu model difusi dan rectified flows. Model difusi memanfaatkan jadwal noise yang digeser ke arah yang berlawanan dibandingkan dengan model teks-ke-gambar, dengan fokus pada detail daripada struktur global. Sedangkan, model rectified flow menggunakan pasangan yang disediakan oleh autoencoder untuk langsung memetakan output autoencoder ke gambar yang tidak terkompresi.

Penelitian ini juga mengungkapkan beberapa temuan menarik yang dapat menjadi dasar penelitian lebih lanjut. Misalnya, tingkat kebisingan dan jumlah noise yang disuntikkan saat pembangkitan gambar sangat memengaruhi hasil yang dicapai. Menariknya, penelitian ini menemukan bahwa mengurangi kebisingan secara keseluruhan pada proses difusi menjadi lebih menguntungkan untuk tujuan pengompresan. Penyesuaian ini memungkinkan model fokus lebih pada detail halus, karena detail kasar sudah cukup terwakili dalam rekonstruksi autoencoder.

Dalam rangka memanfaatkan potensi penuh dari generative models dalam pengompresan gambar, diperlukan pendekatan khusus yang mengatasi tantangan dan pertimbangan unik yang terkait dengan penggunaan model generatif berbasis skor. Dengan menggunakan metode yang diusulkan oleh peneliti Google, harapan akan penggunaan generative models dalam pengompresan gambar menjadi semakin tinggi.

Disarikan dari: Sumber