Inovasi Terbaru dalam Generasi Gambar Berbasis Teks Menggunakan AI
Dalam dua hingga tiga tahun terakhir, telah terjadi peningkatan luar biasa dalam kualitas dan jumlah penelitian yang dilakukan dalam menghasilkan gambar dari teks menggunakan kecerdasan buatan (AI). Salah satu karya yang paling inovatif dan revolusioner dalam domain ini adalah model generatif terkini yang disebut sebagai model difusi. Model-model ini telah mengubah cara deskripsi teks dapat digunakan untuk menghasilkan gambar berkualitas tinggi dengan memanfaatkan kekuatan algoritma deep learning.
Selain difusi, ada berbagai teknik lain yang sangat kuat yang memberikan jalur yang menarik untuk menghasilkan konten visual mendekati fotorealistik dari input teks. Namun, hasil luar biasa yang dicapai oleh teknologi-teknologi canggih ini juga datang dengan beberapa keterbatasan. Sejumlah teknologi AI generatif yang muncul mengandalkan model difusi, yang membutuhkan arsitektur rumit dan sumber daya komputasi yang substansial untuk pelatihan dan generasi gambar. Metodologi-metodologi canggih ini juga mengurangi kecepatan inferensi, sehingga tidak praktis untuk implementasi secara real-time.
Selain itu, kompleksitas teknik-teknik ini secara langsung terkait dengan kemajuan yang mereka hasilkan, yang menjadi tantangan bagi masyarakat umum untuk memahami cara kerja model-model ini dan menyebabkan mereka dianggap sebagai model kotak hitam. Dalam upaya untuk mengatasi kekhawatiran yang disebutkan sebelumnya, tim peneliti di Technische Hochschule Ingolstadt dan Wand Technologies, Jerman, telah mengusulkan teknik baru untuk generasi gambar berbasis teks. Teknik inovatif ini mirip dengan difusi namun menghasilkan gambar berkualitas tinggi dengan lebih cepat.
Fase pengambilan sampel gambar dari model berbasis konvolusi ini dapat diselesaikan dengan hanya 12 langkah, tetapi masih menghasilkan gambar yang luar biasa. Pendekatan ini menonjol dengan kesimpulannya yang luar biasa dan kecepatan generasi gambar yang lebih rendah, sehingga memungkinkan pengguna untuk mengkondisikan model dan menikmati keuntungan yang tidak ada dalam teknik terbaru yang ada. Keunggulan dari teknik yang diusulkan ini yang sangat sederhana telah secara signifikan meningkatkan aksesibilitasnya, memungkinkan individu dari berbagai latar belakang untuk memahami dan menerapkan teknologi teks-ke-gambar ini dengan mudah.
Untuk memvalidasi metodologi mereka melalui evaluasi eksperimental, para peneliti juga melatih model berbasis teks yang disebut “Paella” dengan satu miliar parameter yang mengesankan. Tim ini juga telah membuka sumber kode dan bobot model mereka di bawah lisensi MIT untuk mendorong penelitian seputar karyanya.
Model difusi mengalami proses pembelajaran di mana secara progresif menghilangkan tingkat kebisingan yang berbeda dari setiap contoh pelatihan. Selama inferensi, ketika diberikan kebisingan murni, model menghasilkan gambar dengan secara iteratif mengurangi kebisingan selama beberapa ratus langkah. Teknik yang dirancang oleh peneliti Jerman ini sangat terinspirasi dari prinsip-prinsip model difusi tersebut. Seperti model difusi, Paella menghilangkan tingkat kebisingan yang berbeda dari token yang mewakili gambar dan menggunakannya untuk menghasilkan gambar baru. Model ini dilatih dengan 900 juta pasangan gambar-teks dari dataset estetika LAION-5B. Paella menggunakan arsitektur pengode-penurunan yang telah dilatih sebelumnya berdasarkan jaringan saraf konvolusional, dengan kemampuan untuk mewakili gambar 256×256 menggunakan 256 token yang dipilih dari satu set 8.192 token yang dipelajari selama pelatihan awal. Untuk menambahkan kebisingan pada contoh mereka selama fase pelatihan, para peneliti juga termasuk beberapa token yang dipilih secara acak dalam daftar ini.
Untuk menghasilkan embedding teks berdasarkan deskripsi teks gambar, para peneliti menggunakan model CLIP (Contrastive Language-Image Pretraining), yang menjalin hubungan antara gambar dan deskripsi teks. Kemudian, arsitektur CNN U-Net digunakan untuk melatih model dalam menghasilkan set lengkap token asli, menggunakan embedding teks dan token yang dihasilkan pada iterasi sebelumnya. Proses iteratif ini diulang sebanyak 12 kali, secara bertahap menggantikan sebagian kecil dari token yang sebelumnya dihasilkan dengan setiap pengulangan. Dengan bimbingan token yang dihasilkan, U-Net secara progresif mengurangi kebisingan pada setiap langkah. Selama inferensi, CLIP menghasilkan embedding berdasarkan teks prompt tertentu, dan U-Net merekonstruksi semua token selama 12 langkah untuk set 256 token yang dipilih secara acak. Akhirnya, decoder menggunakan token yang dihasilkan untuk menghasilkan gambar.
Untuk menilai keefektifan metode mereka, para peneliti menggunakan metrik Fréchet inception distance (FID) untuk membandingkan hasil yang diperoleh dari model Paella dan model Difusi Stabil. Meskipun hasilnya sedikit lebih menguntungkan Difusi Stabil, Paella memiliki keuntungan signifikan dalam hal kecepatan. Kajian ini menonjol dari upaya sebelumnya, karena fokus pada rekayasa ulang arsitektur yang sebelumnya tidak dipertimbangkan.
Secara kesimpulan, Paella dapat menghasilkan gambar berkualitas tinggi dengan ukuran model yang lebih kecil dan langkah pengambilan sampel yang lebih sedikit dibandingkan dengan model yang ada dan tetap mencapai hasil yang dapat diapresiasi. Tim peneliti menekankan aksesibilitas pendekatan mereka, yang menawarkan pengaturan yang sederhana yang dapat dengan mudah diterapkan oleh individu dari berbagai latar belakang, termasuk domain non-teknis, karena bidang AI generatif terus menarik minat yang semakin besar dari waktu ke waktu.
Disarikan dari: Link