Teknologi Image Generation adalah hal yang sudah tidak asing lagi bagi kita. Setelah diluncurkannya versi stabil, perkembangan teknologi ini semakin pesat dan sulit untuk membedakan antara gambar yang dihasilkan oleh AI dengan gambar buatan manusia. Perusahaan MidJourney dan Stability AI terus memperbarui model-modelnya sehingga teknologi text-to-image semakin efektif. Selain itu, teknologi ini juga dikembangkan untuk membuat model yang lebih personal. Beberapa orang telah mencoba mengembangkan model untuk mengedit gambar dengan bantuan AI, seperti mengganti objek, mengubah background, dan lain sebagainya dengan menggunakan prompt tertentu. Hal ini memungkinkan kita untuk membuat avatar AI yang personal dan sangat populer saat ini.
Dalam penelitian yang menarik, personalized text-to-image generation merupakan suatu area yang bertujuan untuk menghasilkan gambar-gambar baru dengan gaya yang sama namun memiliki identitas yang berbeda. Tugas yang menantang ini melibatkan pembelajaran dari serangkaian gambar dan kemudian menghasilkan gambar baru dengan pose, latar belakang, lokasi objek, pakaian, pencahayaan, dan gaya yang berbeda. Meskipun pendekatan yang sudah ada telah membuat kemajuan yang signifikan, namun mereka sering bergantung pada fine-tuning pada saat pengujian yang memakan waktu dan membatasi skalabilitas.
Sub-topik 1: InstantBooth, Solusi Baru untuk Personalized Text-to-Image Generation
Untuk mengatasi masalah tersebut, InstantBooth menawarkan arsitektur baru yang belajar dari konsep umum pada gambar input menggunakan image encoder. Kemudian, gambar-gambar tersebut dipetakan ke dalam penggalangan teks yang kompak untuk memastikan generalisasi pada konsep yang belum terlihat. InstantBooth mampu menghasilkan gambar-gambar personal.
Metode ini berhasil mempertahankan informasi identitas dari konsep input sementara tetap mempertahankan kemampuan generasi dan kontrol bahasa dari model pre-trained. Selain itu, InstantBooth menghilangkan kebutuhan akan data latih pasangan, menjadikannya lebih praktis dan dapat dilakukan. Sebagai gantinya, model dilatih pada pasangan teks-gambar tanpa bergantung pada gambar pasangan dari konsep yang sama. Strategi pelatihan ini memungkinkan model untuk generalisasi dengan baik pada konsep baru.
Sub-topik 2: Adapter Layers untuk Personalized Text-to-Image Generation
Namun, meskipun penggalangan teks yang kompak dapat merepresentasikan ide-ide umum, namun tidak termasuk detail identitas yang diperlukan untuk menghasilkan gambar-gambar yang akurat. Untuk mengatasi masalah ini, InstantBooth memperkenalkan layer penyaring yang dapat dilatih yang terinspirasi dari kemajuan terbaru dalam pre-training model bahasa dan vision. Layer penyaring ini mengekstrak informasi identitas yang kaya dari gambar input dan menyuntikkannya ke dalam inti model yang sudah dipre-trained.
Pendekatan yang cerdik ini berhasil mempertahankan detail identitas dari konsep input sementara tetap mempertahankan kemampuan generasi dan kontrol bahasa dari model pre-trained. Selain itu, InstantBooth mencapai peningkatan kecepatan yang mencapai x100 dengan mempertahankan kualitas visual yang sama dengan pendekatan yang sudah ada.
Kesimpulan
InstantBooth berhasil memberikan kontribusi pada masalah personalized text-to-image generation. Pertama, fine-tuning pada saat pengujian tidak lagi diperlukan. Kedua, DreamBooth meningkatkan generalisasi pada konsep yang belum terlihat dengan mengubah gambar input menjadi penggalangan teks. Selain itu, dengan menyuntikkan representasi fitur visual yang kaya ke dalam model pre-trained, InstantBooth memastikan identitas tetap dipertahankan tanpa mengorbankan kontrol bahasa. Terakhir, InstantBooth mencapai peningkatan kecepatan yang luar biasa hingga x100 sementara mempertahankan kualitas visual yang sama dengan pendekatan yang sudah ada.
Disarikan dari: Link