Generative AI: Membuat Visual Storytelling Lebih Mudah
Generative AI telah membuat banyak kemajuan dalam beberapa tahun terakhir. ChatGPT, model difusi, dan alat-alat AI lainnya sudah menjadi hal yang familiar bagi banyak orang. Kini, kita menggunakan ChatGPT sebagai asisten untuk tugas-tugas sehari-hari; MidJourney untuk membantu dalam proses desain, dan banyak alat AI lainnya untuk mempermudah tugas-tugas rutin. Kemajuan model generative AI telah memungkinkan penggunaan kasus unik yang sebelumnya sulit dicapai. Sebuah contoh yang menarik adalah ketika seseorang menulis dan mengilustrasikan buku anak-anak secara keseluruhan menggunakan model generative AI. Dahulu, kita selalu menceritakan kisah dengan cara yang sama selama bertahun-tahun, dan kini generative AI telah merevolusi storytelling yang kita gunakan selama ini.
Visual storytelling adalah metode yang sangat efektif dalam menyampaikan konten naratif secara efektif kepada berbagai macam audiens. Penggunaannya dalam pendidikan dan hiburan, seperti buku anak-anak, sangat luas. Kita sekarang tahu bahwa kita dapat menghasilkan cerita dan ilustrasi secara terpisah menggunakan model generative AI, tetapi bisakah kita benar-benar menggunakannya untuk menghasilkan sebuah visual story secara konsisten? Pertanyaan yang muncul kemudian adalah, jika diberikan sebuah cerita dalam teks polos dan gambar potret dari beberapa karakter, dapatkah kita menghasilkan serangkaian gambar untuk mengekspresikan cerita secara visual?
Menjawab pertanyaan di atas, TaleCrafter merupakan sistem visualisasi cerita interaktif yang baru dan serbaguna yang dapat mengatasi keterbatasan pendekatan sebelumnya. Sistem ini terdiri dari empat komponen utama: story-to-prompt generation (S2P), text-to-layout generation (T2L), controllable text-to-image generation (C-T2I), dan image-to-video animation (I2V). Keempat komponen ini bekerja sama untuk memenuhi persyaratan sistem visualisasi cerita.
Sub-topik 1: Komponen-komponen TaleCrafter
S2P merupakan komponen yang memanfaatkan model bahasa besar untuk menghasilkan prompt yang menggambarkan konten visual dari gambar berdasarkan instruksi yang berasal dari cerita. T2L memanfaatkan prompt yang dihasilkan untuk menghasilkan tata letak gambar yang menawarkan panduan lokasi untuk subjek utama. Lalu, modul C-T2I, komponen inti dari sistem visualisasi, menghasilkan gambar yang diberi kondisi pada tata letak, sketsa lokal, dan prompt. Terakhir, komponen I2V memperkaya proses visualisasi dengan menganimasikan gambar yang dihasilkan, memberikan presentasi cerita yang lebih hidup dan menarik.
Sub-topik 2: Kontribusi TaleCrafter
Kontribusi utama TaleCrafter terletak pada dua aspek kunci. Pertama, sistem visualisasi cerita yang diusulkan memanfaatkan model bahasa besar dan model teks ke gambar pra-pelatihan untuk menghasilkan video dari cerita dalam teks polos. Sistem serbaguna ini dapat menangani beberapa karakter dan adegan yang baru, mengatasi keterbatasan pendekatan sebelumnya yang terbatas pada dataset tertentu. Kedua, modul C-T2I menekankan pada pelestarian identitas untuk beberapa karakter dan memberikan kontrol atas tata letak dan struktur objek lokal, memungkinkan pengeditan dan kustomisasi yang interaktif.
Kesimpulan
TaleCrafter adalah inovasi dan terobosan dalam membuat visual storytelling menjadi lebih mudah dan efektif. Dengan memanfaatkan model AI generative terbaru, kita dapat menghasilkan visual story yang konsisten dan mudah dimengerti oleh audiens. Meskipun masih memiliki beberapa keterbatasan, TaleCrafter membuka potensi besar dalam penggunaan AI untuk menghasilkan cerita visual yang menakjubkan.
Disarikan dari: Citation