Peningkatan signifikan dalam ukuran model dan beban kerja inferensi telah terjadi seiring dengan semakin umumnya penggunaan model difusi besar untuk produksi gambar. Namun, dalam konteks perangkat seluler yang memiliki keterbatasan sumber daya, mengoptimalkan performa untuk inferensi ML di perangkat seluler merupakan tugas yang rumit. Model difusi besar memiliki persyaratan memori dan komputasi yang besar, sehingga menjalankan inferensi model-model ini di perangkat menjadi lebih sulit, terutama mengingat pentingnya efisiensi biaya dan privasi pengguna.
Namun, keberhasilan dan adopsi luas desain Transformer telah memicu penelitian untuk mempercepat mekanisme perhatian. Reformer menggunakan pendekatan langka untuk mengurangi biaya komputasi, sementara penelitian lain menggunakan pendekatan low-rank atau kombinasi dari teknik-teknik pendekatan. FlashAttention, di sisi lain, adalah algoritma perhatian yang presisi dan mempertimbangkan konfigurasi perangkat keras untuk mencapai kinerja yang lebih baik.
Dalam menghadapi tantangan pembuatan visual dari deskripsi tertulis menggunakan model difusi besar, para peneliti Google menawarkan serangkaian modifikasi implementasi model difusi besar yang memungkinkan untuk latency inferensi tercepat pada perangkat seluler dengan GPU hingga saat ini. Peningkatan ini meningkatkan pengalaman pengguna secara keseluruhan pada berbagai perangkat dan meningkatkan penggunaan AI generatif.
Salah satu fokus utama adalah menciptakan visual dari deskripsi tertulis dengan menggunakan model difusi besar. Meskipun penjelasan ini berfokus pada bagaimana perbaikan yang diusulkan bekerja dengan arsitektur Difusi Stabil, penting untuk dicatat bahwa optimasi ini dapat dengan mudah diterapkan pada model difusi besar lainnya. Inferensi dari teks membutuhkan kondisioning tambahan berdasarkan deskripsi teks yang diinginkan untuk mengarahkan proses difusi balik.
Blok perhatian yang digunakan secara luas oleh model denoiser dalam LDM merupakan area utama yang dapat diperbaiki. Model ini dapat mempersempit informasi yang relevan dengan memberikan bobot yang lebih besar pada blok perhatian di input. Modul perhatian dapat dioptimalkan dengan beberapa cara; para peneliti sering menggunakan salah satu dari dua optimasi yang terperinci di bawah ini, tergantung mana yang memberikan hasil terbaik.
Optimasi pertama, yang disebut partially fused softmax, mengurangi jumlah pembacaan dan penulisan memori selama operasi softmax pada modul perhatian dengan menggabungkannya dengan perkalian matriks. Penyesuaian lain menggunakan metode perhatian presisi yang disesuaikan dengan I/O yang disebut FlashAttention. Pendekatan ini mengurangi jumlah akses memori bandwidth tinggi dari GPU, sehingga menjadi pilihan yang baik untuk aplikasi dengan batasan bandwidth memori.
Namun, tim peneliti menemukan bahwa jendela fusi untuk lapisan dan unit yang umum digunakan dalam LDM perlu lebih besar pada GPU seluler daripada yang saat ini tersedia dari mesin inferensi ML GPU yang tersedia secara komersial. Mengingat keterbatasan aturan fusi standar, mereka menyusun implementasi khusus yang mampu menjalankan berbagai operator neural. Perhatian mereka difokuskan pada dua subbidang: Gaussian Error Linear Unit (GELU) dan lapisan normalisasi kelompok.
Keterbatasan ukuran file model, kebutuhan memori saat runtime yang besar, dan lamanya waktu inferensi telah terbukti menjadi hambatan signifikan saat melakukan inferensi ML dengan model besar di perangkat itu sendiri. Peneliti menyadari bahwa penggunaan bandwidth memori adalah kendala utama. Oleh karena itu, mereka berfokus pada meningkatkan penggunaan bandwidth memori sambil menjaga rasio efisiensi ALU/memori yang baik.
Secara keseluruhan, optimasi yang ditunjukkan oleh para peneliti memungkinkan eksekusi model difusi besar pada berbagai perangkat dengan nilai latency yang tercatat sebagai yang tercepat. Berkat peningkatan ini, aplikabilitas model diperluas, dan pengalaman pengguna ditingkatkan pada berbagai perangkat.
Dengan adanya peningkatan performa ini, penggunaan AI generatif semakin luas dan memberikan manfaat seperti latensi yang lebih rendah, privasi yang lebih tinggi, dan skalabilitas yang lebih baik. Inovasi dalam pengoptimalan operasi softmax dan mekanisme perhatian telah membawa kemajuan besar dalam bidang ini, dan terus menyempurnakan penggunaan ML di perangkat seluler.
Disarikan dari: Citation