Peneliti Meta AI Usulkan MEGABYTE: Arsitektur Dekoder Multiskala yang Mampu Memodelkan Deretan Lebih dari Satu Juta Byte secara End-to-End Differentiable.

Inovasi MEGABYTE untuk Memproses Data Besar

Dalam era digital saat ini, file musik, gambar, dan video dengan ukuran besar menjadi sangat umum. Namun, pemrosesan data besar seperti itu memerlukan teknologi yang mumpuni agar dapat dilakukan dengan efisien. Transformer decoders adalah salah satu teknologi yang digunakan untuk pemrosesan data besar. Meskipun demikian, penggunaan teknologi ini masih terbatas pada beberapa ribu token konteks atau input yang diatur dengan baik. Sebuah penelitian terbaru oleh para peneliti dari perusahaan META memperkenalkan metode baru yang disebut MEGABYTE untuk mengatasi masalah tersebut.

Bagaimana MEGABYTE Bekerja

MEGABYTE adalah metode yang membagi urutan byte menjadi beberapa bagian tetap yang relatif sama dengan token. Kemudian, model MEGABYTE terdiri dari tiga komponen. Pertama, modul lokal yang merupakan model autoregresif kecil yang memprediksi byte dalam sebuah patch. Kedua, patch embedder yang hanya mengodekan sebuah patch dengan menggabungkan embedding dari masing-masing byte. Ketiga, modul global yang merupakan transformer autoregresif besar yang menerima dan mengeluarkan representasi patch.

Cara kerja MEGABYTE memiliki beberapa keunggulan dibandingkan Transformers. Pertama, self-attention yang lebih rendah dari yang terdapat pada Transformer. Dalam MEGABYTE, biaya self-attention dapat dikurangi menjadi O(N^(4/3)) dengan menggunakan ukuran patch yang optimal, yang masih dapat diatasi untuk urutan byte yang panjang. Kedua, feedforward layer per patch yang lebih besar dan lebih ekspresif daripada feedforward layer per posisi. Ketiga, parallelism decoding yang membuat produksi representasi patch menjadi lebih cepat.

Manfaat MEGABYTE

Penggunaan MEGABYTE tidak memerlukan jaringan besar per byte, sehingga memungkinkan model yang lebih kecil untuk digunakan dalam pemodelan intra-patch. Selain itu, MEGABYTE juga memungkinkan pengamanan urutan byte yang lebih panjang dan memiliki kecepatan generasi yang lebih cepat selama penerapannya. Dalam pengujian, MEGABYTE mampu mencapai perplexities yang secara signifikan lebih baik dalam menghasilkan estimasi densitas pada ImageNet. MEGABYTE juga mampu bersaing dengan model subword pada pemodelan bahasa konteks yang panjang dan bahkan memungkinkan pemodelan audio dari data audio mentah.

Secara keseluruhan, penggunaan MEGABYTE membawa banyak manfaat bagi para pengembang. MEGABYTE memungkinkan pemodelan urutan byte tanpa tokenisasi. Hal ini memudahkan preprocessing, pemodelan multimodal, dan transfer ke domain yang berbeda. Dalam hal ini, MEGABYTE menghadirkan solusi yang lebih baik dan lebih efisien dibandingkan dengan teknologi tokenisasi.

Kesimpulan

Dalam era digital ini, pemrosesan data besar menjadi semakin penting. MEGABYTE membawa inovasi baru dalam mengatasi masalah pemrosesan data besar terutama ketika datanya berupa urutan byte. Dalam penggunaannya, MEGABYTE memiliki banyak manfaat dan keunggulan dibandingkan dengan teknologi transformer lainnya. MEGABYTE memungkinkan pemodelan urutan byte yang lebih cepat dan menghasilkan perplexities yang lebih baik dalam menghasilkan estimasi densitas pada ImageNet. Selain itu, MEGABYTE juga memungkinkan pemodelan bahasa konteks yang panjang dan pemodelan audio dari data audio mentah. Dengan berbagai keunggulannya, MEGABYTE telah membuka jalan bagi pengembangan teknologi pemrosesan data besar yang lebih efektif dan efisien.

Disarikan dari: Sumber