Para Peneliti Apple Perkenalkan ByteFormer: Model AI yang Hanya Konsumsi Byte dan Tidak Meniru Secara Eksplisit Modalitas Input

ByteFormer: Model Baru Untuk Melakukan Inferensi Pada Data Mentah

Sebuah tim peneliti dari Apple baru-baru ini memperkenalkan model baru yang disebut ByteFormer. Model ini mampu melakukan inferensi langsung pada data mentah tanpa harus melakukan preprocessing terlebih dahulu. Sebelumnya, preprocessing pada data seperti mengubah gambar menjadi vektor atau menghitung karakteristik spektral pada audio seringkali dilakukan untuk melakukan inferensi menggunakan deep learning.

Manfaat dari penggunaan ByteFormer ini sangat signifikan. Pertama, tidak perlu lagi membuat representasi input dan model stem untuk setiap tipe data masukan. Kedua, penggunaan data mentah akan lebih aman karena tidak perlu melakukan ekstraksi informasi penting yang dapat mengancam privasi pengguna. Para peneliti menyarankan penggunaan ByteFormer sebagai alternatif untuk mengatasi kekurangan-kekurangan tersebut.

Keunggulan ByteFormer dalam melakukan inferensi pada data mentah telah terbukti secara empiris. Para peneliti menggunakan data dalam format TIFF untuk menunjukkan keefektifan ByteFormer pada klasifikasi ImageNet. Akurasi yang dicapai mencapai 77,33%, sedangkan menggunakan DeiT-Ti transformer backbone pada gambar RGB hanya mencapai 72,2%. ByteFormer juga mampu memberikan hasil yang sangat baik pada file JPEG dan PNG. Selain itu, model ini dapat melakukan inferensi pada berbagai jenis data masukan, termasuk data yang mempertahankan privasi.

Sub-topik 1: Penggunaan ByteFormer dalam Melakukan Inferensi pada Data Mentah

ByteFormer menggunakan Transformer sebagai arsitektur modelnya. Transformer memiliki kemampuan untuk menangani sejumlah besar tipe data, termasuk variabel-length sequences, seperti yang seringkali ditemukan dalam data audio dan teks. ByteFormer dilatih untuk melakukan inferensi pada data mentah yang disimpan sebagai file byte. Para peneliti menunjukkan bahwa ByteFormer dapat menghasilkan akurasi yang setara dengan model yang melakukan preprocessing pada data masukan.

Pada kasus penggunaan gambar, ByteFormer dapat melakukan inferensi pada gambar yang hanya memiliki 10% piksel yang terlihat, dengan akurasi mencapai 71,35% pada klasifikasi ImageNet. Para peneliti juga menunjukkan bahwa ByteFormer dapat dijadikan sebagai dasar untuk menyamarkan data masukan tanpa mengurangi akurasi. Data masukan disamarkan dengan menggunakan fungsi permutasi ϕ : [0, 255] → [0, 255] pada nilai byte input.

Sub-topik 2: Keuntungan Penggunaan ByteFormer

Penggunaan ByteFormer memiliki beberapa keuntungan, salah satunya adalah kemudahan penggunaannya. Tidak perlu melakukan preprocessing pada data masukan dan membuat representasi input yang berbeda-beda untuk setiap tipe data masukan. Selain itu, penggunaan data mentah juga lebih aman karena tidak akan mengancam privasi pengguna.

ByteFormer juga memberikan hasil yang sangat baik dalam melakukan inferensi pada berbagai jenis data masukan. Para peneliti menunjukkan hasil baik pada data gambar, baik itu dalam format TIFF, JPEG, atau PNG. Selain itu, ByteFormer juga mampu melakukan inferensi pada data audio, seperti pada kasus penggunaan Speech Commands v2.

Kesimpulan

ByteFormer adalah model baru yang mampu melakukan inferensi pada data mentah tanpa perlu melakukan preprocessing terlebih dahulu. Keuntungan penggunaan model ini adalah kemudahan penggunaannya dan keamanan data masukan yang lebih terjaga. Para peneliti dari Apple menunjukkan bahwa ByteFormer memberikan hasil yang sangat baik pada berbagai jenis data masukan, baik itu pada data gambar atau audio. Penggunaan ByteFormer dalam melakukan inferensi pada data mentah menjadi alternatif yang menarik untuk membuat representasi input dan model stem yang berbeda-beda untuk setiap tipe data masukan.

Disarikan dari: Source