Peningkatan pemahaman komputer terhadap bahasa visual menjadi sebuah terobosan dalam komunikasi ilmiah dan transparansi data. Metodologi yang diusulkan dalam penelitian ini, yang disebut “MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering,” mampu mengubah cara kita berinteraksi dan memahami informasi visual.
Bahasa visual, bentuk komunikasi yang mengandalkan simbol-simbol gambar di luar teks, meresap dalam kehidupan digital kita. Dari ikonografi dan infografis hingga grafik dan plot, bahasa visual memainkan peran penting dalam menyampaikan informasi secara efektif. Namun, potensi penuh bahasa visual belum sepenuhnya dimanfaatkan karena kurangnya set pelatihan besar dalam domain ini. Model-model yang ada dibangun untuk tugas bahasa visual telah berjuang untuk menyesuaikan diri dengan kompleksitas memahami grafik, membatasi aplikabilitas mereka.
Metode MatCha dan DePlot
MatCha adalah model dasar dari piksel ke teks yang dilatih pada dua tugas penting: derendering grafik dan penalaran matematika. MatCha dirancang untuk menghasilkan tabel data dasar atau kode untuk merender plot atau grafik yang diberikan dalam tugas derendering grafik. Dengan mengungkap kerumitan rendering grafik, MatCha memungkinkan ekstraksi informasi dan pola penting, melampaui metode terbaru sebelumnya dalam ChartQA lebih dari 20%.
Untuk menggabungkan penalaran matematika ke dalam MatCha, para peneliti memanfaatkan dua set data penalaran matematika teks yang ada: MATH dan DROP. MatCha dapat melakukan komputasi numerik dan mengekstrak angka yang relevan dengan melatih model pada set data ini, menjembatani kesenjangan antara bahasa visual dan penalaran matematika.
Para peneliti juga memperkenalkan “DePlot: One-shot visual language reasoning by plot-to-table translation,” sebuah model yang dibangun di atas MatCha. DePlot memberdayakan pengguna untuk melakukan penalaran kompleks pada grafik dengan menerjemahkan informasi visual menjadi tabel. Dengan memanfaatkan kekuatan model bahasa besar (LLM), seperti FlanPaLM atau Codex, DePlot mencapai kinerja yang luar biasa, bahkan melebihi model yang disesuaikan ulang pada tugas tertentu. DePlot + LLM mencapai hasil yang luar biasa dalam bagian yang bersumber dari manusia ChartQA, di mana pertanyaan bahasa alami yang menuntut penalaran rumit banyak ditemui.
Para peneliti secara ekstensif mengevaluasi MatCha dan DePlot, menunjukkan kinerja superior mereka dibandingkan dengan model yang ada. Dengan menyesuaikan ulang MatCha pada tugas bahasa visual, mereka mencapai peningkatan yang signifikan dalam menjawab pertanyaan dan hasil yang dapat dibandingkan dalam ringkasan grafik ke teks. Selain itu, metodologi dua langkah yang melibatkan DePlot dan LLM menunjukkan kinerja yang luar biasa pada tugas penalaran yang rumit, bahkan tanpa akses ke data pelatihan.
Para peneliti telah membuat model dan kode mereka tersedia secara terbuka di GitHub, memungkinkan para peneliti dan penggemar untuk mengeksplorasi dan mengalami potensi MatCha dan DePlot secara langsung. Dengan demokratisasi akses ke alat-alat canggih, komunitas penelitian dapat secara kolektif memajukan bidang bahasa visual dan memperluas akses ke informasi dalam grafik dan plot.
Dampak MatCha dan DePlot
Implikasi dari MatCha dan DePlot sangat luas. Komunikasi ilmiah dan penemuan dapat dipercepat dengan komputer yang lebih baik dilengkapi untuk memahami bahasa visual. Selain itu, aksesibilitas untuk individu dengan kebutuhan yang beragam dapat ditingkatkan secara signifikan, membuka jalan baru untuk penyebaran informasi.
Saat kita memasuki era baru pemahaman bahasa visual ini, komunitas penelitian dan penggemar sama-sama siap untuk memanfaatkan kemajuan ini, mendorong kita menuju masa depan di mana informasi visual terintegrasi secara mulus dan komprehensif ke dalam kehidupan sehari-hari kita. Kemampuan derendering grafik MatCha, penalaran matematika, dan kekuatan penalaran satu tembakan DePlot menunjukkan pergeseran paradigma yang menjanjikan untuk transparansi data, terobosan ilmiah, dan aksesibilitas universal.
Disarikan dari: Sumber