LLMs dihadapkan dengan berbagai kendala dalam menyelesaikan masalah matematika, khususnya dalam mengenali informasi saat ini dan memberikan solusi matematika yang tepat. Seiring dengan perkembangan teknologi yang semakin pesat, para peneliti dari Tsinghua University dan University of Illinois (UC) telah mencoba untuk mengatasi kendala tersebut dengan memperkenalkan CREATOR, suatu kerangka kerja pengembangan alat yang memungkinkan LLMs untuk menjadi pengembang alat dan menyelesaikan masalah dengan lebih akurat dan fleksibel. Dalam artikel ini, kita akan membahas lebih lanjut tentang konsep dan kegunaan CREATOR, serta hasil uji coba menggunakan MATH dan TabMWP sebagai benchmark.
Sub-topik 1: Kendala LLMs dalam Menyelesaikan Masalah Matematika
LLMs telah membuat kemajuan yang signifikan dalam beberapa tahun terakhir, namun masih terdapat kendala dalam kinerjanya dalam konteks pembelajaran, generasi kode, dan berbagai tugas NLP lainnya. Salah satu kendala utamanya adalah kemampuan LLMs yang terbatas dalam mengenali informasi saat ini dan memberikan solusi matematika yang tepat. Selain itu, LLMs juga kurang stabil dalam melakukan penalaran dalam rentang logika yang panjang.
Untuk mengatasi kendala ini, para peneliti telah memperkenalkan CREATOR, suatu kerangka kerja pengembangan alat yang memungkinkan LLMs untuk menjadi pengembang alat dan menyelesaikan masalah dengan lebih akurat dan fleksibel. Dengan memanfaatkan kemampuan abstraksi LLMs, CREATOR dapat menciptakan alat yang dapat diterapkan secara luas untuk menyelesaikan berbagai masalah matematika yang kompleks.
Sub-topik 2: Pengujian CREATOR pada Benchmark MATH dan TabMWP
Untuk menguji keefektifan CREATOR, para peneliti telah melakukan uji coba pada benchmark MATH dan TabMWP. MATH adalah dataset yang berisi tantangan matematika yang sulit dan bervariasi, sedangkan TabMWP menawarkan berbagai pengaturan tabel untuk penyelesaian masalah. Dalam uji coba yang dilakukan, CREATOR berhasil mengalahkan baseline CoT, PoT, dan penggunaan alat tradisional dengan akurasi rata-rata 59,7% dan 94,7% pada dataset MATH dan TabMWP.
Selain itu, para peneliti juga mengusulkan dataset Creation Challenge, yang terdiri dari tantangan inovatif dan sulit yang harus dijawab dengan menggunakan alat atau paket kode yang sudah ada. Dataset baru ini menunjukkan nilai dan manfaat dari kemampuan pembangunan alat LLMs dalam menyelesaikan masalah matematika yang kompleks.
Kesimpulan
Dalam konteks pengembangan alat LLMs, CREATOR menawarkan solusi baru dengan memungkinkan LLMs sebagai pengembang alat dan menyelesaikan masalah dengan lebih akurat dan fleksibel. Meskipun masih terdapat beberapa kendala dalam penggunaan CREATOR, para peneliti yakin bahwa pengembangan alat LLMs dapat meningkatkan kemampuan LLMs dalam menyelesaikan masalah matematika yang kompleks. Diharapkan bahwa CREATOR dan dataset Creation Challenge dapat membuka jalan bagi penelitian lebih lanjut dalam pengembangan alat LLMs.
Disarikan dari: Link