Para Peneliti dari China Usulkan Pendekatan Generate-and-Edit untuk Meningkatkan Kualitas Kode dalam Tugas Programming dengan Menggunakan Hasil Eksekusi dari LLMs.

Metode Generate-and-Edit Meningkatkan Kemampuan Model Bahasa Besar pada Programming Competition

Para peneliti dari Peking University telah mengembangkan metode generate-and-edit untuk meningkatkan kemampuan model bahasa besar (LLMs) pada programming competition. Competitive programming adalah jenis pekerjaan di mana seseorang harus mengimplementasikan solusi yang akurat untuk masalah yang kompleks menggunakan deskripsi bahasa alami dengan contoh kasus uji. Untuk mengevaluasi solusi tersebut, seseorang harus menggunakan dataset yang tersembunyi.

Metode generate-and-edit menggunakan kemampuan LLMs dalam tiga tahap untuk meniru perilaku programmer manusia dalam menyelesaikan masalah programming competition. Pertama-tama, LLMs digunakan untuk membuat program dari deskripsi masalah. Kemudian, program yang dihasilkan dijalankan pada contoh kasus uji dengan menggunakan LLMs untuk mendapatkan hasil eksekusi. Akhirnya, editor kode neural yang sadar kesalahan digunakan untuk meningkatkan kualitas kode yang dihasilkan oleh LLMs.

Dalam penelitian ini, para peneliti menguji metode generate-and-edit mereka pada dua set data yang terkenal dan sembilan LLMs dengan nilai parameter yang berbeda. Hasilnya menunjukkan bahwa metode ini dapat meningkatkan kinerja LLMs secara signifikan. Bahkan untuk model bahasa terbesar yang digunakan, GPT3-175B, editor kode kecil dapat meningkatkan nilai pass@1 dari 26,6% menjadi 32,4% pada uji APPS-dev. Mereka juga membuktikan transferabilitas metode mereka pada benchmark HumanEval yang baru dengan meningkatkan nilai pass@1 rata-rata sebesar 48%.

Metode generate-and-edit ini memberikan dua keuntungan dibandingkan dengan teknik lain yang memproses program yang dibuat oleh LLMs. Pertama, metode ini menjaga anggaran sampel tetap dan secara drastis mengurangi beban komputasi pada LLMs. Kedua, editor mengubah program secara langsung dan mengungguli teknik yang menggunakan pengurutan ulang program, terutama dengan anggaran sampel yang terbatas seperti pass@1.

Metode Generate-and-Edit: Solusi untuk Tingkatkan Kinerja LLMs dalam Programming Competition

Penelitian terbaru dari Peking University menunjukkan bahwa metode generate-and-edit merupakan solusi yang efektif untuk meningkatkan kinerja model bahasa besar (LLMs) dalam programming competition. Competitive programming adalah jenis pekerjaan di mana seseorang harus mengimplementasikan solusi yang akurat untuk masalah yang kompleks menggunakan deskripsi bahasa alami dengan contoh kasus uji. Untuk mengevaluasi solusi tersebut, seseorang harus menggunakan dataset yang tersembunyi.

Metode generate-and-edit ini menggunakan kemampuan LLMs dalam tiga tahap untuk meniru perilaku programmer manusia dalam menyelesaikan masalah programming competition. Pertama-tama, LLMs digunakan untuk membuat program dari deskripsi masalah. Kemudian, program yang dihasilkan dijalankan pada contoh kasus uji dengan menggunakan LLMs untuk mendapatkan hasil eksekusi. Akhirnya, editor kode neural yang sadar kesalahan digunakan untuk meningkatkan kualitas kode yang dihasilkan oleh LLMs.

Dalam penelitian ini, para peneliti menggunakan metode generate-and-edit mereka pada dua set data yang terkenal dan sembilan LLMs dengan nilai parameter yang berbeda. Hasilnya menunjukkan bahwa metode ini dapat meningkatkan kinerja LLMs secara signifikan. Bahkan untuk model bahasa terbesar yang digunakan, GPT3-175B, editor kode kecil dapat meningkatkan nilai pass@1 dari 26,6% menjadi 32,4% pada uji APPS-dev. Mereka juga membuktikan transferabilitas metode mereka pada benchmark HumanEval yang baru dengan meningkatkan nilai pass@1 rata-rata sebesar 48%.

Metode generate-and-edit memberikan dua keuntungan dibandingkan dengan teknik lain yang memproses program yang dibuat oleh LLMs. Pertama, metode ini menjaga anggaran sampel tetap dan secara drastis mengurangi beban komputasi pada LLMs. Kedua, editor mengubah program secara langsung dan mengungguli teknik yang menggunakan pengurutan ulang program, terutama dengan anggaran sampel yang terbatas seperti pass@1.

Dalam dunia programming competition, kinerja sangat penting dalam memenangkan perlombaan. Metode generate-and-edit dapat membantu meningkatkan kinerja model bahasa besar (LLMs) dalam programming competition dengan menggunakan teknik yang meniru perilaku programmer manusia. Dengan adanya metode ini, diharapkan akan ada lebih banyak perbaikan dalam pengembangan model bahasa besar (LLMs) untuk mengatasi masalah programming yang semakin kompleks.

Disarikan dari: Citation