Salesforce AI Research Rilis CodeTF: Perpustakaan Transformer All-in-One untuk Model Bahasa Besar pada Kode (CodeLLM)

AI Salesforce Rilis CodeTF, Library untuk Transformer-based LLMs

Salesforce AI Research telah merilis CodeTF, yaitu open-source dan all-inclusive library untuk Transformer-based LLMs. Library ini memudahkan pengguna untuk mengakses dan memodifikasi code modules secara independen.

Sebagai latar belakang, AI telah menyebabkan perubahan besar dalam industri rekayasa perangkat lunak selama beberapa tahun terakhir. Analisis kode sumber dasar menjadi pusat dari metodologi berbasis machine learning yang biasanya digunakan untuk pekerjaan kecerdasan kode dalam rekayasa perangkat lunak. Kegiatan ini bertujuan untuk meningkatkan kualitas dan kemudahan pemeliharaan dari kode sumber dengan lebih memahami, menganalisis, dan mengubahnya.

Model deep learning telah menunjukkan hasil yang menjanjikan dalam tugas-tugas kecerdasan kode yang lebih sulit, seperti generasi kode, penyelesaian kode, ringkasan kode, dan pengambilan kode. Model-model ini terutama berbasis Transformer berukuran besar (LLMs) yang dipretraining pada data kode ber skala besar (“Code LLMs”).

Meskipun LLMs memiliki manfaat yang jelas, sebagian besar pengembang masih kesulitan dan memakan waktu untuk membuat dan mengimplementasikan model tersebut dari awal. Para pengembang ahli perangkat lunak dan peneliti ML diperlukan untuk membuat model yang dapat diskalakan dan dapat di layani untuk lingkungan produksi. Antarmuka yang tidak konsisten antara model, dataset, dan tugas aplikasi adalah hambatan utama. Hal ini menyebabkan pengembangan dan penyebaran Code LLMs memerlukan banyak pekerjaan yang berulang.

Keunggulan CodeTF

CodeTF menyediakan akses ke berbagai Transformer-based LLMs yang telah dipretraining dan tugas-tugas pemrograman dalam kerangka CodeTF yang seragam. Library ini mendukung beberapa kode LLM, termasuk encoder-only, decoder-only, dan encoder-decoder. CodeTF menyediakan mekanisme untuk memuat dan melayani model yang telah dipretraining, model kustom, dan dataset, serta beberapa dataset yang banyak digunakan seperti HumanEval dan APPS.

Pengguna library dapat dengan cepat mereproduksi dan mengimplementasikan model terbaru dengan antarmuka yang seragam. Mereka juga dapat menyertakan model dan benchmark baru sesuai kebutuhan. Karena persyaratan gramatikal yang ketat yang harus diikuti untuk bersesuaian dengan bahasa pemrograman mereka, kadang-kadang data kode memerlukan teknik pra-pemrosesan dan transformasi yang lebih ketat daripada data di domain lain seperti visi dan teks.

CodeTF menyajikan set fitur pemrosesan data yang lebih tangguh, seperti parser Abstract Syntax Tree (AST) untuk beberapa bahasa pemrograman berdasarkan tree-sitter 2 dan alat untuk mengekstrak atribut kode seperti nama metode, identifier, nama variabel, dan komentar.

Manfaat CodeTF

CodeTF memungkinkan pengguna untuk memanfaatkan perkembangan terbaru dalam penelitian dan pengembangan kecerdasan kode dengan memberikan akses ke model terbaru, alat penyetelan halus dan evaluasi, serta berbagai dataset populer. Dengan CodeTF, pengguna dapat menghemat waktu dan tenaga dalam mengimplementasikan model yang diskalakan dan layak produksi.

CodeTF juga dapat membantu pengembang dalam mengenali kode dan meningkatkan kualitas pemeliharaan kode. CodeTF memungkinkan pengguna untuk mengembangkan model yang lebih baik dalam menganalisis kode dan membantu mereka menghemat waktu dan tenaga dalam mengurangi kesalahan manusia saat menganalisis kode.

Dengan begitu, CodeTF memiliki manfaat besar bagi industri rekayasa perangkat lunak dalam pengembangan dan penyebaran model pemrograman yang dapat diskalakan dan layak produksi. Semua orang dapat mengakses CodeTF melalui akun Github mereka dan mulai menggunakan library ini.

Dengan adanya CodeTF, para pengembang akan lebih mudah dalam mengembangkan model kecerdasan kode yang dapat diskalakan dan layak produksi. Diharapkan CodeTF dapat membantu meningkatkan kualitas dan kemudahan pemeliharaan dari kode sumber.

Disarikan dari: Link