Argilla: Platform Kurasi Data Open-Source Untuk Model Bahasa Besar Dan MLOps Di Pengolahan Bahasa Alami

Generative Artificial Intelligence (AI) semakin diminati di seluruh dunia, terutama dalam beberapa bulan terakhir. Salah satu chatbot terpopuler, ChatGPT, yang dikembangkan oleh OpenAI, memiliki lebih dari satu juta pengguna dan digunakan hampir oleh semua orang, baik peneliti di bidang AI maupun mahasiswa. Berdasarkan arsitektur GPT, model bahasa besar ini (LLM) membantu menjawab pertanyaan, menghasilkan konten unik dan akurat, merangkum paragraf teks yang panjang, menyelesaikan kode, dan sebagainya. Dengan rilis versi terbaru oleh komunitas OpenAI, yaitu versi GPT-4, ChatGPT sekarang juga mendukung data multimodal. Model bahasa besar terkenal lainnya seperti DALL-E, BERT, dan LLaMa juga memberikan kontribusi besar dalam domain Generative AI.

Platform kurasi data open-source baru yang disebut Argilla baru-baru ini diperkenalkan untuk Large Language Models. Argilla dirilis untuk membantu pengguna dalam menyelesaikan siklus lengkap dalam pengembangan, evaluasi, dan peningkatan Model Pemrosesan Bahasa Alami, dari tahap eksperimen awal hingga penerapan di lingkungan produksi. Platform ini menggunakan umpan balik manusia dan mesin untuk membangun beberapa LLM yang kuat melalui kurasi data yang lebih cepat.

Prinsip-prinsip Argilla

Prinsip-prinsip Argilla yang dijabarkan oleh pengembangnya adalah sebagai berikut:

1. Open-source – Argilla bersifat open-source, artinya gratis untuk semua orang untuk digunakan dan dimodifikasi. Ini mendukung perpustakaan NLP utama seperti Hugging Face transformers, spaCy, Stanford Stanza, Flair, dan lain-lain, dan pengguna dapat menggabungkan perpustakaan pilihan mereka tanpa menerapkan antarmuka tertentu.

2. End-to-end – Argilla menyediakan solusi end-to-end untuk pengembangan model ML dengan menjembatani kesenjangan antara pengumpulan data, iterasi model, dan pemantauan produksi. Argilla mempertimbangkan proses pengumpulan data sebagai proses yang berkelanjutan untuk perbaikan model yang berkelanjutan dan memungkinkan pengembangan iteratif sepanjang siklus Machine Learning.

3. Pengalaman pengguna dan pengembang yang lebih baik – Argilla berfokus pada pengalaman pengguna dan pengembang dengan menciptakan lingkungan yang ramah pengguna di mana ahli domain dapat dengan mudah menafsirkan dan menandai data dan bereksperimen, dan insinyur memiliki kendali penuh atas saluran data.

4. Melampaui alur kerja label tangan tradisional – Argilla melampaui alur kerja label tangan tradisional dengan menawarkan berbagai pendekatan annotasi data inovatif. Ini memungkinkan pengguna untuk menggabungkan label tangan dengan pembelajaran aktif, label massal, dan model zero-shot, yang memungkinkan alur kerja annotasi data yang lebih efisien dan hemat biaya.

Fitur Argilla

Argilla adalah kerangka kerja yang siap produksi dan mendukung kurasi data, evaluasi, pemantauan model, debugging, dan keterangannya. Argilla mengotomatisasi alur kerja manusia di lingkungan pada umumnya dan dapat terintegrasi dengan hal-hal apa pun yang dipilih pengguna. Argilla bisa diterapkan secara lokal pada perangkat menggunakan perintah Docker – ‘docker run -d –name argilla -p 6900:6900 argilla/argilla-quickstart:latest’.

Labeling Data dan Pemantauan Model

Labeling data adalah langkah penting dalam melatih model NLP yang terawasi, karena annotating dan memberi label pada data teks mentah membantu dalam membuat kumpulan data yang berlabel berkualitas tinggi. Di sisi lain, pemantauan model adalah langkah penting lainnya untuk memantau kinerja dan perilaku model yang diterapkan secara real-time, dengan demikian menjaga keandalan dan konsistensi model.

Argilla membantu pengguna dalam setiap langkah siklus MLOps, mulai dari labeling data hingga pemantauan model. Platform ini menawarkan beberapa pendekatan yang inovatif dalam tugas kurasi data dan memberikan solusi end-to-end bagi pengembang untuk mempercepat pengembangan model NLP yang lebih baik dan kuat. Semua itu menjadikan Argilla sebagai solusi yang sangat diandalkan bagi para pengembang machine learning di masa depan.

Disarikan dari: Link