Institut Allen Untuk AI Mengumumkan OLMo: Sebuah Model Bahasa Terbuka Yang Dibuat Oleh Ilmuwan Untuk Ilmuwan

AI2 Perkenalkan Model Bahasa Generatif Terbaru dengan Skala 70 Miliar Parameter

Institut Allen untuk AI (AI2) baru-baru ini mengumumkan pengembangan model bahasa generatif baru yang disebut AI2 OLMo (Open Language Model). OLMo akan menjadi model bahasa generatif state-of-the-art dengan skala 70 miliar parameter, sebanding dengan model bahasa besar lainnya. Proyek ini diharapkan selesai pada tahun 2024. Tujuannya adalah memberikan akses komunitas riset ke semua aspek pembuatan model, meningkatkan kolaborasi, dan memajukan ilmu model bahasa.

AI2 bermitra dengan perusahaan teknologi terkemuka, termasuk AMD dan CSC, untuk mengembangkan OLMo. Kolaborasi ini melibatkan pemanfaatan kemampuan GPU dari superkomputer pra-eksascale yang didukung AMD, LUMI yang dikenal karena efisiensinya. Dengan memanfaatkan kekuatan superkomputer yang ramah lingkungan ini, AI2 bertujuan untuk menciptakan model bahasa unik dan terbuka yang akan memungkinkan peneliti untuk bekerja langsung pada model bahasa untuk pertama kalinya.

Keunggulan OLMo adalah terbukanya dan ketersediaannya bagi komunitas riset. AI2 berencana membuat semua elemen dari Proyek itu tersedia secara terbuka, termasuk data, kode, kurva pelatihan, evaluasi benchmark, dan pertimbangan etis seputar pengembangan model. Dengan memberikan transparansi lengkap, AI2 bermaksud memberdayakan peneliti untuk membangun dan meningkatkan OLMo, memungkinkan kemajuan yang lebih cepat dan lebih aman dalam bidang ini. Tujuannya adalah mengembangkan model bahasa terbaik secara global secara kolaboratif.

OLMo Siap Menjadi Model Terbuka yang Memberikan Nilai Unik bagi Komunitas Riset AI

Tim AI2 memastikan bahwa OLMo menjadi model yang benar-benar terbuka dan memberikan nilai unik bagi komunitas riset AI. Setiap komponen yang dibuat untuk OLMo, termasuk data pelatihan, kode, bobot model, checkpoint, dan ablasion, akan tersedia secara terbuka, didokumentasikan dengan baik, dan dapat direproduksi, dengan sedikit pengecualian dan lisensi yang sesuai. Strategi pelepasan untuk model dan artefaknya sedang dikembangkan. Selain itu, AI2 berencana membuat demo dan melepaskan data interaksi dari pengguna yang memberikan persetujuan.

Secara paralel dengan pengembangan model, AI2 akan mengambil keputusan untuk memaksimalkan keterjangkauan dan efisiensi model tanpa mengorbankan performa. Tujuannya adalah membuat OLMo mudah diakses oleh berbagai peneliti AI, meningkatkan keragaman perspektif dan mempercepat perbaikan dalam pengembangan model bahasa. AI2 juga bermaksud membuat dan melepaskan dataset pelatihan model yang terdokumentasi secara cermat, mencakup data pra-pelatihan, data instruksi, dan data interaksi manusia.

Mengakui pentingnya pertimbangan etis, AI2 mengambil pendekatan pragmatis terhadap etika dan keterbukaan sepanjang proyek OLMo. Tim akan mendokumentasikan keputusan, kekhawatiran, dan trade-off seputar dampak etis dan sosial dalam menciptakan dan melepaskan model OLMo. AI2 mempromosikan pengetahuan dan pemahaman AI dengan berbagi kemajuan, tantangan, dan penemuan. Para ahli hukum, baik internal maupun eksternal, terlibat aktif dalam proses pembangunan model untuk menilai masalah privasi dan hak kekayaan intelektual pada beberapa checkpoint.

AI2 telah bermitra dengan organisasi seperti Surge AI dan MosaicML untuk berkolaborasi dalam data dan kode pelatihan untuk OLMo. Komite tinjauan etika yang terdiri dari penasihat internal dan eksternal telah dibentuk untuk memberikan umpan balik selama Proyek. Model dan API OLMo akan menjadi sumber daya yang berharga bagi komunitas lebih luas, memungkinkan pemahaman dan keterlibatan yang lebih baik dalam revolusi AI generatif. AI2 menyambut dukungan dan kemitraan dari organisasi yang sejalan dengan nilai-nilai mereka tentang teknologi AI yang standar, wajar, bertanggung jawab, dan bermanfaat.

AMD dan CSC Bergabung dalam Kolaborasi untuk Mengembangkan Model Bahasa AI2 OLMo

AI2 telah mengumumkan kolaborasi dengan AMD dan CSC untuk mengembangkan model bahasa baru AI2 OLMo. Kolaborasi ini bertujuan memanfaatkan kekuatan GPU dari superkomputer pra-eksascale LUMI yang didukung AMD untuk membuat model bahasa yang unik dan terbuka. AI2 berharap model ini akan menjadi model bahasa terbuka terbaik di dunia dan memberikan akses langsung ke peneliti untuk pertama kalinya.

AMD dan AI2 telah bekerja sama sebelumnya dalam pengembangan solusi AI dan teknologi AI canggih lainnya. Kemitraan ini mencakup penggunaan teknologi AMD, termasuk prosesor dan kartu grafis, serta infrastruktur perangkat keras dan perangkat lunak untuk mempercepat penelitian AI. Kolaborasi ini memanfaatkan kekuatan LUMI superkomputer yang sangat efisien untuk menciptakan model bahasa yang lebih baik dan lebih terbuka.

Kolaborasi AI2, AMD, dan CSC dalam pengembangan model bahasa AI2 OLMo akan memajukan penelitian AI dan mempercepat kemajuan dalam bidang ini. Dengan memanfaatkan teknologi dan sumber daya terbaru, model bahasa AI2 OLMo akan memberikan nilai unik bagi komunitas riset AI dan memungkinkan penemuan baru dalam bidang AI.

Disarikan dari: Citation