Teknologi Innovation Institute Rilis Falcon LLMs: Model AI Baru yang Hanya Menggunakan 75 Persen Komputasi Pelatihan GPT-3, 40 Persen dari Chinchilla, dan 80 Persen dari PaLM-62B

Falcon-40B dan Falcon-7B: Model Open-Source Terbaik untuk Meningkatkan Performa AI

Model AI open-source Falcon-40B dan Falcon-7B merupakan model-model decoder-only yang dikembangkan oleh TII (Technology Innovation Institute) dan dilatih dengan jumlah data yang besar. Falcon-40B dilatih dengan 1,000B token dari RefinedWeb dan korpora yang disaring, sementara Falcon-7B dilatih dengan 1,500B token dari RefinedWeb dan korpora yang lebih ditingkatkan. Kedua model tersebut tersedia di bawah TII Falcon LLM License dan dapat digunakan secara komersial.

Selain itu, Falcon-40B dan Falcon-7B merupakan model open-source terbaik yang saat ini tersedia. Kedua model ini dapat mengalahkan model-model lain seperti LLaMA, StableLM, RedPajama, dan MPT dalam hal performa, seperti yang ditunjukkan di OpenLLM Leaderboard.

Salah satu fitur menonjol dari Falcon-40B dan Falcon-7B adalah arsitektur yang dioptimalkan untuk tugas inference. Kedua model tersebut menggunakan teknik FlashAttention dan multi-query yang memperkuat performa dan efisiensi selama tugas inference.

Meskipun kedua model tersebut merupakan model pre-trained, fine-tuning lebih lanjut umumnya direkomendasikan untuk menyesuaikannya dengan kasus penggunaan yang spesifik. Namun, untuk aplikasi yang melibatkan instruksi generik dalam format chat, alternatif yang lebih cocok adalah Falcon-40B-Instruct.

Dengan tersedianya Falcon-40B dan Falcon-7B, kedua model ini menyediakan sumber daya yang berharga bagi para peneliti, pengembang, dan bisnis dalam berbagai domain. Dalam waktu dekat, sebuah makalah yang memberikan detail lebih lanjut tentang Falcon-40B dan Falcon-7B akan dirilis.

Keunggulan Falcon-7B Menjadi Model AI Open-Source Pilihan

Falcon-7B adalah model decoder-only kausal yang sangat canggih yang dikembangkan oleh TII. Dibandingkan dengan model open-source serupa seperti MPT-7B, StableLM, dan RedPajama, Falcon-7B menunjukkan performa yang jauh lebih baik. Hal ini disebabkan oleh pelatihan model pada dataset RefinedWeb yang lebih ditingkatkan, yang melibatkan 1,500B token.

Falcon-7B menggunakan arsitektur yang dioptimalkan khusus untuk tugas inference. Teknik FlashAttention dan multi-query digunakan untuk memperkuat performa dan efisiensi selama tugas inference.

Falcon-7B tersedia di bawah TII Falcon LLM License dan dapat digunakan secara komersial. Meskipun detail tentang lisensi tersebut dapat ditemukan secara terpisah, namun pengguna yang ingin memanfaatkan model Falcon-7B harus memperhatikan hal ini.

Meskipun belum ada makalah yang diterbitkan mengenai Falcon-7B, fitur-fitur dan performanya yang luar biasa menjadikannya aset yang sangat berharga bagi para peneliti, pengembang, dan bisnis di berbagai bidang. Dengan tersedianya Falcon-7B, pengguna dapat meningkatkan performa AI mereka dengan model open-source yang sangat canggih, terutama untuk tugas inference yang rumit.

Disarikan dari: Citation