Microsoft AI Hadirkan Strategi Optimalisasi Komunikasi Lanjutan Berbasis ZeRO untuk Melatih Model Besar secara Efisien, Tanpa Terbatas oleh Ukuran Batch atau Keterbatasan Bandwidth

Microsoft telah memperkenalkan sistem baru bernama ZeRO++ yang telah dikembangkan untuk mengoptimalkan pelatihan model AI besar, mengatasi tantangan overhead transfer data yang tinggi dan bandwidth terbatas. ZeRO++ membangun pada optimasi ZeRO yang sudah ada dan menawarkan strategi komunikasi yang ditingkatkan untuk meningkatkan efisiensi pelatihan dan mengurangi waktu dan biaya pelatihan.

Pelatihan model besar seperti Turing-NLG, ChatGPT, dan GPT-4 membutuhkan sumber daya memori dan komputasi yang besar di beberapa perangkat GPU. ZeRO++, yang dikembangkan oleh DeepSpeed, memperkenalkan strategi optimasi komunikasi untuk mengatasi batasan ZeRO dalam skenario dengan ukuran batch kecil per GPU atau saat melatih pada cluster dengan bandwidth rendah.

Kelompok optimasi ZeRO, termasuk ZeRO-Inference, memungkinkan partisi status model di seluruh GPU daripada replikasi, menggunakan memori GPU kolektif dan daya komputasi. Namun, ZeRO dapat menyebabkan overhead komunikasi yang tinggi selama pelatihan. ZeRO++ mengatasi hal ini dengan menggabungkan tiga set optimasi komunikasi: komunikasi bobot terkuantisasi (qwZ), partisi bobot hierarkis (hpZ), dan komunikasi gradien terkuantisasi (qgZ).

Untuk mengurangi volume komunikasi parameter, ZeRO++ menggunakan kuantisasi pada bobot, memanfaatkan kuantisasi berbasis blok untuk mempertahankan presisi pelatihan. Proses kuantisasi yang dioptimalkan ini lebih cepat dan lebih akurat daripada kuantisasi dasar. Untuk meminimalkan overhead komunikasi selama propagasi mundur, ZeRO++ mengorbankan memori GPU untuk komunikasi dengan mempertahankan salinan model lengkap di setiap mesin. Untuk komunikasi gradien, ZeRO++ memperkenalkan qgZ, paradigma komunikasi gradien terkuantisasi yang baru yang mengurangi lalu lintas dan latensi antar simpul.

Optimasi komunikasi ini menghasilkan pengurangan yang signifikan dalam volume komunikasi. ZeRO++ mencapai pengurangan hingga 4 kali lipat dibandingkan dengan ZeRO, meningkatkan throughput dan efisiensi pelatihan. ZeRO++ menawarkan peningkatan throughput sebesar 28% hingga 36% dibandingkan dengan ZeRO-3 di cluster dengan bandwidth tinggi saat menggunakan ukuran batch kecil per GPU. ZeRO++ mencapai peningkatan kecepatan rata-rata 2 kali lipat di cluster dengan bandwidth rendah dibandingkan dengan ZeRO-3, sehingga pelatihan model besar lebih dapat diakses di berbagai jenis cluster.

ZeRO++ tidak terbatas pada skenario pelatihan tetapi juga diperluas ke pelatihan reinforcement learning dari umpan balik manusia (RLHF) yang digunakan dalam model dialog. Dengan mengintegrasikan ZeRO++ dengan DeepSpeed-Chat, pelatihan RLHF dapat mendapatkan manfaat dari peningkatan throughput generasi dan pelatihan, mencapai penghasilan generasi yang lebih baik hingga 2,25 kali lipat dan throughput pelatihan yang lebih baik hingga 1,26 kali lipat dibandingkan dengan ZeRO.

DeepSpeed telah merilis ZeRO++ untuk membuat pelatihan model besar lebih efisien dan dapat diakses oleh komunitas AI. Sistem ini dirancang untuk mempercepat pelatihan, mengurangi overhead komunikasi, dan memungkinkan ukuran batch yang lebih besar, dengan demikian menghemat waktu dan sumber daya. Peneliti dan praktisi dapat memanfaatkan ZeRO++ untuk melatih model seperti ChatGPT dengan lebih efektif dan mengeksplorasi kemungkinan baru dalam AI.

Peningkatan Efisiensi Pelatihan Model AI Besar dengan ZeRO++

Microsoft telah mengenalkan sistem baru yang disebut ZeRO++ untuk mengoptimalkan pelatihan model AI besar. Sistem ini mengatasi tantangan overhead transfer data yang tinggi dan bandwidth terbatas, sehingga mempercepat proses pelatihan dan mengurangi biaya. ZeRO++ membangun pada optimasi ZeRO yang sudah ada dan menawarkan strategi komunikasi yang ditingkatkan untuk meningkatkan efisiensi pelatihan.

ZeRO++ menggunakan tiga set optimasi komunikasi: komunikasi bobot terkuantisasi (qwZ), partisi bobot hierarkis (hpZ), dan komunikasi gradien terkuantisasi (qgZ). Dengan menggunakan kuantisasi pada bobot dan mempertahankan salinan model lengkap di setiap mesin, ZeRO++ berhasil mengurangi volume komunikasi secara signifikan. Hal ini menghasilkan peningkatan throughput pelatihan hingga 4 kali lipat dibandingkan dengan ZeRO.

Keuntungan utama ZeRO++ adalah memungkinkan pelatihan model AI besar menjadi lebih efisien dan dapat diakses oleh lebih banyak pengguna. Dalam cluster dengan bandwidth rendah, ZeRO++ mencapai peningkatan kecepatan rata-rata 2 kali lipat dibandingkan dengan ZeRO-3. Selain itu, ZeRO++ juga dapat digunakan dalam pelatihan reinforcement learning dari umpan balik manusia (RLHF), dengan peningkatan throughput generasi hingga 2,25 kali lipat dibandingkan dengan ZeRO.

Dengan dirilisnya ZeRO++, peneliti dan praktisi di bidang AI dapat memanfaatkannya untuk melatih model seperti ChatGPT dengan lebih efektif. Selain itu, ZeRO++ juga membuka kemungkinan baru dalam pengembangan model AI. Dengan meningkatkan efisiensi pelatihan dan mengurangi biaya, ZeRO++ memungkinkan lebih banyak orang untuk mengembangkan model AI yang lebih canggih dan inovatif.

ZeRO++: Solusi untuk Pelatihan Model AI Besar

Pelatihan model AI besar seperti Turing-NLG, ChatGPT, dan GPT-4 membutuhkan sumber daya yang besar, termasuk memori dan komputasi. ZeRO++ adalah sistem yang dikembangkan oleh DeepSpeed untuk mengoptimalkan pelatihan model-model tersebut. Sistem ini mengatasi tantangan overhead komunikasi dan keterbatasan bandwidth, sehingga mempercepat proses pelatihan.

ZeRO++ menggunakan optimasi komunikasi untuk mengurangi volume komunikasi antar perangkat GPU. Dengan menerapkan kuantisasi pada bobot dan menggunakan partisi bobot hierarkis, ZeRO++ berhasil mengurangi volume komunikasi hingga 4 kali lipat dibandingkan dengan ZeRO. Selain itu, ZeRO++ juga memperkenalkan paradigma komunikasi gradien terkuantisasi yang baru, sehingga mengurangi lalu lintas dan latensi antar simpul.

Keuntungan utama dari ZeRO++ adalah peningkatan throughput pelatihan dan efisiensi penggunaan sumber daya. Sistem ini memungkinkan pelatihan model AI besar menjadi lebih cepat dan lebih efisien, dengan meningkatkan throughput hingga 36% dibandingkan dengan ZeRO-3. Selain itu, ZeRO++ juga memperluas penggunaannya dalam pelatihan reinforcement learning dari umpan balik manusia (RLHF), dengan peningkatan throughput generasi hingga 2,25 kali lipat dibandingkan dengan ZeRO.

Dengan dirilisnya ZeRO++, pelatihan model AI besar menjadi lebih efisien dan dapat diakses oleh lebih banyak pengguna. Hal ini membuka peluang baru dalam pengembangan AI, dengan memungkinkan lebih banyak orang untuk mengembangkan model AI yang lebih canggih dan inovatif. ZeRO++ adalah solusi yang sangat diharapkan dalam menghadapi tantangan pelatihan model AI besar.

Disarikan dari: Sumber