Peneliti Stanford Perkenalkan Sophia: Optimizer Skalabel Kedua Untuk Pra-Pelatihan Model Bahasa

Optimizer Sophia: Menurunkan Biaya dan Waktu Pelatihan Model Bahasa

Para peneliti telah mengembangkan optimizer baru bernama Sophia yang dapat mempercepat pelatihan model bahasa alami (LLM) hingga dua kali lebih cepat dari optimizer Adam. Sophia menggabungkan estimator diagonal Hessian yang ringan dengan teknik klip elemen demi meningkatkan kecepatan pelatihan LLM.

Menurut laporan penelitian, Sophia berhasil memecahkan masalah yang selama ini dihadapi oleh optimizer Adam, yaitu overhead yang tinggi. Sophia memiliki overhead waktu dan memori per-step yang rendah karena dia hanya mengestimasi Hessian diagonal setiap beberapa iterasi.

Optimizer Sophia sangat mudah diimplementasikan dengan PyTorch karena hanya memerlukan estimator diagonal Hessian yang ringan sebagai pre-kondisi pada gradien. Selain itu, Sophia membantu menjaga keseimbangan dari pelatihan model bahasa dengan memperkenalkan teknik kliping pada elemen-elemen gradien. Sophia juga memastikan bahwa penurunan kerugian tetap konsisten pada seluruh dimensi parameter dengan memberikan hukuman lebih berat pada update yang tajam (dengan Hessian besar) daripada pada dimensi yang datar (dengan Hessian kecil).

Sophia menunjukkan hasil yang lebih baik daripada optimizer Adam pada model bahasa alami dengan ukuran 125 juta hingga 770 juta. Sophia mampu mengakomodasi variasi parameter yang besar yang mendasari tugas pemodelan bahasa. Selain itu, Sophia juga mampu menjaga batasan waktu secara independen dari angka kondisi kerugian.

Dengan penggunaan optimizer Sophia, pelatihan model bahasa menjadi lebih efisien. Sophia membuktikan bahwa bahkan dengan sumber daya yang terbatas, para akademisi dapat menyelidiki pelatihan LLM dan mengembangkan algoritma yang baru dan efektif.

Cara Sophia Menghemat Biaya dan Waktu Pelatihan Model Bahasa

Optimizer Sophia merupakan solusi yang efektif untuk mengurangi biaya dan waktu pelatihan model bahasa. Sophia berhasil mengatasi masalah overhead yang tinggi yang selama ini dihadapi oleh optimizer Adam. Hal ini karena Sophia hanya mengestimasi Hessian diagonal setiap beberapa iterasi dan menggunakan teknik kliping pada elemen-elemen gradien.

Namun, Sophia juga memiliki beberapa keunggulan lainnya yang membuatnya lebih efektif daripada optimizer Adam. Sophia memperkenalkan teknik kliping pada elemen-elemen gradien sebagai pengganti re-parameterization trick, yang sering digunakan pada optimizer Adam dan Lion. Sophia juga memastikan bahwa penurunan kerugian tetap konsisten pada seluruh dimensi parameter dengan memberikan hukuman lebih berat pada update yang tajam (dengan Hessian besar) daripada pada dimensi yang datar (dengan Hessian kecil).

Selain itu, Sophia juga dapat mengakomodasi variasi parameter yang besar yang mendasari tugas pemodelan bahasa. Sophia mampu mengurangi biaya pelatihan model bahasa hingga $1M dari $2M, jika diterapkan pada skala yang lebih besar. Sophia juga mampu menjaga batasan waktu secara independen dari angka kondisi kerugian.

Dalam penggunaannya, Sophia sangat mudah diimplementasikan dengan PyTorch karena hanya memerlukan estimator diagonal Hessian yang ringan sebagai pre-kondisi pada gradien. Sophia juga membantu menjaga keseimbangan dari pelatihan model bahasa dengan memperkenalkan teknik kliping pada elemen-elemen gradien.

Dalam keseluruhan, Sophia merupakan optimizer yang efektif dan inovatif untuk mengurangi biaya dan waktu pelatihan model bahasa. Sophia membuktikan bahwa bahkan dengan sumber daya yang terbatas, para akademisi dapat menyelidiki pelatihan LLM dan mengembangkan algoritma yang baru dan efektif. Sophia dapat menjadi alternatif yang lebih baik daripada optimizer Adam dalam pelatihan model bahasa di masa depan.

Disarikan dari: Link