Meta AI Perkenalkan MTIA V1: Akselerator Inferensi AI Generasi Pertama

Peningkatan Kinerja AI di Meta dengan Mengoptimalkan Hardware

Meta, salah satu perusahaan teknologi terbesar di dunia, terus meningkatkan kinerja kecerdasan buatan (AI) mereka dengan mengoptimalkan hardware yang digunakan. Salah satu teknologi yang mereka gunakan adalah PyTorch yang memungkinkan pengembangan AI dengan mudah dan efisien. Dalam pengembangan AI, Meta juga mengembangkan chip khusus yang disebut Meta Training and Inference Accelerator (MTIA) yang dirancang secara khusus untuk meningkatkan pengalaman pengguna di berbagai produk dan layanan Meta.

MTIA merupakan chip khusus yang dapat dibagi menjadi beberapa bagian, termasuk elemen pemrosesan (PE), sumber daya memori on-chip dan off-chip, dan interkoneksi dalam struktur grid. Subsistem kontrol independen di dalam accelerator mengelola perangkat lunak. Firmware koordinasi eksekusi tugas pada accelerator, mengontrol sumber daya komputasi dan memori yang tersedia, serta berkomunikasi dengan host melalui antarmuka host tertentu. LPDDR5 digunakan untuk off-chip DRAM di dalam subsistem memori, yang memungkinkan untuk ekspansi hingga 128 GB. MTIA juga dilengkapi dengan 128 MB SRAM on-chip yang dibagi di antara semua PEs, memungkinkan akses data dan instruksi dengan bandwidth lebih besar dan latency yang lebih rendah.

Bagi Meta, GPU tidak selalu menjadi pilihan terbaik dalam memproses beban kerja rekomendasi secara efisien. Oleh karena itu, Meta mengembangkan chip khusus MTIA untuk memproses beban kerja rekomendasi mereka. Chip ini dapat digunakan dalam seluruh gridnya untuk menjalankan tugas atau dibagi menjadi beberapa subgrid, masing-masing dapat menangani tugasnya.

Pengembangan MTIA

Chip MTIA merupakan hasil kolaborasi antara Meta, PyTorch, dan model rekomendasi. Dalam pengembangannya, MTIA menggunakan teknologi TSMC 7nm dan dapat mencapai 102,4 TOPS dengan presisi INT8 dan 51,2 TFLOPS dengan presisi FP16. TDP perangkat ini adalah 25 W, sehingga dapat menghemat energi tanpa mengorbankan kinerja.

MTIA memiliki 64 PEs dalam grid yang diletakkan dalam matriks 8 x 8. Setiap PE memiliki 128 KB local SRAM memory yang memungkinkan penyimpanan dan pemrosesan data yang cepat. Jaringan mesh menghubungkan PEs satu sama lain dan ke bank memori. Grid dapat digunakan dalam seluruhnya untuk menjalankan tugas atau dibagi menjadi beberapa subgrid, masing-masing dapat menangani tugasnya.

Pengembangan MTIA menjadi solusi yang efisien dan unggul diharapkan dapat membantu Meta dalam meningkatkan kinerja AI mereka. Selain itu, pengembangan yang berkelanjutan dilakukan pada PyTorch 2.0 diharapkan dapat memperbaiki kinerja PyTorch pada level kompilator. Ini akan membantu para pengembang mempertahankan produktivitas mereka dalam mengembangkan AI di Meta.

Perbandingan dengan Accelerator Lain

Para peneliti melakukan perbandingan MTIA dengan accelerator NNPI dan GPU. Hasilnya menunjukkan bahwa MTIA bergantung pada manajemen yang efisien dalam bentuk kecil dan batch sizes untuk model yang memiliki kompleksitas yang rendah. Di sisi lain, MTIA menggunakan formulir yang lebih besar dan lebih dioptimalkan pada GPU’s SW stack untuk menjalankan model dengan kompleksitas sedang dan tinggi.

Namun, Meta terus berupaya untuk mencari cara baru untuk memperbaiki kinerja AI mereka dengan menemukan keseimbangan antara daya komputasi, kapasitas memori, dan bandwidth interkoneksi. Dalam perkembangan selanjutnya, Meta akan memperkuat kolaborasi antara pengembang AI, PyTorch, dan hardware untuk meningkatkan kinerja dan efisiensi AI di Meta.

Disarikan dari: Link