Robot Anjing Menari Moonwalk Bergaya MJ Menggunakan Kode sebagai Antarmuka Fleksibel antara LLMs dan Kontroler Gerakan Berbasis Optimasi

AI dan Machine Learning telah menjadi industri yang semakin mendominasi dunia saat ini. Dengan kemajuan penelitian dan model yang terus berkembang, AI semakin canggih. Baik dalam bidang kesehatan, pendidikan, pemasaran, maupun bisnis, praktik AI dan Machine Learning mulai mengubah cara industri beroperasi. Eksistensi Large Language Models (LLMs), yang merupakan kemajuan terkenal dalam AI, juga semakin banyak diadopsi oleh hampir setiap organisasi. LLM terkenal seperti GPT-3.5 dan GPT-4 telah menunjukkan adaptabilitas yang mengesankan dalam konteks baru, memungkinkan tugas seperti penalaran logis dan generasi kode dengan jumlah sampel yang minimal.

Para peneliti juga telah meneliti penggunaan LLM dalam meningkatkan kontrol robot dalam bidang robotika. Karena operasi robot tingkat rendah bergantung pada perangkat keras dan seringkali kurang terepresentasikan dalam data pelatihan LLM, penggunaan LLM dalam robotika menjadi sulit. Pendekatan sebelumnya telah melihat LLM sebagai perencana semantik atau bergantung pada primitif kontrol yang dibuat oleh manusia untuk berkomunikasi dengan robot. Untuk mengatasi semua tantangan tersebut, para peneliti dari Google DeepMind mengenalkan paradigma baru yang memanfaatkan adaptabilitas dan potensi optimasi fungsi reward untuk melaksanakan berbagai aktivitas robotik.

Fungsi reward berperan sebagai antarmuka perantara yang ditentukan oleh LLMs, yang dapat dioptimasi nantinya untuk mengarahkan strategi kontrol robot. Fungsi-fungsi ini cocok untuk ditentukan oleh LLMs karena kekayaan semantisnya, yang dapat menghubungkan perintah atau koreksi bahasa tingkat tinggi dengan perilaku robot tingkat rendah secara efisien. Tim peneliti menyebutkan bahwa operasi pada tingkat abstraksi yang lebih tinggi menggunakan fungsi reward sebagai antarmuka antara bahasa dan aksi robotik rendah terinspirasi dari pengamatan bahwa instruksi bahasa manusia seringkali menggambarkan hasil perilaku daripada tindakan tingkat rendah yang spesifik. Dengan menghubungkan instruksi dengan reward, lebih mudah untuk menjembatani kesenjangan antara bahasa dan perilaku robot, karena reward menangkap kedalaman semantis yang terkait dengan hasil yang diinginkan.

Pada paradigma ini, digunakanlah optimasi Model Prediktif Kontrol (MPC) MuJoCo secara real-time untuk memungkinkan pengembangan perilaku interaktif. Proses penyempurnaan iteratif ini ditingkatkan dengan kemampuan pengguna untuk segera mengamati hasil dan memberikan masukan kepada sistem. Untuk proses evaluasi, tim peneliti merancang serangkaian 17 tugas untuk robot cuadruped simulasi dan manipulator robot yang terampil. Metode ini mampu menyelesaikan 90% tugas yang dirancang dengan kinerja yang baik. Sebaliknya, strategi dasar yang menggunakan keterampilan primitif sebagai antarmuka dengan Kode sebagai kebijakan hanya menyelesaikan 50% tugas. Percobaan juga dilakukan pada lengan robot nyata untuk menguji efisiensi metodologi ini, di mana sistem interaktif menunjukkan keterampilan manipulasi yang kompleks, seperti mendorong tanpa memegang.

Secara keseluruhan, pendekatan ini sangat menjanjikan karena dengan bantuan LLM, parameter reward dapat ditentukan dan dioptimasi untuk kontrol robot. Kombinasi reward yang dihasilkan oleh LLM dan teknik optimasi real-time menunjukkan proses pembuatan perilaku yang interaktif dan berbasis umpan balik, yang memungkinkan pengguna untuk mencapai perilaku robotik yang kompleks dengan lebih efisien dan efektif.

Pada akhirnya, penggunaan LLM untuk mengoptimalkan reward dan mengendalikan robotik adalah terobosan yang menarik. Dengan memanfaatkan kemampuan LLM dalam menghubungkan bahasa tingkat tinggi dengan perilaku robotik tingkat rendah, pengguna dapat mencapai hasil yang diinginkan dengan lebih mudah. Pengembangan ini diharapkan dapat membantu mendorong perkembangan teknologi AI dan robotika yang lebih maju di masa depan.

Manfaat LLM dalam Kontrol Robotic

LLM telah membawa banyak manfaat dalam bidang kontrol robotik. Dengan kemampuan LLM dalam menghubungkan instruksi bahasa tingkat tinggi dengan perilaku robotik tingkat rendah, pengguna dapat mencapai hasil yang diinginkan dengan lebih mudah. Hal ini membuka peluang untuk mengembangkan robot-robot yang lebih canggih dan efektif dalam berbagai bidang, seperti industri, perawatan kesehatan, dan pendidikan.

Dalam bidang industri, penggunaan LLM dalam kontrol robotik dapat membantu meningkatkan efisiensi dan produktivitas. Robot-robot yang dikendalikan oleh LLM dapat melakukan tugas-tugas yang kompleks dan berulang dengan presisi tinggi, sehingga mengurangi kesalahan dan waktu yang diperlukan. Hal ini dapat menyebabkan penghematan biaya dan peningkatan kualitas produk.

Di bidang perawatan kesehatan, LLM dalam kontrol robotik dapat digunakan dalam berbagai aplikasi, seperti operasi bedah robotik dan perawatan pasien. Robot yang dikendalikan oleh LLM dapat melakukan tugas-tugas yang rumit dengan presisi tinggi, mengurangi risiko kesalahan manusia dan mempercepat pemulihan pasien. Selain itu, LLM juga dapat digunakan untuk menganalisis data medis dan memberikan rekomendasi pengobatan yang lebih akurat.

Dalam bidang pendidikan, LLM dalam kontrol robotik dapat digunakan untuk mengembangkan sistem pembelajaran yang interaktif dan menarik. Robot yang dikendalikan oleh LLM dapat berinteraksi dengan siswa dan membantu mereka memahami konsep-konsep yang kompleks dengan cara yang lebih visual dan praktis. Hal ini dapat meningkatkan minat dan pemahaman siswa terhadap materi pelajaran.

Dengan semua manfaat yang ditawarkan oleh LLM dalam kontrol robotik, tidak heran jika semakin banyak organisasi dan peneliti yang tertarik untuk mengadopsi teknologi ini. Diharapkan, pengembangan dan penerapan LLM dalam kontrol robotik akan terus berkembang dan memberikan kontribusi besar dalam meningkatkan kehidupan manusia di masa depan.

Disarikan dari: Source