"Keajaiban AI: Pix2Act Mampu Berinteraksi Dengan GUI Menggunakan Konsep Interface Yang Sama Dengan Manusia Melalui Screenshots Berbasis Pixel Dan Aksi Keyboard Dan Mouse Generik"

Google DeepMind dan Google telah mengembangkan model baru bernama PIX2ACT yang dapat mengubah tangkapan layar berbasis piksel menjadi tindakan yang sesuai dengan kontrol dasar mouse dan keyboard. Dengan menggabungkan pengenalan gambar dan pemodelan bahasa alami, teknologi ini dapat menjembatani kesenjangan antara dunia digital dan pengguna manusia dalam hal interaksi.

PIX2ACT Meningkatkan Kinerja Agen Digital

Teknologi PIX2ACT didasarkan pada model PIX2STRUCT. Model ini berbasis pengubah yang dapat mengubah tangkapan layar HTML menjadi representasi terstruktur berdasarkan HTML. Dalam pengujian dan ujicoba, PIX2ACT menunjukkan kinerja yang sangat baik dalam mengikuti instruksi berbasis GUI. Dengan hanya menggunakan masukan berbasis piksel dan ruang aksi generik, teknologi ini dapat melampaui performa kerja manusia dalam beberapa tugas berbeda.

Keberhasilan PIX2ACT juga memungkinkan penggunaan lingkungan universal berbasis browser dan penyesuaian dua set data referensi, MiniWob ++ dan WebShop, untuk digunakan dalam lingkungan ini menggunakan format observasi dan tindakan lintas domain standar. Dalam pengujian, PIX2ACT mengungguli pekerja kerumunan manusia sekitar empat kali lipat pada MiniWob ++.

Meskipun kinerjanya masih kalah dengan model bahasa yang lebih besar yang menggunakan input berbasis HTML dan tindakan khusus tugas, teknologi PIX2ACT ini sudah memberikan dasar awal dalam lingkungan kerja ini. Hasil pengujian menunjukkan bahwa pre-training PIX2STRUCT berbasis piksel sangat penting untuk kinerja PIX2ACT.

Kelebihan dan Kelemahan Pengenalan GUI Berbasis Piksel

Teknologi pengenalan GUI berbasis piksel memiliki kelebihan dan kelemahan tersendiri. Dengan menggunakan teknologi ini, pengguna dapat mengautomatisasi tugas-tugas yang membosankan dan meningkatkan aksesibilitas terhadap teknologi. Namun, untuk dapat memahami GUI dengan baik, seseorang harus terbiasa dengan struktur antarmuka, dapat mengenali dan menginterpretasi bahasa alami secara visual, mengidentifikasi elemen visual dan memprediksi fungsi dan metode interaksi dari elemen-elemen ini.

Teknologi ini juga memiliki keterbatasan dalam mengenali instruksi berbasis GUI. Ada banyak halangan yang muncul ketika harus belajar dari masukan berbasis piksel dalam kombinasi dengan tindakan generik berlevel rendah dalam tugas mengikuti instruksi berbasis GUI. Untuk mengatasi hal ini, diperlukan teknologi yang lebih canggih yang dapat memahami instruksi dengan lebih baik, seperti model bahasa yang lebih besar yang menggunakan input berbasis HTML dan tindakan khusus tugas.

Namun, meskipun teknologi pengenalan GUI berbasis piksel masih memiliki keterbatasan, teknologi ini tetap memberikan kontribusi yang signifikan dalam pengembangan teknologi interaksi manusia dan mesin. Dalam waktu dekat, teknologi ini kemungkinan akan semakin memiliki peran penting dalam berbagai bidang, seperti industri game, teknologi pembelajaran mesin dan teknologi pengenalan suara.

Disarikan dari: Sumber