Peneliti DeepMind Membuka TAPIR: Model AI Baru untuk Melacak Titik Apapun yang Efektif dalam Memantau Titik Permintaan dalam Urutan Video

Model TAPIR: Inovasi Terbaru dalam Bidang Computer Vision

Bidang Computer Vision menjadi salah satu bidang paling populer dalam Artificial Intelligence. Model-model yang dikembangkan menggunakan computer vision mampu menghasilkan informasi yang bermakna dari berbagai jenis media, baik itu gambar digital, video, atau input visual lainnya. Computer vision mengajarkan mesin untuk memahami dan mengerti informasi visual, serta bertindak berdasarkan detail yang ada. Computer vision telah mengalami lompatan signifikan dengan diperkenalkannya model baru bernama Tracking Any Point with per-frame Initialization and Temporal Refinement (TAPIR). TAPIR dirancang dengan tujuan untuk melacak dengan efektif titik minat tertentu dalam rangkaian video.

Model TAPIR dikembangkan oleh tim peneliti dari Google DeepMind, VGG, Department of Engineering Science, dan University of Oxford. Algoritma di balik model TAPIR terdiri dari dua tahap – tahap pencocokan dan tahap penyempurnaan. Pada tahap pencocokan, model TAPIR menganalisis setiap frame video secara terpisah untuk mencari titik pencocok kandidat yang sesuai dengan titik kueri. Langkah ini bertujuan untuk mengidentifikasi titik terkait yang paling mungkin dengan titik kueri pada setiap frame, dan untuk memastikan bahwa model TAPIR dapat mengikuti pergerakan titik kueri di seluruh video, prosedur ini dilakukan secara frame demi frame.

Tahap pencocokan di mana titik pencocok kandidat diidentifikasi diikuti dengan penerapan tahap penyempurnaan. Pada tahap ini, model TAPIR memperbarui baik lintasan, yaitu jalur yang diikuti oleh titik kueri, maupun fitur kueri berdasarkan korelasi lokal, sehingga memperhitungkan informasi sekitar pada setiap frame untuk meningkatkan akurasi dan ketepatan dalam melacak titik kueri. Tahap penyempurnaan meningkatkan kapasitas model untuk dengan tepat melacak pergerakan titik kueri dan menyesuaikan dengan variasi dalam rangkaian video dengan mengintegrasikan korelasi lokal.

Peningkatan Kinerja Model TAPIR dalam Pelacakan Video

Untuk evaluasi model TAPIR, tim peneliti menggunakan TAP-Vid benchmark, yang merupakan kumpulan data evaluasi standar untuk tugas pelacakan video. Hasil penelitian menunjukkan bahwa model TAPIR memiliki kinerja yang signifikan lebih baik dibandingkan dengan teknik dasar. Peningkatan kinerja diukur menggunakan metrik Average Jaccard (AJ), di mana model TAPIR telah berhasil mencapai peningkatan absolut sekitar 20% dalam AJ dibandingkan dengan metode lainnya pada benchmark DAVIS (Densely Annotated Video Segmentation).

Model ini dirancang untuk memfasilitasi inferensi paralel cepat pada rangkaian video yang panjang, yaitu dapat memproses beberapa frame secara bersamaan, meningkatkan efisiensi tugas pelacakan. Tim peneliti menyebutkan bahwa model ini dapat digunakan secara langsung (live), sehingga mampu memproses dan melacak titik-titik saat frame video baru ditambahkan. Model ini dapat melacak 256 titik pada video berukuran 256×256 dengan kecepatan sekitar 40 frame per detik (fps) dan juga dapat diperluas untuk menangani film dengan resolusi yang lebih tinggi, memberikan fleksibilitas dalam cara penanganan video berbagai ukuran dan kualitas.

Tim peneliti juga menyediakan dua demo Google Colab online bagi pengguna untuk mencoba TAPIR tanpa instalasi. Demo Colab pertama memungkinkan pengguna menjalankan model pada video mereka sendiri, memberikan pengalaman interaktif untuk menguji dan mengamati kinerja model. Demo kedua fokus pada menjalankan TAPIR secara online. Pengguna juga dapat menjalankan TAPIR secara live dengan melacak titik pada webcam mereka sendiri dengan GPU modern dengan mengkloning kode yang disediakan.

Disarikan dari: Citation