Rekonstruksi Pengalaman Visual dari Proses Otak Manusia dengan Teknologi MRI
Mengapa kita berpikir tentang suatu objek atau situasi tertentu? Bagaimana cara otak kita memproses informasi visual? Pertanyaan-pertanyaan seperti ini telah menjadi fokus para peneliti selama beberapa dekade terakhir. Dan kini, teknologi pemindaian otak seperti Magnetic Resonance Imaging (MRI) telah memungkinkan kita untuk mempelajari proses kognitif manusia dengan lebih terperinci.
Namun, mengumpulkan data dari teknologi MRI masih memiliki tantangan tersendiri. Karena teknologi ini masih lebih rentan terhadap gangguan luar seperti suara bising. Selain itu, proses pengumpulan data neuroimaging sangatlah memakan waktu dan mahal.
Namun, ada kemajuan yang signifikan dalam memulihkan gambar diam dari rekaman otak non-invasif, meskipun belum banyak terjawab dengan pengalaman visual berkelanjutan seperti film. Banyak penelitian yang dilakukan untuk memulihkan pengalaman visual manusia yang bersifat dinamis dan berkelanjutan. Namun, hal ini masih sulit dilakukan karena teknologi MRI hanya dapat memproses sinyal Blood Oxygenation Level-Dependent (BOLD) dan mengambil gambar aktivitas otak setiap beberapa detik.
Untuk mengatasi tantangan ini, para peneliti dari National University of Singapore dan Chinese University of Hong Kong memperkenalkan MinD-Video, sebuah pipeline modular untuk decoding otak yang terdiri dari encoder fMRI dan augmented stable diffusion model yang dilatih secara independen dan kemudian disesuaikan bersama-sama.
Cara Kerja MinD-Video
Dalam MinD-Video, para peneliti menggunakan teknologi fMRI untuk merekam aktivitas otak manusia saat menonton film. Teknologi ini dapat merekam aktivitas otak setiap beberapa detik, sehingga memungkinkan peneliti untuk merekonstruksi pengalaman visual manusia secara dinamis dan berkelanjutan.
Pertama-tama, tim peneliti melatih fitur visual fMRI generik dengan supervised learning dan masked brain modeling. Kemudian, mereka menggunakan dataset multimodal untuk mengekstrak fitur yang terkait dengan arti kata dan melatih encoder fMRI dalam ruang pre-training Contrastive Language-Image (CLIP). Terakhir, mereka menggunakan augmented stable diffusion model untuk merekonstruksi pengalaman visual.
Hasil dari penelitian ini menunjukkan bahwa MinD-Video mampu merekonstruksi pengalaman visual manusia dengan tingkat akurasi yang tinggi. Para peneliti menemukan bahwa teknologi ini juga memiliki kesesuaian biologis dan interpretasi berdasarkan hasil studi perhatian, yang menunjukkan bahwa otak manusia dapat memetakan ke korteks visual dan jaringan kognitif yang lebih tinggi.
Namun, meskipun MinD-Video menjanjikan, masih ada beberapa tantangan teknis yang harus diatasi untuk mengoptimalkan potensinya. Tantangan utama adalah meningkatkan kecepatan pemrosesan data dan memperluas cakupan data otak yang dapat diproses. Para peneliti berharap bahwa pengembangan model yang lebih kompleks dapat membantu mengatasi tantangan ini dan memberikan manfaat bagi bidang neurosains dan Brain-Computer Interface (BCI).
Disarikan dari: Source