Peneliti Microsoft Mengusulkan BioViL-T: Kerangka Baru Yang Meningkatkan Performa Prediktif Dan Efisiensi Data Pada Aplikasi Biomedis

Kecerdasan Buatan (Artificial Intelligence/AI) telah muncul sebagai kekuatan disruptif yang signifikan di berbagai industri, mulai dari cara operasi bisnis teknologi hingga cara inovasi terwujud dalam subdomain-sektor kesehatan. Bidang biomedis khususnya telah menyaksikan kemajuan dan transformasi yang signifikan dengan diperkenalkannya AI. Salah satu kemajuan yang patut dicatat adalah penggunaan model vision-language self-supervised dalam bidang radiologi. Radiolog sangat bergantung pada laporan radiologi untuk menyampaikan observasi gambaran dan memberikan diagnosis klinis. Penting untuk dicatat bahwa studi gambar sebelumnya sering kali memainkan peran penting dalam proses pengambilan keputusan ini karena memberikan konteks penting untuk menilai perkembangan penyakit dan menentukan pilihan obat yang tepat. Namun, solusi AI saat ini di pasaran tidak dapat berhasil menyelaraskan gambar dengan data laporan karena terbatasnya akses ke pemindaian sebelumnya. Selain itu, metode ini seringkali tidak mempertimbangkan perkembangan kronologis penyakit atau temuan gambar yang umumnya ada dalam dataset biologis. Kurangnya informasi kontekstual ini menyebabkan risiko dalam aplikasi downstream seperti pembuatan laporan otomatis, di mana model dapat menghasilkan konten temporal yang tidak akurat tanpa akses ke pemindaian medis sebelumnya. Dengan diperkenalkannya model vision-language, para peneliti bertujuan untuk menghasilkan sinyal pelatihan informatif dengan menggunakan pasangan gambar-teks, sehingga menghilangkan kebutuhan akan label manual. Pendekatan ini memungkinkan model untuk belajar bagaimana mengidentifikasi dan menyoroti temuan dengan tepat dalam gambar serta menjalin hubungan dengan informasi yang disajikan dalam laporan radiologi.

Microsoft Research terus bekerja untuk meningkatkan AI untuk pelaporan dan radiografi. Penelitian sebelumnya mereka tentang pembelajaran self-supervised multimodal laporan radiologi dan gambar telah menghasilkan hasil yang memuaskan dalam mengidentifikasi masalah medis dan memetakan temuan ini dalam gambar. Sebagai kontribusi terhadap gelombang penelitian ini, Microsoft merilis BioViL-T, suatu kerangka pelatihan self-supervised yang mempertimbangkan gambar dan laporan sebelumnya saat tersedia selama pelatihan dan fine-tuning. BioViL-T mencapai hasil terobosan pada berbagai benchmark downstream, seperti klasifikasi progresi dan pembuatan laporan, dengan memanfaatkan struktur temporal yang ada dalam dataset. Karakteristik khas BioViL-T terletak pada pertimbangan eksplisitnya terhadap gambar dan laporan sebelumnya sepanjang proses pelatihan dan fine-tuning daripada memperlakukan setiap pasangan gambar-laporan sebagai entitas terpisah. Alasan para peneliti untuk menggabungkan gambar dan laporan sebelumnya adalah untuk memaksimalkan pemanfaatan data yang tersedia, menghasilkan representasi yang lebih komprehensif dan kinerja yang lebih baik dalam berbagai tugas. BioViL-T memperkenalkan pengkode gambar multi-gambar CNN-Transformer yang unik yang dilatih bersama dengan model teks. Pengkode gambar multi-gambar baru ini berfungsi sebagai blok pembangun fundamental dari kerangka pre-training, mengatasi tantangan seperti ketiadaan gambar sebelumnya dan variasi posisi pada gambar dari waktu ke waktu.

Pemilihan model CNN dan transformer untuk menciptakan pengkode gambar multi-gambar hibrida bertujuan untuk mengekstraksi fitur spasial-temporal dari urutan gambar. Ketika gambar sebelumnya tersedia, transformer bertanggung jawab dalam menangkap interaksi patch embedding sepanjang waktu. Di sisi lain, CNN bertanggung jawab dalam memberikan properti token visual dari gambar individual. Pengkode gambar hibrida ini meningkatkan efisiensi data, sehingga cocok untuk dataset dengan ukuran yang lebih kecil. Ia secara efisien menangkap karakteristik gambar statis dan temporal, yang penting untuk aplikasi seperti dekoding laporan yang membutuhkan penalaran visual pada tingkat yang padat seiring waktu. Prosedur pre-training model BioViL-T dapat dibagi menjadi dua komponen utama: pengkode gambar multi-gambar untuk mengekstraksi fitur spasial-temporal dan pengkode teks yang menyertakan cross-attention opsional dengan fitur gambar. Model-model ini dilatih bersama menggunakan tujuan kontras global dan lokal lintas-modal. Model ini juga memanfaatkan representasi yang tergabung multimodal yang diperoleh melalui cross-attention untuk pemodelan bahasa berbasis gambar yang dipandu, sehingga secara efektif memanfaatkan informasi visual dan tekstual. Hal ini memainkan peran sentral dalam menyelesaikan ambiguitas dan meningkatkan pemahaman bahasa, yang sangat penting untuk berbagai tugas downstream.

Keberhasilan strategi para peneliti Microsoft ini dibantu oleh berbagai evaluasi eksperimental yang mereka lakukan. Model ini mencapai performa state-of-the-art untuk berbagai tugas downstream seperti kategorisasi progresi, grounding frase, dan pembuatan laporan dalam konfigurasi single- dan multi-gambar. Selain itu, ia meningkatkan performa dibandingkan dengan model sebelumnya dan memberikan hasil yang menguntungkan dalam tugas-tugas seperti klasifikasi penyakit dan kesamaan kalimat. Microsoft Research telah membuat model dan kode sumbernya tersedia untuk umum untuk mendorong komunitas untuk menyelidiki lebih lanjut atas karyanya. Dataset benchmark temporal multimodal yang baru, bernama MS-CXR-T, juga akan dipublikasikan oleh para peneliti untuk merangsang penelitian tambahan dalam memperkirakan sejauh mana representasi vision-language dapat menangkap semantik temporal.

Subtopik 1: Penggunaan Model Vision-Language Self-Supervised dalam Radiologi
Pengenalan AI telah membawa kemajuan signifikan dalam bidang biomedis, terutama dalam radiologi. Radiolog sangat bergantung pada laporan radiologi untuk memberikan diagnosis klinis, dan sebelumnya solusi AI tidak dapat menyelaraskan gambar dengan data laporan dengan akurat. Namun, dengan penggunaan model vision-language self-supervised, peneliti berhasil menghasilkan kemajuan yang signifikan dalam mengidentifikasi temuan medis dalam gambar radiologi dan menghubungkannya dengan informasi yang terdapat dalam laporan radiologi.

Subtopik 2: BioViL-T: Kerangka Pelatihan Self-Supervised untuk Radiologi
Microsoft Research telah mengembangkan BioViL-T, suatu kerangka pelatihan self-supervised yang mencakup gambar dan laporan sebelumnya saat tersedia selama pelatihan dan fine-tuning. BioViL-T mencapai hasil terobosan dalam berbagai tugas seperti klasifikasi progresi dan pembuatan laporan dengan memanfaatkan struktur temporal dalam dataset. Kerangka BioViL-T ini mempertimbangkan gambar dan laporan sebelumnya secara eksplisit, yang memungkinkan penggunaan data yang tersedia secara maksimal dan meningkatkan kinerja dalam berbagai tugas.

Disarikan dari: Link