افزایش داده ها ممکن است تعمیم LLM را در یادداشت های بالینی بهبود بخشد

نوشته شانیا کندی

29 ژانویه 2024 – بر اساس یافته های ارائه شده در سی و هفتمین کنفرانس سالانه سیستم های پردازش اطلاعات عصبی، محققان دانشگاه جان هاپکینز و دانشگاه کلمبیا تکنیکی را برای بهبود عملکرد مدل های هوش مصنوعی (AI) و یادگیری ماشین (ML) برای تجزیه و تحلیل یادداشت های پزشکی ایجاد کرده اند.

یادداشت‌های بالینی که در پرونده‌های سلامت الکترونیکی (EHR) نگهداری می‌شوند، حاوی داده‌های ارزشمندی هستند که می‌توانند برای بهبود مراقبت استفاده شوند. با این حال، بررسی، مرتب‌سازی و تجزیه و تحلیل این اطلاعات بیش از حد زمان و منابع زیادی است که نمی‌توان به صورت دستی انجام شود.

فناوری‌های هوش مصنوعی راه‌حل بالقوه‌ای برای این مشکل هستند، زیرا این ابزارها می‌توانند حجم زیادی از داده‌ها را به سرعت پردازش کنند. اما سؤالات پیرامون تعمیم‌پذیری مدل و عملکرد، موانع مهمی را برای استقرار ایجاد می‌کنند.

مدل‌های هوش مصنوعی و ML برای تجزیه و تحلیل یادداشت‌های پزشکی معمولاً بر روی داده‌های EHR سیستم‌های بهداشتی آموزش داده می‌شوند، که به ابزارها کمک می‌کند اطلاعات کلیدی در مورد شرایط پزشکی بیماران را «یاد بگیرند».

با این حال، یادداشت‌های پزشکی می‌توانند به طور قابل‌توجهی در داخل و در بین سیستم‌های بهداشتی متفاوت باشند، به این معنی که مدل‌های آموزش‌دیده بر روی این داده‌ها ممکن است در هنگام تحلیل یادداشت‌های بالینی از منابع دیگر عملکرد ضعیفی داشته باشند. این پدیده به عنوان “تغییر مجموعه داده” شناخته می شود و می تواند نگرانی های ایمنی در مورد استقرار هوش مصنوعی مراقبت های بهداشتی ایجاد کند.

بیشتر بخوانید: محققان ابزار NLP را برای استخراج SDOH از یادداشت های بالینی تأیید می کنند

برای مقابله با این چالش‌ها، محققان یک تکنیک افزایش داده را توسعه دادند که برای افزایش تعمیم‌پذیری مدل طراحی شده بود.

تیم تحقیقاتی تاکید کرد که تغییرات در سبک نوشتاری پزشکان می‌تواند باعث شود که مدل‌های هوش مصنوعی ارتباط بین عواملی مانند دستور زبان یا انتخاب کلمه و تشخیص یا شرایط پزشکی بیمار را به‌طور نادرست استنتاج کنند. همین امر می تواند در مورد الگوها – از جمله جداول و سرفصل ها – که پزشکان اغلب در یادداشت های خود استفاده می کنند اتفاق بیفتد.

در حالی که این عوامل مرتبط با سبک به تجزیه و تحلیل انجام شده توسط هوش مصنوعی بی ربط هستند، همان الگوها اغلب توسط پزشکانی که زیر گروه های خاصی از بیماران را درمان می کنند استفاده می شود. سپس ابزار هوش مصنوعی تشخیص می‌دهد که آن الگو و برخی تشخیص‌ها به طور منظم با هم ظاهر می‌شوند، و این باعث می‌شود که مدل به‌طور بالقوه از همبستگی‌های جعلی، به جای ارتباط‌های واقعی در داده‌ها، یاد بگیرد.

برای مبارزه با این، محققان استفاده از تقویت داده ها را برای جلوگیری از یادگیری ابزارها از همبستگی های جعلی پیشنهاد می کنند.

یوآو والد، دکترای فوق دکترا در دانشکده وایتینگ جانز هاپکینز، گفت: «ما دریافتیم که می‌توانیم استحکام این مدل‌های متن را در محیط‌های مختلف با کمتر کردن حساسیت آن‌ها نسبت به تغییرات در عادات و سبک‌های نوشتاری که بین مراقبان مختلف مشاهده می‌شود بهبود بخشیم». از مهندسی که روی این پروژه کار می کردند، در یک خبر.

بیشتر بخوانید: استفاده از ابزار نتیجه گزارش شده توسط بیمار برای عملی کردن داده های EHR

این تکنیک محققان را قادر می‌سازد تا مدل‌ها را با دادن یادداشت‌های پزشکی مشابهی که در چندین سبک مختلف نوشته شده است، نسبت به این عوامل حساسیت کمتری نشان دهند. این به هوش مصنوعی اجازه می دهد تا از محتوای یادداشت ها، به جای سبک یا الگوهای استفاده شده، بیاموزد.

اما به جای اینکه پزشکان برای کمک به دستیابی به این هدف، یادداشت های یکدیگر را بازنویسی کنند – که باعث ایجاد بار ناخواسته برای تیم های مراقبت از قبل شلوغ می شود – تیم تحقیقاتی به مدل های زبان بزرگ (LLM) روی آوردند.

والد توضیح داد: «با توجه به یادداشت خاصی که می‌خواهیم به سبک برخی از مراقبان – مثلاً دکتر بث – بازنویسی کنیم، در عوض از یک LLM می‌پرسیم که اگر دکتر بث آن را نوشته بود، این یادداشت چگونه به نظر می‌رسید؟»

این رویکرد به تولید داده های خلاف واقع کمک می کند، که می تواند برای تعیین اینکه یک مدل بر اساس تغییر در ورودی آن چه چیزی را پیش بینی می کند، استفاده شود. این اطلاعات می‌تواند به نفی همبستگی‌های جعلی در داده‌های دنیای واقعی کمک کند و استفاده از داده‌های خلاف واقع این پتانسیل را دارد که احتمال پیش‌بینی‌های نادرست یک مدل هوش مصنوعی را کاهش دهد.

استفاده از داده‌های کمکی از یادداشت‌های بالینی – مانند مشخصات دموگرافیک بیمار، مهرهای زمانی و انواع اسناد – می‌تواند تقریب‌هایی با کیفیت بالا از این داده‌های خلاف واقع ایجاد کند.

بیشتر بخوانید: هوش مصنوعی به سازمان داده های EHR کمک می کند

محققان نشان دادند که این تکنیک استفاده از LLM ها را به شیوه ای مبتنی بر حوزه مراقبت های بهداشتی ترویج می کند و قابلیت تعمیم مدل های هوش مصنوعی را برای تجزیه و تحلیل یادداشت های پزشکی بهبود می بخشد.

این کار بخشی از یک تلاش بزرگتر برای توسعه یک چارچوب ایمنی هوش مصنوعی برای برنامه های کاربردی مراقبت های بهداشتی است.

سوچی ساریا، دکترا، استادیار جان سی. مالون، اظهار داشت: «همانطور که ما استفاده از هوش مصنوعی را در برنامه‌های کاربردی دنیای واقعی افزایش می‌دهیم و در مورد نقاط قوت و ضعف آن می‌آموزیم، توسعه ابزارهایی که استحکام و ایمنی مدل‌های هوش مصنوعی را بهبود می‌بخشد، مهم است. علوم کامپیوتر در دانشکده مهندسی وایتینگ. این یک حوزه کلیدی تمرکز ما در طول پنج سال گذشته بوده است و این کار جدید گام مهمی در این مسیر برداشته است. روش‌هایی که ما در اینجا توسعه داده‌ایم مستقیماً در بسیاری از کارهای مهم طبقه‌بندی متن قابل اجرا هستند.»

والد خاطرنشان کرد: «به طور کلی، ما معتقدیم که روش‌های تقویت داده با انگیزه علّی مانند روش ما می‌تواند به رفع چالش‌ها در توسعه سیستم‌های ML قوی و قابل اعتماد، به‌ویژه در کاربردهای حیاتی ایمنی کمک کند».

استفاده از هوش مصنوعی در تجزیه و تحلیل یادداشت های پزشکی می تواند نقش کلیدی در روند بهبود اسناد بالینی داشته باشد.

سیستم‌های بهداشتی به طور فزاینده‌ای به دستیاران مستندسازی EHR روی می‌آورند تا اسناد را ساده‌تر کنند و فرسودگی شغلی پزشکان را کاهش دهند. این ابزارها، اغلب فناوری‌های مبتنی بر نویسه یا صدا، می‌توانند به کاهش مدت زمانی که پزشکان بالینی صرف مستندسازی می‌کنند، بدون به خطر انداختن کیفیت یادداشت‌ها، کمک کنند.

تجزیه و تحلیل یادداشت پزشکی یک راه بالقوه برای مفیدتر کردن اطلاعات موجود در اسناد بالینی با نمایاندن ارتباطات بالقوه در داده‌ها ارائه می‌کند که می‌تواند برای اطلاع‌رسانی به تحلیل‌های پیش‌بینی‌کننده یا هدایت تصمیم‌گیری بالینی استفاده شود.