– محققان دانشگاه ایالتی پنسیلوانیا (PSU) چارچوبی برای پردازش زبان طبیعی (NLP) برای بهبود کارایی و قابلیت اطمینان ابزارهای خلاصهسازی متن پزشکی مبتنی بر هوش مصنوعی (AI) ایجاد کردهاند.
فرآیند خلاصهسازی پزشکی برای کمک به فشردهسازی اطلاعات بیمار به خلاصههای در دسترس، کلیدی است که میتواند در پروندههای الکترونیکی سلامت، ادعاهای بیمه و در محل مراقبت استفاده شود. میتوان از هوش مصنوعی برای تولید این خلاصهها استفاده کرد، اما تیم تحقیقاتی تأکید کردند که انجام این کار میتواند منجر به نگرانیهایی در مورد قابلیت اطمینان خلاصههای گفته شده شود.
نان ژانگ، یک دانشجوی فارغ التحصیل در کالج علوم و فناوری اطلاعات PSU (IST)، در بیانیه خبری توضیح داد: «یک مشکل وفاداری در ابزارهای NLP و الگوریتم های یادگیری ماشین فعلی که در خلاصه سازی پزشکی استفاده می شود وجود دارد. . “برای اطمینان از قابل اعتماد بودن سوابق تعاملات پزشک و بیمار، یک مدل خلاصه پزشکی باید 100٪ با گزارش ها و مکالماتی که آنها مستند می کنند مطابقت داشته باشد.”
مدلهای جمعبندی پزشکی کنونی از نظارت انسان برای جلوگیری از ایجاد خلاصههای «بیوفا» که میتواند منجر به آسیب بیمار شود، استفاده میکند، اما محققان خاطرنشان کردند که مطالعه منابع خیانت در این مدلها برای اطمینان از کارایی و ایمنی بسیار مهم است.
برای بررسی بیوفایی مدل، محققان سه مجموعه دادهای را که توسط ابزارهای موجود در حوزههای خلاصهسازی گزارشهای رادیولوژی، خلاصهسازی گفتگوی پزشکی و خلاصهسازی سؤالات سلامت آنلاین ایجاد شده بود، تجزیه و تحلیل کردند.
بیشتر بخوانید: افزایش داده ها ممکن است تعمیم LLM را در یادداشت های بالینی بهبود بخشد
بین 100 تا 200 خلاصه به طور تصادفی از هر مجموعه داده انتخاب شد و به صورت دستی با گزارشهای پزشکی اصلی که از آن مشتق شده بود مقایسه شد. سپس خلاصهها بر اساس وفاداری به متن مبدا دستهبندی شدند و خلاصههای غیر وفادار به دستههای خطا طبقهبندی شدند.
ژانگ خاطرنشان کرد: «انواع مختلفی از خطاها وجود دارد که می تواند در مدل هایی که متن تولید می کنند رخ دهد. این مدل ممکن است یک اصطلاح پزشکی را از دست بدهد یا آن را به چیز دیگری تغییر دهد. خلاصه ای که نادرست است یا با ورودی های منبع سازگار نیست، می تواند به طور بالقوه به بیمار آسیب برساند.
این تجزیه و تحلیل نشان داد که بخش قابل توجهی از خلاصه ها حاوی نوعی خطا هستند. مشخص شد که بخشی از این خلاصهها با گزارشهای پزشکی اصلی متناقض هستند، و تعدادی نشانههای «توهم» را ارائه میدهند، پدیدهای که در آن خلاصهها حاوی اطلاعات اضافی هستند که توسط گزارشهای پزشکی مورد استفاده برای تولید آنها پشتیبانی نمیشود.
برای رسیدگی به این مسائل، تیم تحقیقاتی چارچوب وفاداری برای خلاصه سازی پزشکی (FaMeSumm) را توسعه دادند.
این چارچوب با استفاده از مجموعهای از خلاصههای متضاد طراحی شده است – خلاصههای پزشکی که یا “وفادار” و بدون خطا، یا “غیر وفادار” و حاوی خطا بودند – و اصطلاحات پزشکی مشروح شده برای کمک به بهبود ابزارهای خلاصهسازی متن پزشکی موجود.
بیشتر بخوانید: محققان ابزار NLP را برای استخراج SDOH از یادداشت های بالینی تأیید می کنند
محققان با استفاده از این چارچوب، مدلهای زبانی از پیش آموزشدیدهشده را تنظیم کردند تا به آنها کمک کند تا خطاها را برطرف کنند، نه اینکه صرفاً کلمات موجود در گزارشهای پزشکی را تقلید کنند.
ژانگ گفت: «مدلهای خلاصهسازی پزشکی برای توجه بیشتر به اصطلاحات پزشکی آموزش داده شدهاند. اما مهم است که آن اصطلاحات پزشکی دقیقاً همانطور که در نظر گرفته شده خلاصه شود، به این معنی که شامل کلمات غیرپزشکی مانند نه، نه یا هیچ. ما نمیخواهیم که مدل در نزدیکی یا اطراف آن کلمات تغییراتی ایجاد کند، در غیر این صورت خطا احتمالاً بیشتر است.»
تجزیه و تحلیل بیشتر نشان داد که FaMeSumm می تواند به طور موثر به خلاصه کردن اطلاعات به دست آمده از مجموعه داده های آموزشی مختلف، از جمله مواردی که حاوی یادداشت های پزشکان و سوالات پیچیده از بیماران است، کمک کند.
ژانگ گفت: «روش ما بر روی انواع مختلفی از مجموعه دادهها که شامل اصطلاحات پزشکی است و برای مدلهای زبان اصلی و از پیش آموزشدیدهای که آزمایش کردیم، کار میکند. “این یک بهبود مستمر در وفاداری بود، که توسط پزشکانی که کار ما را بررسی کردند تایید شد.”
این تحقیق همچنین پتانسیل مدلهای زبان بزرگ (LLM) را در مراقبتهای بهداشتی برجسته کرد.
بیشتر بخوانید: هوش مصنوعی در بهبود مستندات جراحی ارتوپدی نوید می دهد
ژانگ اظهار داشت: “ما یکی از مدل های دقیق خود را با GPT-3 مقایسه کردیم… متوجه شدیم که مدل ما از نظر وفاداری به عملکرد بهتری دست یافته است و توانایی قوی روش ما را نشان می دهد که برای استفاده از آن در LLM امیدوارکننده است.” .
او ادامه داد: “شاید در آینده نزدیک، هوش مصنوعی برای تولید خلاصه های پزشکی به عنوان الگو آموزش داده شود.” پزشکان به سادگی میتوانند خروجی را دوبار بررسی کرده و ویرایشهای جزئی انجام دهند، که میتواند به میزان قابل توجهی زمان لازم برای ایجاد خلاصهها را کاهش دهد.»
این مطالعه یکی از مطالعات متعددی است که به دنبال ارزیابی پتانسیل هوش مصنوعی و LLM های مولد در مراقبت های بهداشتی است.
هفته گذشته، یک تیم تحقیقاتی از بیمارستان چشم و گوش نیویورک در کوه سینا (NYEE) توضیح دادند که چگونه پیشآموزش مولد-مدل 4 (GPT-4) OpenAI میتواند با چشم پزشکان در مدیریت گلوکوم و شبکیه عمل کند یا بهتر عمل کند.
چشم پزشکی یک تخصص پرکاربرد است که فرصتی منحصر به فرد برای ابزارهای پشتیبانی تصمیم بالینی مبتنی بر هوش مصنوعی برای کمک به بهبود مراقبت از بیمار ارائه می دهد. گلوکوم و شرایط شبکیه اغلب منجر به حجم بالایی از بیماران پیچیده می شود و مدیریت ساده موارد را در اولویت بالایی برای ارائه دهندگان قرار می دهد.
محققان دریافتند که GPT-4 در رسیدگی به هر دو نوع مورد مهارت دارد، که اغلب با دقت و کامل بودن پیشنهادات مدیریت مورد ارائه شده توسط چشم پزشکان مطابقت دارد یا بیشتر از آن است.