چارچوب NLP می تواند ابزارهای خلاصه سازی پزشکی را بهبود بخشد

نوشته شانیا کندی

27 فوریه 2024 – محققان دانشگاه ایالتی پنسیلوانیا (PSU) چارچوبی برای پردازش زبان طبیعی (NLP) برای بهبود کارایی و قابلیت اطمینان ابزارهای خلاصه‌سازی متن پزشکی مبتنی بر هوش مصنوعی (AI) ایجاد کرده‌اند.

فرآیند خلاصه‌سازی پزشکی برای کمک به فشرده‌سازی اطلاعات بیمار به خلاصه‌های در دسترس، کلیدی است که می‌تواند در پرونده‌های الکترونیکی سلامت، ادعاهای بیمه و در محل مراقبت استفاده شود. می‌توان از هوش مصنوعی برای تولید این خلاصه‌ها استفاده کرد، اما تیم تحقیقاتی تأکید کردند که انجام این کار می‌تواند منجر به نگرانی‌هایی در مورد قابلیت اطمینان خلاصه‌های گفته شده شود.

نان ژانگ، یک دانشجوی فارغ التحصیل در کالج علوم و فناوری اطلاعات PSU (IST)، در بیانیه خبری توضیح داد: «یک مشکل وفاداری در ابزارهای NLP و الگوریتم های یادگیری ماشین فعلی که در خلاصه سازی پزشکی استفاده می شود وجود دارد. . “برای اطمینان از قابل اعتماد بودن سوابق تعاملات پزشک و بیمار، یک مدل خلاصه پزشکی باید 100٪ با گزارش ها و مکالماتی که آنها مستند می کنند مطابقت داشته باشد.”

مدل‌های جمع‌بندی پزشکی کنونی از نظارت انسان برای جلوگیری از ایجاد خلاصه‌های «بی‌وفا» که می‌تواند منجر به آسیب بیمار شود، استفاده می‌کند، اما محققان خاطرنشان کردند که مطالعه منابع خیانت در این مدل‌ها برای اطمینان از کارایی و ایمنی بسیار مهم است.

برای بررسی بی‌وفایی مدل، محققان سه مجموعه داده‌ای را که توسط ابزارهای موجود در حوزه‌های خلاصه‌سازی گزارش‌های رادیولوژی، خلاصه‌سازی گفتگوی پزشکی و خلاصه‌سازی سؤالات سلامت آنلاین ایجاد شده بود، تجزیه و تحلیل کردند.

بیشتر بخوانید: افزایش داده ها ممکن است تعمیم LLM را در یادداشت های بالینی بهبود بخشد

بین 100 تا 200 خلاصه به طور تصادفی از هر مجموعه داده انتخاب شد و به صورت دستی با گزارش‌های پزشکی اصلی که از آن مشتق شده بود مقایسه شد. سپس خلاصه‌ها بر اساس وفاداری به متن مبدا دسته‌بندی شدند و خلاصه‌های غیر وفادار به دسته‌های خطا طبقه‌بندی شدند.

ژانگ خاطرنشان کرد: «انواع مختلفی از خطاها وجود دارد که می تواند در مدل هایی که متن تولید می کنند رخ دهد. این مدل ممکن است یک اصطلاح پزشکی را از دست بدهد یا آن را به چیز دیگری تغییر دهد. خلاصه ای که نادرست است یا با ورودی های منبع سازگار نیست، می تواند به طور بالقوه به بیمار آسیب برساند.

این تجزیه و تحلیل نشان داد که بخش قابل توجهی از خلاصه ها حاوی نوعی خطا هستند. مشخص شد که بخشی از این خلاصه‌ها با گزارش‌های پزشکی اصلی متناقض هستند، و تعدادی نشانه‌های «توهم» را ارائه می‌دهند، پدیده‌ای که در آن خلاصه‌ها حاوی اطلاعات اضافی هستند که توسط گزارش‌های پزشکی مورد استفاده برای تولید آنها پشتیبانی نمی‌شود.

برای رسیدگی به این مسائل، تیم تحقیقاتی چارچوب وفاداری برای خلاصه سازی پزشکی (FaMeSumm) را توسعه دادند.

این چارچوب با استفاده از مجموعه‌ای از خلاصه‌های متضاد طراحی شده است – خلاصه‌های پزشکی که یا “وفادار” و بدون خطا، یا “غیر وفادار” و حاوی خطا بودند – و اصطلاحات پزشکی مشروح شده برای کمک به بهبود ابزارهای خلاصه‌سازی متن پزشکی موجود.

بیشتر بخوانید: محققان ابزار NLP را برای استخراج SDOH از یادداشت های بالینی تأیید می کنند

محققان با استفاده از این چارچوب، مدل‌های زبانی از پیش آموزش‌دیده‌شده را تنظیم کردند تا به آنها کمک کند تا خطاها را برطرف کنند، نه اینکه صرفاً کلمات موجود در گزارش‌های پزشکی را تقلید کنند.

ژانگ گفت: «مدل‌های خلاصه‌سازی پزشکی برای توجه بیشتر به اصطلاحات پزشکی آموزش داده شده‌اند. اما مهم است که آن اصطلاحات پزشکی دقیقاً همانطور که در نظر گرفته شده خلاصه شود، به این معنی که شامل کلمات غیرپزشکی مانند نه، نه یا هیچ. ما نمی‌خواهیم که مدل در نزدیکی یا اطراف آن کلمات تغییراتی ایجاد کند، در غیر این صورت خطا احتمالاً بیشتر است.»

تجزیه و تحلیل بیشتر نشان داد که FaMeSumm می تواند به طور موثر به خلاصه کردن اطلاعات به دست آمده از مجموعه داده های آموزشی مختلف، از جمله مواردی که حاوی یادداشت های پزشکان و سوالات پیچیده از بیماران است، کمک کند.

ژانگ گفت: «روش ما بر روی انواع مختلفی از مجموعه داده‌ها که شامل اصطلاحات پزشکی است و برای مدل‌های زبان اصلی و از پیش آموزش‌دیده‌ای که آزمایش کردیم، کار می‌کند. “این یک بهبود مستمر در وفاداری بود، که توسط پزشکانی که کار ما را بررسی کردند تایید شد.”

این تحقیق همچنین پتانسیل مدل‌های زبان بزرگ (LLM) را در مراقبت‌های بهداشتی برجسته کرد.

بیشتر بخوانید: هوش مصنوعی در بهبود مستندات جراحی ارتوپدی نوید می دهد

ژانگ اظهار داشت: “ما یکی از مدل های دقیق خود را با GPT-3 مقایسه کردیم… متوجه شدیم که مدل ما از نظر وفاداری به عملکرد بهتری دست یافته است و توانایی قوی روش ما را نشان می دهد که برای استفاده از آن در LLM امیدوارکننده است.” .

او ادامه داد: “شاید در آینده نزدیک، هوش مصنوعی برای تولید خلاصه های پزشکی به عنوان الگو آموزش داده شود.” پزشکان به سادگی می‌توانند خروجی را دوبار بررسی کرده و ویرایش‌های جزئی انجام دهند، که می‌تواند به میزان قابل توجهی زمان لازم برای ایجاد خلاصه‌ها را کاهش دهد.»

این مطالعه یکی از مطالعات متعددی است که به دنبال ارزیابی پتانسیل هوش مصنوعی و LLM های مولد در مراقبت های بهداشتی است.

هفته گذشته، یک تیم تحقیقاتی از بیمارستان چشم و گوش نیویورک در کوه سینا (NYEE) توضیح دادند که چگونه پیش‌آموزش مولد-مدل 4 (GPT-4) OpenAI می‌تواند با چشم پزشکان در مدیریت گلوکوم و شبکیه عمل کند یا بهتر عمل کند.

چشم پزشکی یک تخصص پرکاربرد است که فرصتی منحصر به فرد برای ابزارهای پشتیبانی تصمیم بالینی مبتنی بر هوش مصنوعی برای کمک به بهبود مراقبت از بیمار ارائه می دهد. گلوکوم و شرایط شبکیه اغلب منجر به حجم بالایی از بیماران پیچیده می شود و مدیریت ساده موارد را در اولویت بالایی برای ارائه دهندگان قرار می دهد.

محققان دریافتند که GPT-4 در رسیدگی به هر دو نوع مورد مهارت دارد، که اغلب با دقت و کامل بودن پیشنهادات مدیریت مورد ارائه شده توسط چشم پزشکان مطابقت دارد یا بیشتر از آن است.