مدل‌های زبان بزرگ ممکن است عملکرد تشخیصی پزشک را بهبود بخشد

نوشته شانیا کندی

18 دسامبر 2023 – محققان مرکز پزشکی Beth Israel Deaconess (BIDMC) دریافتند که مدل بزرگ زبان (LLM) ChatGPT-4 در برخی موارد در تخمین احتمال تشخیص‌ها قبل و بعد از آزمایش آزمایشگاهی بهتر از پزشکان عمل می‌کند.

تیم تحقیقاتی نشان داد که پزشکان اغلب زمانی که وظیفه تخمین احتمالات پیش‌آزمون و پس‌آزمون بیماری را بر عهده دارند، عملکرد ضعیفی دارند، که می‌تواند منجر به درمان بیش از حد شود. بنابراین، تیم تصمیم گرفت ارزیابی کند که آیا یک LLM می تواند در این فرآیند کمک کند یا خیر.

آدام رادمن، MD، نویسنده مسئول مطالعه و یک پزشک داخلی در بخش پزشکی در BIDMC توضیح داد: «انسان ها با استدلال احتمالی، تمرین تصمیم گیری بر اساس محاسبه شانس مبارزه می کنند. «استدلال احتمالی یکی از چندین مؤلفه تشخیص است که فرآیندی فوق‌العاده پیچیده است که از انواع راهبردهای شناختی مختلف استفاده می‌کند. ما تصمیم گرفتیم که استدلال احتمالی را به صورت مجزا ارزیابی کنیم زیرا این منطقه شناخته شده ای است که انسان ها می توانند از پشتیبانی استفاده کنند.

برای ارزیابی ChatGPT-4، محققان از یک نظرسنجی ملی که قبلا منتشر شده بود استفاده کردند که در آن 553 تمرین‌کننده استدلال احتمالی را روی مجموعه‌ای از پنج مورد پزشکی انجام دادند. هر مورد، همراه با یک اعلان طراحی شده برای اطمینان از اینکه ربات چت یک احتمال پیش آزمون و پس آزمون خاص ایجاد می کند، به مدل داده شد.

از آنجا، هر مورد و اعلان مربوط به آن در رابط برنامه نویسی برنامه ChatGPT-4 (API) صد بار اجرا شد تا توزیعی از خروجی ها ایجاد شود.

سپس این مدل احتمال تشخیص داده شده را بر اساس ارائه بیماران تخمین زد. سپس، هنگامی که نتایج آزمایش برای هر مورد ارائه شد – رادیوگرافی قفسه سینه برای ذات الریه، کشت ادرار برای عفونت دستگاه ادراری، تست استرس برای بیماری عروق کرونر، و ماموگرافی برای سرطان سینه – چت بات پاسخ های خود را به روز کرد.

هنگامی که عملکرد آن با پزشکان در نظرسنجی مقایسه شد، ChatGPT خطای کمتری را در تخمین‌های احتمال پیش‌آزمون و پس‌آزمون خود پس از نتیجه آزمایش منفی نشان داد. با این حال، برای نتایج آزمایش مثبت، عملکرد آن مختلط بود: ChatGPT-4 در دو مورد دقیق تر از همتایان انسانی خود بود، در دو مورد به طور مشابه دقیق بود، و در مورد نهایی دقت کمتری داشت.

محققان خاطرنشان کردند که عملکرد مدل در مواجهه با نتایج آزمایش منفی می تواند پشتیبانی تصمیم گیری بالینی را افزایش دهد.

رادمن می‌گوید: «انسان‌ها گاهی اوقات احساس می‌کنند که خطر بیشتر از آن است که نتیجه آزمایش منفی باشد، که می‌تواند منجر به درمان بیش از حد، آزمایش‌های بیشتر و داروهای بیش از حد شود».

در حرکت رو به جلو، تیم تحقیقاتی علاقه مند است که چگونه ادغام LLMs در مراقبت بالینی می تواند عملکرد تشخیصی پزشکان را بهبود بخشد.

LLM ها نمی توانند به دنیای خارج دسترسی داشته باشند – آنها احتمالات را به روشی که اپیدمیولوژیست ها یا حتی بازیکنان پوکر انجام می دهند محاسبه نمی کنند. رادمن اظهار داشت: کاری که آنها انجام می دهند با نحوه تصمیم گیری های احتمالی انسان ها بسیار مشترک است. اما این چیزی است که هیجان انگیز است. حتی اگر ناقص باشد، سهولت استفاده و توانایی آنها برای ادغام در جریان کار بالینی می تواند از نظر تئوری انسان را وادار به تصمیم گیری بهتر کند… تحقیقات آینده در مورد انسان جمعی و هوش مصنوعی [AI] به شدت مورد نیاز است.»

از آنجایی که LLM ها همچنان در بسیاری از برنامه های کاربردی امیدوار کننده هستند، ذینفعان به طور فزاینده ای به نحوه استفاده از این ابزارها در مراقبت های بهداشتی علاقه مند هستند.

هفته گذشته، گوگل MedLM را راه‌اندازی کرد، مجموعه‌ای از مدل‌های بنیادی که برای کمک به سازمان‌های مراقبت‌های بهداشتی طراحی شده‌اند تا نیازهای خود را از طریق هوش مصنوعی مولد برآورده کنند.

دو مدل تحت MedLM بر روی Med-PaLM 2، LLM تنظیم شده مراقبت های بهداشتی Google ساخته شده اند. اولین مدل از این مدل ها بزرگتر است و برای کمک به کاربران در انجام کارهای پیچیده طراحی شده است، در حالی که مدل دوم یک مدل با اندازه متوسط است تا به کاربران کمک کند ابزار را برای کارهای مختلف مقیاس و تنظیم دقیق کنند.

این شرکت قصد دارد سال آینده ابزارهای اضافی را به خانواده MedLM معرفی کند.