– محققان مرکز پزشکی Beth Israel Deaconess (BIDMC) دریافتند که مدل بزرگ زبان (LLM) ChatGPT-4 در برخی موارد در تخمین احتمال تشخیصها قبل و بعد از آزمایش آزمایشگاهی بهتر از پزشکان عمل میکند.
تیم تحقیقاتی نشان داد که پزشکان اغلب زمانی که وظیفه تخمین احتمالات پیشآزمون و پسآزمون بیماری را بر عهده دارند، عملکرد ضعیفی دارند، که میتواند منجر به درمان بیش از حد شود. بنابراین، تیم تصمیم گرفت ارزیابی کند که آیا یک LLM می تواند در این فرآیند کمک کند یا خیر.
آدام رادمن، MD، نویسنده مسئول مطالعه و یک پزشک داخلی در بخش پزشکی در BIDMC توضیح داد: «انسان ها با استدلال احتمالی، تمرین تصمیم گیری بر اساس محاسبه شانس مبارزه می کنند. «استدلال احتمالی یکی از چندین مؤلفه تشخیص است که فرآیندی فوقالعاده پیچیده است که از انواع راهبردهای شناختی مختلف استفاده میکند. ما تصمیم گرفتیم که استدلال احتمالی را به صورت مجزا ارزیابی کنیم زیرا این منطقه شناخته شده ای است که انسان ها می توانند از پشتیبانی استفاده کنند.
برای ارزیابی ChatGPT-4، محققان از یک نظرسنجی ملی که قبلا منتشر شده بود استفاده کردند که در آن 553 تمرینکننده استدلال احتمالی را روی مجموعهای از پنج مورد پزشکی انجام دادند. هر مورد، همراه با یک اعلان طراحی شده برای اطمینان از اینکه ربات چت یک احتمال پیش آزمون و پس آزمون خاص ایجاد می کند، به مدل داده شد.
از آنجا، هر مورد و اعلان مربوط به آن در رابط برنامه نویسی برنامه ChatGPT-4 (API) صد بار اجرا شد تا توزیعی از خروجی ها ایجاد شود.
سپس این مدل احتمال تشخیص داده شده را بر اساس ارائه بیماران تخمین زد. سپس، هنگامی که نتایج آزمایش برای هر مورد ارائه شد – رادیوگرافی قفسه سینه برای ذات الریه، کشت ادرار برای عفونت دستگاه ادراری، تست استرس برای بیماری عروق کرونر، و ماموگرافی برای سرطان سینه – چت بات پاسخ های خود را به روز کرد.
هنگامی که عملکرد آن با پزشکان در نظرسنجی مقایسه شد، ChatGPT خطای کمتری را در تخمینهای احتمال پیشآزمون و پسآزمون خود پس از نتیجه آزمایش منفی نشان داد. با این حال، برای نتایج آزمایش مثبت، عملکرد آن مختلط بود: ChatGPT-4 در دو مورد دقیق تر از همتایان انسانی خود بود، در دو مورد به طور مشابه دقیق بود، و در مورد نهایی دقت کمتری داشت.
محققان خاطرنشان کردند که عملکرد مدل در مواجهه با نتایج آزمایش منفی می تواند پشتیبانی تصمیم گیری بالینی را افزایش دهد.
رادمن میگوید: «انسانها گاهی اوقات احساس میکنند که خطر بیشتر از آن است که نتیجه آزمایش منفی باشد، که میتواند منجر به درمان بیش از حد، آزمایشهای بیشتر و داروهای بیش از حد شود».
در حرکت رو به جلو، تیم تحقیقاتی علاقه مند است که چگونه ادغام LLMs در مراقبت بالینی می تواند عملکرد تشخیصی پزشکان را بهبود بخشد.
LLM ها نمی توانند به دنیای خارج دسترسی داشته باشند – آنها احتمالات را به روشی که اپیدمیولوژیست ها یا حتی بازیکنان پوکر انجام می دهند محاسبه نمی کنند. رادمن اظهار داشت: کاری که آنها انجام می دهند با نحوه تصمیم گیری های احتمالی انسان ها بسیار مشترک است. اما این چیزی است که هیجان انگیز است. حتی اگر ناقص باشد، سهولت استفاده و توانایی آنها برای ادغام در جریان کار بالینی می تواند از نظر تئوری انسان را وادار به تصمیم گیری بهتر کند… تحقیقات آینده در مورد انسان جمعی و هوش مصنوعی [AI] به شدت مورد نیاز است.»
از آنجایی که LLM ها همچنان در بسیاری از برنامه های کاربردی امیدوار کننده هستند، ذینفعان به طور فزاینده ای به نحوه استفاده از این ابزارها در مراقبت های بهداشتی علاقه مند هستند.
هفته گذشته، گوگل MedLM را راهاندازی کرد، مجموعهای از مدلهای بنیادی که برای کمک به سازمانهای مراقبتهای بهداشتی طراحی شدهاند تا نیازهای خود را از طریق هوش مصنوعی مولد برآورده کنند.
دو مدل تحت MedLM بر روی Med-PaLM 2، LLM تنظیم شده مراقبت های بهداشتی Google ساخته شده اند. اولین مدل از این مدل ها بزرگتر است و برای کمک به کاربران در انجام کارهای پیچیده طراحی شده است، در حالی که مدل دوم یک مدل با اندازه متوسط است تا به کاربران کمک کند ابزار را برای کارهای مختلف مقیاس و تنظیم دقیق کنند.
این شرکت قصد دارد سال آینده ابزارهای اضافی را به خانواده MedLM معرفی کند.