چت ربات های هوش مصنوعی اطلاعات سلامت اسکلتی عضلانی متناقضی را ارائه می دهند

نوشته شانیا کندی

14 فوریه 2024 – طبق مطالعات اخیر ارائه شده در نشست سالانه آکادمی جراحان ارتوپدی آمریکا (AAOS) ربات‌های چت هوش مصنوعی (AI) مانند ChatGPT، Google Bard و BingAI اطلاعاتی در مورد سلامت اسکلتی عضلانی با دقت متناقضی ارائه می‌کنند.

همانطور که چت ربات های مدل زبان بزرگ (LLM) محبوب تر می شوند، محققان نگرانی هایی را در مورد نحوه استفاده از این ابزارها در پزشکی مطرح کرده اند. چت ربات‌های هوش مصنوعی در کارهایی مانند پردازش داده‌ها و حمایت از آموزش بیمار امیدوارکننده بوده‌اند، اما خطرات اخلاقی و قانونی قابل‌توجهی نیز دارند.

بسیاری تاکید کرده اند که ابزارهای هوش مصنوعی پتانسیل تکمیل تخصص متخصصان پزشکی را برای بهبود مراقبت دارند، اما میزانی که ابزارها می توانند این کار را انجام دهند هنوز در سراسر تخصص های پزشکی در حال بررسی است.

سه مطالعه ارائه شده در جلسه AAOS به دنبال بررسی اعتبار و دقت اطلاعات سلامت اسکلتی عضلانی منتقل شده توسط چت ربات های مشهور هوش مصنوعی بود. به طور کلی، محققان دریافتند که ربات‌های گفتگو می‌توانند خلاصه‌ای مختصر از اطلاعات مربوط به شرایط و روش‌های ارتوپدی تولید کنند، اما هر کدام در یک یا چند دسته اطلاعات محدود بودند.

اولین مطالعه، “اطلاعات نادرست بالقوه و خطرات مرتبط با استفاده بالینی از چت ربات های LLM”، ارائه شده توسط تیمی از Weill Cornell Medicine، بررسی کرد که ChatGPT-4، Google Bard و BingAI چگونه می توانند مفاهیم ارتوپدی را توضیح دهند، به سوالات بیمار رسیدگی کنند و یکپارچه کنند. اطلاعات بالینی در پاسخ ها

بیشتر بخوانید: ChatGPT، پاسخ‌های ارائه‌دهنده تقریباً برای بیماران غیرقابل تشخیص است

این چت بات ها وظیفه پاسخگویی به 45 سوال در دسته بندی های “فیزیولوژی استخوان”، “پزشک ارجاع دهنده” و “پرسش بیمار” را داشتند. سپس پاسخ هر چت بات از نظر دقت در مقیاس صفر تا چهار توسط دو بازبین مستقل و کور ارزیابی شد.

تجزیه و تحلیل پاسخ‌های ربات‌های گفتگو نشان داد که هر ابزار پاسخ‌هایی را ارائه می‌دهد که حداقل در برخی مواقع شامل مهم‌ترین نکات برجسته می‌شود: ChatGPT در ۷۶.۶ درصد موارد، Google Bard در ۳۳ درصد موارد و BingAI در ۱۶.۷ درصد موارد.

توانایی هر چت بات در ارائه پیشنهادهای مدیریت بالینی نیز به شدت محدود بود و اغلب مراحل کار را حذف می‌کرد و از استاندارد مراقبت منحرف می‌شد.

ChatGPT و Google Bard می‌توانستند پاسخ‌های دقیق‌تری به پرسش‌های کمتر پیچیده‌تر بیمار ارائه دهند، اما نتوانستند اطلاعات کلیدی پزشکی مورد نیاز برای ارائه پاسخ کامل را درخواست کنند.

مطالعه دوم، «آیا ChatGPT برای زمان اصلی آماده است؟ ارزیابی دقت هوش مصنوعی در پاسخ به سوالات رایج بیماران آرتروپلاستی، که توسط محققان ارتوپدی کانکتیکات ارائه شده است، توانایی چت بات را در پاسخ به 80 سوال در مورد تعویض مفصل ران و زانو ارزیابی کرد.

بیشتر بخوانید: ChatGPT به دقت بالایی در وظایف تصمیم گیری بالینی دست می یابد

هر پرس و جو دو بار به ChatGPT ارائه شد: ابتدا سؤال را به صورت مکتوب پرسیده شد و سپس درخواست کرد که چت بات به عنوان جراح ارتوپد پاسخ دهد. سپس اعضای تیم تحقیقاتی دقت هر پاسخ را از یک تا چهار نمره دادند.

تقریباً 26 درصد از پاسخ‌های ربات چت به طور متوسط در مقیاس سه رتبه‌بندی شدند – که نشان می‌دهد پاسخ تا حدی دقیق، اما ناقص است – وقتی بدون درخواست پرسیده شد. هشت درصد از پاسخ‌ها در صورت درخواست با اعلان، میانگین رتبه‌بندی کمتر از سه داشتند.

این ابزار زمانی که به عنوان جراح از او خواسته شد به طور قابل توجهی بهتر عمل کرد و به دقت 92 درصد رسید. با این حال، محدودیت‌های ChatGPT باعث شد تیم تحقیقاتی به این نتیجه برسند که این منبع مناسبی برای بیماران نیست و باید یک چت ربات متمرکز بر ارتوپدی ایجاد شود.

مطالعه سوم، “آیا می توان از ChatGPT 4.0 برای پاسخ به سوالات بیمار در مورد روش Latarjet برای بی ثباتی قدامی شانه استفاده کرد؟” ارائه شده توسط بیمارستان جراحی ویژه، به دنبال کشف پتانسیل این ابزار به عنوان یک ابزار کمکی برای پزشکان بود.

تیم تحقیقاتی یک جستجوی گوگل برای “لاتارجت” انجام داد تا ده سوال متداول و منبعی را که موتور جستجو در رابطه با این روش استخراج می کند، مشخص کند. سپس محققان از ChatGPT خواستند تا جستجوی مشابهی را برای شناسایی سوالات و منابع انجام دهد.

بیشتر بخوانید: ChatGPT تست های تصویربرداری سینه را به دقت انتخاب می کند، به تصمیم گیری کمک می کند

گوگل درصد کمی از منابع آکادمیک مربوط به روش های Latarjet را ارائه کرد و بیشتر اطلاعات خود را از مراکز پزشکی بزرگتر و وب سایت های شخصی جراحان استخراج کرد. در مقابل، ChatGPT طیف وسیعی از اطلاعات مرتبط بالینی را ارائه کرد که همه آنها از منابع دانشگاهی گرفته شده بودند.

تیم های پشت سر هر مطالعه تاکید کردند که یافته های آنها برای کمک به درک اثربخشی و کاربردهای بالقوه آینده چت ربات های هوش مصنوعی در ارتوپدی کلیدی است.

نشان داده شده است که ChatGPT به طور مؤثر به سؤالات بیماران پاسخ می دهد و وعده آن را برای آموزش بیمار برجسته می کند، اما ادغام هوش مصنوعی در مراقبت های بهداشتی چالش های زیادی را برای بیماران و ارائه دهندگان ارائه می دهد.

اعتماد بیمار مانع بزرگی است که سازمان های مراقبت های بهداشتی باید قبل از پذیرش گسترده این ابزارها با آن مقابله کنند. گزارش های اخیر نشان می دهد که تقریباً 50 درصد از بیماران به توصیه های پزشکی ارائه شده توسط چت بات اعتماد ندارند، در عوض ترجیح می دهند به ارائه دهندگان خود موکول شوند.

با این حال، اعتماد را می توان با اطمینان از اینکه ابزارهای هوش مصنوعی رویکردی «انسان در حلقه» دارند و با اطلاع دادن به بیماران که این فناوری ها توسط متخصصان پزشکی هدایت می شوند، تقویت می شود.

اما از آنجایی که هوش مصنوعی به شکل‌دهی تعامل بیمار ادامه می‌دهد، سیستم‌های بهداشتی مجبور خواهند شد تا نگرانی‌های مربوط به حریم خصوصی داده‌ها و رعایت HIPAA را در مورد ربات‌های چت بررسی کنند.