محدودیتهای هوش مصنوعی در تصمیمگیری بالینی
19 شهریور 1403
محدودیتهای هوش مصنوعی در تصمیمگیری بالینی
ابزارهای هوش مصنوعی (AI) مولد پتانسیل تبدیل شدن به دستیاران ارزشمندی در مراقبتهای بهداشتی را دارند و میتوانند به پزشکان در تشخیص سریع و انتخاب درمانهای مناسب کمک کنند. با این حال، قابلیت اطمینان آنها همچنان نگرانکننده است. مطالعهای که در ماه ژوئیه در مجله *npj Digital Medicine* منتشر شد، این محدودیتها را برجسته میکند.
متحدی امیدوارکننده
دکتر ژییونگ لو، محقق ارشد در مؤسسات ملی بهداشت و استاد مدعو علوم کامپیوتر در دانشگاه ایلینوی، شامپاین-اوربانا، ایلینوی، میگوید: «هوش مصنوعی پتانسیل کمک به متخصصان بهداشت و درمان را از طریق بهبود کارایی، دسترسی به مراقبتهای باکیفیت برای همه و عدالت بهداشتی دارد. در محیطهای بالینی، میتواند به عنوان یک ابزار پشتیبانی تصمیمگیری عمل کند و زمان ارزشمند پزشکان را در حین تشخیص صرفهجویی کند.»
این مطالعه عملکرد GPT-4V، یک مدل جدید چندرسانهای هوش مصنوعی منتشر شده توسط OpenAI که انواع مختلف دادهها، از جمله متن و تصاویر را پردازش میکند، ارزیابی کرد. این مطالعه بر توانایی مدل در پاسخ به سؤالات پزشکی و توجیهات ارائه شده برای پاسخهای خود تمرکز کرد.
GPT-4V در مقابل پزشکان
این مطالعه شامل 207 پرسش چندگزینهای از چالش تصویر *مجله پزشکی نیوانگلند* بود که معمولاً برای ارزیابی تواناییهای تشخیصی پزشکان استفاده میشود. این سوالات در 9 تخصص پزشکی گسترده بودند، از جمله پوستشناسی، آسیبشناسی، ریه، گوارش، اعصاب، چشمپزشکی، تخصص قلب، بیماریهای عفونی و موارد مختلف دیگر.
پاسخهای GPT-4V با پاسخهای ارائه شده توسط 9 پزشک از تخصصهای مختلف مقایسه شد. به هر شرکتکننده، از جمله GPT-4V، تصاویر بالینی واقعی و خلاصههای مختصر پروندهای که شامل سابقه پزشکی بیمار و جزئیات علائم بود، ارائه شد. سپس آنها وظیفه داشتند تشخیص صحیح را از مجموعه گزینهها انتخاب کنند.
در این سناریوی آزمایشی «بسته»، که هیچ منبع خارجی نمیتوانست مشورت شود، GPT-4V به نرخ دقت 81.6% دست یافت که کمی از پزشکان، که نرخ دقت 77.8% داشتند، پیشی گرفت. قابل توجه است که این ابزار، 78.3% از مواردی را پزشکان اشتباه تشخیص داده بودند، به درستی تشخیص داد.
با این حال، هنگام درخواست برای توصیف تصاویر و ارائه توجیهات کتبی برای تشخیص خود، GPT-4V با مشکل روبرو شد. در 35.5% از مواردی که تشخیص صحیح انجام داده بود، توجیهات ناقص ارائه کرد. بزرگترین چالش برای این ابزار، تفسیر دقیق تصاویر بود، با نرخ خطای 27.2% در درک تصویر.
به عنوان نمونه، در یک مورد، GPT-4V به درستی سیفلیس بدخیم را شناسایی کرد و شواهد متعددی را برای پشتیبانی از تشخیص خود ارائه داد. با این حال، نتوانست تشخیص دهد که دو ضایعه پوستی که در زوایای مختلف ارائه شده بودند، نشانههای یک بیماری بودند.
این ابزار همچنین در رد کردن برخی تشخیصها بر اساس شواهد موجود و تمایز بین تظاهرات بالینی مشابه در شرایط پزشکی مختلف، مشکل داشت. عملکرد آن هنگام مواجهه با موارد پیچیده یا مواردی که شامل اطلاعات جدید بودند، بیشتر به مانع برمیخورد.
محققان خاطرنشان کردند که موفقیت این ابزار بدون مشورت با منابع خارجی نشان میدهد که این ابزار میتواند با افزایش تصمیمگیری مبتنی بر دادهها، پزشکان را در تشخیص سریعتر و دقیقتر پشتیبانی کند. با این حال، جایگزین تجربه و دانش ارزشمندی که متخصصان به میز میآورند یا کاربرد منابع خارجی نمیشود.
درک محدودیتهای هوش مصنوعی
ابزارهای هوش مصنوعی هنوز به اندازه کافی پیشرفته نیستند که بتوانند تخصص انسان را جایگزین کنند، که برای به حداقل رساندن خطرات در مراقبتهای پزشکی ضروری است. محققان تأکید کردند که درک محدودیتهای هوش مصنوعی پیش از ادغام کامل آن در کار بالینی روزمره بسیار مهم است. تضمین استفاده ایمن و مؤثر از هوش مصنوعی در پزشکی به تشخیص این کاستیها بستگی دارد.
لو توصیه کرد: «هیچ تضمینی وجود ندارد که استدلال هوش مصنوعی همیشه درست باشد. علی رغم دقت بالای هوش مصنوعی در تشخیص، پزشکان باید دلایل پشت نتایج تولید شده توسط هوش مصنوعی را درک کنند، نه اینکه صرفاً به آنها اعتماد کنند. پزشکان باید همچنان به قضاوت تخصصی خود هنگام درمان بیماران متکی باشند.»
این مطالعه به نیاز به تحقیقات بیشتر برای ارزیابی نقش هوش مصنوعی در سناریوهای پزشکی دنیای واقعی اشاره میکند، با تأکید بر اهمیت تجزیه و تحلیل دادههای کمی و مشارکت فعال متخصصان بهداشت و درمان.
لو نتیجه گرفت: «مطالعه ما برخی از چالشها در ادغام هوش مصنوعی در پشتیبانی از تصمیمگیری بالینی را برجسته میکند، که با پیشرفت فناوری به طور فزایندهای مهم میشود؛ اما برای تحقق کامل پتانسیل هوش مصنوعی به طور مسئولانه، تحقیقات بیشتری لازم است.»
منبع: Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine | npj Digital Medicine (nature.com)
این مطلب از نسخه پرتغالی *Medscape* ترجمه شده است.