محدودیت‌های هوش مصنوعی در تصمیم‌گیری بالینی

19 شهریور 1403
محدودیت‌های هوش مصنوعی در تصمیم‌گیری بالینی

ابزارهای هوش مصنوعی (AI) مولد پتانسیل تبدیل شدن به دستیاران ارزشمندی در مراقبت‌های بهداشتی را دارند و می‌توانند به پزشکان در تشخیص سریع و انتخاب درمان‌های مناسب کمک کنند. با این حال، قابلیت اطمینان آن‌ها همچنان نگران‌کننده است. مطالعه‌ای که در ماه ژوئیه در مجله *npj Digital Medicine* منتشر شد، این محدودیت‌ها را برجسته می‌کند.

متحدی امیدوارکننده
دکتر ژی‌یونگ لو، محقق ارشد در مؤسسات ملی بهداشت و استاد مدعو علوم کامپیوتر در دانشگاه ایلینوی، شامپاین-اوربانا، ایلینوی، می‌گوید: «هوش مصنوعی پتانسیل کمک به متخصصان بهداشت و درمان را از طریق بهبود کارایی، دسترسی به مراقبت‌های باکیفیت برای همه و عدالت بهداشتی دارد. در محیط‌های بالینی، می‌تواند به عنوان یک ابزار پشتیبانی تصمیم‌گیری عمل کند و زمان ارزشمند پزشکان را در حین تشخیص صرفه‌جویی کند.»

این مطالعه عملکرد GPT-4V، یک مدل جدید چندرسانه‌ای هوش مصنوعی منتشر شده توسط OpenAI که انواع مختلف داده‌ها، از جمله متن و تصاویر را پردازش می‌کند، ارزیابی کرد. این مطالعه بر توانایی مدل در پاسخ به سؤالات پزشکی و توجیهات ارائه شده برای پاسخ‌های خود تمرکز کرد.

GPT-4V در مقابل پزشکان
این مطالعه شامل 207 پرسش چندگزینه‌ای از چالش تصویر *مجله پزشکی نیوانگلند* بود که معمولاً برای ارزیابی توانایی‌های تشخیصی پزشکان استفاده می‌شود. این سوالات در 9 تخصص پزشکی گسترده بودند، از جمله پوست‌شناسی، آسیب‌شناسی، ریه، گوارش، اعصاب، چشم‌پزشکی، تخصص قلب، بیماری‌های عفونی و موارد مختلف دیگر.

پاسخ‌های GPT-4V با پاسخ‌های ارائه شده توسط 9 پزشک از تخصص‌های مختلف مقایسه شد. به هر شرکت‌کننده، از جمله GPT-4V، تصاویر بالینی واقعی و خلاصه‌های مختصر پرونده‌ای که شامل سابقه پزشکی بیمار و جزئیات علائم بود، ارائه شد. سپس آن‌ها وظیفه داشتند تشخیص صحیح را از مجموعه گزینه‌ها انتخاب کنند.

در این سناریوی آزمایشی «بسته»، که هیچ منبع خارجی نمی‌توانست مشورت شود، GPT-4V به نرخ دقت 81.6% دست یافت که کمی از پزشکان، که نرخ دقت 77.8% داشتند، پیشی گرفت. قابل توجه است که این ابزار، 78.3% از مواردی را پزشکان اشتباه تشخیص داده بودند، به درستی تشخیص داد.

با این حال، هنگام درخواست برای توصیف تصاویر و ارائه توجیهات کتبی برای تشخیص خود، GPT-4V با مشکل روبرو شد. در 35.5% از مواردی که تشخیص صحیح انجام داده بود، توجیهات ناقص ارائه کرد. بزرگترین چالش برای این ابزار، تفسیر دقیق تصاویر بود، با نرخ خطای 27.2% در درک تصویر.

به عنوان نمونه، در یک مورد، GPT-4V به درستی سیفلیس بدخیم را شناسایی کرد و شواهد متعددی را برای پشتیبانی از تشخیص خود ارائه داد. با این حال، نتوانست تشخیص دهد که دو ضایعه پوستی که در زوایای مختلف ارائه شده بودند، نشانه‌های یک بیماری بودند.

این ابزار همچنین در رد کردن برخی تشخیص‌ها بر اساس شواهد موجود و تمایز بین تظاهرات بالینی مشابه در شرایط پزشکی مختلف، مشکل داشت. عملکرد آن هنگام مواجهه با موارد پیچیده یا مواردی که شامل اطلاعات جدید بودند، بیشتر به مانع برمی‌خورد.

محققان خاطرنشان کردند که موفقیت این ابزار بدون مشورت با منابع خارجی نشان می‌دهد که این ابزار می‌تواند با افزایش تصمیم‌گیری مبتنی بر داده‌ها، پزشکان را در تشخیص سریع‌تر و دقیق‌تر پشتیبانی کند. با این حال، جایگزین تجربه و دانش ارزشمندی که متخصصان به میز می‌آورند یا کاربرد منابع خارجی نمی‌شود.

درک محدودیت‌های هوش مصنوعی
ابزارهای هوش مصنوعی هنوز به اندازه کافی پیشرفته نیستند که بتوانند تخصص انسان را جایگزین کنند، که برای به حداقل رساندن خطرات در مراقبت‌های پزشکی ضروری است. محققان تأکید کردند که درک محدودیت‌های هوش مصنوعی پیش از ادغام کامل آن در کار بالینی روزمره بسیار مهم است. تضمین استفاده ایمن و مؤثر از هوش مصنوعی در پزشکی به تشخیص این کاستی‌ها بستگی دارد.

لو توصیه کرد: «هیچ تضمینی وجود ندارد که استدلال هوش مصنوعی همیشه درست باشد. علی رغم دقت بالای هوش مصنوعی در تشخیص، پزشکان باید دلایل پشت نتایج تولید شده توسط هوش مصنوعی را درک کنند، نه اینکه صرفاً به آن‌ها اعتماد کنند. پزشکان باید همچنان به قضاوت تخصصی خود هنگام درمان بیماران متکی باشند.»

این مطالعه به نیاز به تحقیقات بیشتر برای ارزیابی نقش هوش مصنوعی در سناریوهای پزشکی دنیای واقعی اشاره می‌کند، با تأکید بر اهمیت تجزیه و تحلیل داده‌های کمی و مشارکت فعال متخصصان بهداشت و درمان.

لو نتیجه گرفت: «مطالعه ما برخی از چالش‌ها در ادغام هوش مصنوعی در پشتیبانی از تصمیم‌گیری بالینی را برجسته می‌کند، که با پیشرفت فناوری به طور فزاینده‌ای مهم می‌شود؛ اما برای تحقق کامل پتانسیل هوش مصنوعی به طور مسئولانه، تحقیقات بیشتری لازم است.»

منبع: Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine | npj Digital Medicine (nature.com)

این مطلب از نسخه پرتغالی *Medscape* ترجمه شده است.

اخبار مرتبط

با ما در تماس باشید