دقت هوش مصنوعی در تشخیص اولیه بیماری‌ها تنها ۲۰ درصد است

طبق تحقیقات جدید، هوش مصنوعی در ۸۰ درصد تشخیص‌های آغازین پزشکی دچار خطا می‌شود و تنها در ۲۰ درصد مرحله تشخیص اولیه بیماری‌ها دقت کافی دارند.

نتایج یک مطالعه تازه نشان می‌دهد کاربرد مدل‌های هوش مصنوعی در حوزه تشخیص پزشکی هنوز با چالش‌های جدی روبه‌روست. بر اساس این مطالعه، مدل‌های زبانی هوش مصنوعی در ۸۰ درصد موارد نتوانسته‌اند تشخیص اولیه درستی ارائه دهند و میزان دقت کلی آن‌ها تنها حدود ۲۰ درصد برآورد شده است. پژوهشگران تأکید می‌کنند این فناوری‌های مولد هنوز فاقد توانایی استدلال بالینی و تحلیل پیچیده علائم هستند.

بررسی دقت هوش مصنوعی در تشخیص پزشک

در یک پژوهش گسترده که توسط گروهی از متخصصان بیمارستان Mass General Brigham در بوستون انجام شده، کارایی چت‌بات‌های هوش مصنوعی در تشخیص‌های پزشکی به طور دقیق مورد سنجش قرار گرفته است. یافته‌ها نشان می‌دهد هرچند این مدل‌های زبانی با دریافت اطلاعات بالینی کامل می‌توانند در تشخیص نهایی بیماری‌ها عملکرد نسبتاً خوبی داشته باشند، اما همچنان در مرحله حساس تشخیص افتراقی یعنی فرآیند تمایز میان احتمالات مختلف و کنار گذاشتن گزینه‌های نادرست، در بیش از ۸۰ درصد موارد دچار خطا شده‌اند.

در این مطالعه، پژوهشگران ۲۱ مدل زبانی بزرگ از برندها و شرکت‌های مختلف از جمله نسخه‌های جدید Gemini، ChatGPT، Grok، Claude و DeepSeek را با استفاده از ابزار ویژه‌ای به نام PrIME‑LLM ارزیابی کردند. این ابزار برای اندازه‌گیری توان مدل‌ها در سطوح گوناگون استدلال بالینی طراحی شده و مراحل مختلفی از تشخیص اولیه و تفسیر نتایج آزمایش‌ها گرفته تا رسیدن به تشخیص نهایی و پیشنهاد برنامه درمانی را در بر می‌گیرد.

نتایج این تحقیق نشان داد اگرچه در مرحله تشخیص نهایی، میزان دقت مدل‌ها بین ۶۰ تا ۹۰ درصد متغیر بوده و در برخی موارد به کیفیت تصمیم متخصصان نزدیک شده است، اما در تشخیص افتراقی که نیازمند تحلیل منطقی، کنار هم گذاشتن نشانه‌های متناقض و بررسی چند فرضیه هم‌زمان است، تقریباً تمامی مدل‌ها ناکارآمد بودند.

همچنین بخوانید

ضعف استدلال بالینی هوش مصنوعی تهدیدی برای ایمنی بیماران

به گفته نویسندگان مقاله، تشخیص افتراقی یکی از حیاتی‌ترین مراحل پزشکی است زیرا به پزشک اجازه می‌دهد یک بیماری خاص را از میان فهرست بیماری‌های مشابه با علائم مشترک، با اطمینان تفکیک کند. عدم توانایی مدل‌های هوش مصنوعی در این بخش می‌تواند سیستم‌های تشخیص خودکار را در معرض خطاهای جدی قرار دهد.

در بین مدل‌های مورد آزمایش، نسخه‌های پیشرفته‌تری مانند Grok ۴، GPT‑5، GPT‑4.5، Claude 4.5 Opus، Gemini 3 Flash و Gemini 3 Pro بهترین عملکرد را از خود نشان دادند؛ هرچند هیچ‌کدام هنوز به سطح اطمینان بالینی لازم برای استفاده مستقل در مراکز درمانی نرسیده‌اند.

پژوهشگران تأکید کرده‌اند که مدل‌های زبانی عمومی فاقد مهارت‌های استدلال تخصصی برای تصمیم‌گیری بالینی هستند و بنابراین توسعه مدل‌های آموزشی اختصاصی برای داده‌های پزشکی ضرورت دارد. آنان هشدار می‌دهند هرگونه به‌کارگیری هوش مصنوعی در تشخیص‌های بیمارستانی باید زیر نظر پزشکان و متخصصان انسانی انجام شود تا احتمال خطای سیستم کاهش یابد و ایمنی بیماران تضمین شود.

این مطالعه که از نخستین ارزیابی‌های جامع و چند‌مدلی در زمینه استدلال بالینی هوش مصنوعی به شمار می‌رود، در نشریه JAMA Network Open منتشر شده و توجه بسیاری از محققان حوزه هوش مصنوعی پزشکی را به خود جلب کرده است.

0 دیدگاه
بازخورد درون خطی
مشاهده همه نظرات
0
در بحث شرکت کنیدx