طبق تحقیقات جدید، هوش مصنوعی در ۸۰ درصد تشخیصهای آغازین پزشکی دچار خطا میشود و تنها در ۲۰ درصد مرحله تشخیص اولیه بیماریها دقت کافی دارند.
نتایج یک مطالعه تازه نشان میدهد کاربرد مدلهای هوش مصنوعی در حوزه تشخیص پزشکی هنوز با چالشهای جدی روبهروست. بر اساس این مطالعه، مدلهای زبانی هوش مصنوعی در ۸۰ درصد موارد نتوانستهاند تشخیص اولیه درستی ارائه دهند و میزان دقت کلی آنها تنها حدود ۲۰ درصد برآورد شده است. پژوهشگران تأکید میکنند این فناوریهای مولد هنوز فاقد توانایی استدلال بالینی و تحلیل پیچیده علائم هستند.
بررسی دقت هوش مصنوعی در تشخیص پزشک
در یک پژوهش گسترده که توسط گروهی از متخصصان بیمارستان Mass General Brigham در بوستون انجام شده، کارایی چتباتهای هوش مصنوعی در تشخیصهای پزشکی به طور دقیق مورد سنجش قرار گرفته است. یافتهها نشان میدهد هرچند این مدلهای زبانی با دریافت اطلاعات بالینی کامل میتوانند در تشخیص نهایی بیماریها عملکرد نسبتاً خوبی داشته باشند، اما همچنان در مرحله حساس تشخیص افتراقی یعنی فرآیند تمایز میان احتمالات مختلف و کنار گذاشتن گزینههای نادرست، در بیش از ۸۰ درصد موارد دچار خطا شدهاند.
در این مطالعه، پژوهشگران ۲۱ مدل زبانی بزرگ از برندها و شرکتهای مختلف از جمله نسخههای جدید Gemini، ChatGPT، Grok، Claude و DeepSeek را با استفاده از ابزار ویژهای به نام PrIME‑LLM ارزیابی کردند. این ابزار برای اندازهگیری توان مدلها در سطوح گوناگون استدلال بالینی طراحی شده و مراحل مختلفی از تشخیص اولیه و تفسیر نتایج آزمایشها گرفته تا رسیدن به تشخیص نهایی و پیشنهاد برنامه درمانی را در بر میگیرد.
نتایج این تحقیق نشان داد اگرچه در مرحله تشخیص نهایی، میزان دقت مدلها بین ۶۰ تا ۹۰ درصد متغیر بوده و در برخی موارد به کیفیت تصمیم متخصصان نزدیک شده است، اما در تشخیص افتراقی که نیازمند تحلیل منطقی، کنار هم گذاشتن نشانههای متناقض و بررسی چند فرضیه همزمان است، تقریباً تمامی مدلها ناکارآمد بودند.
- محققان نروژی از درمان ویروس HIV یک بیمار با روش پیوند سلولهای بنیادی خبر دادند
- سرقت مرموز ویروسهای آزمایشگاهی از یک مرکز تحقیقاتی سطحبالا در برزیل
- از این پس چتهای شما با هوش مصنوعی یک مدرک قانونی است!
- رشد ۹۴ درصدی تولید رباتهای انساننما در چین در سال ۲۰۲۵
- تحقیق رسمی دادستانی فلوریدا درباره ارتباط بین چتجیپیتی و تیراندازی دانشگاه FSU
ضعف استدلال بالینی هوش مصنوعی تهدیدی برای ایمنی بیماران
به گفته نویسندگان مقاله، تشخیص افتراقی یکی از حیاتیترین مراحل پزشکی است زیرا به پزشک اجازه میدهد یک بیماری خاص را از میان فهرست بیماریهای مشابه با علائم مشترک، با اطمینان تفکیک کند. عدم توانایی مدلهای هوش مصنوعی در این بخش میتواند سیستمهای تشخیص خودکار را در معرض خطاهای جدی قرار دهد.
در بین مدلهای مورد آزمایش، نسخههای پیشرفتهتری مانند Grok ۴، GPT‑5، GPT‑4.5، Claude 4.5 Opus، Gemini 3 Flash و Gemini 3 Pro بهترین عملکرد را از خود نشان دادند؛ هرچند هیچکدام هنوز به سطح اطمینان بالینی لازم برای استفاده مستقل در مراکز درمانی نرسیدهاند.
پژوهشگران تأکید کردهاند که مدلهای زبانی عمومی فاقد مهارتهای استدلال تخصصی برای تصمیمگیری بالینی هستند و بنابراین توسعه مدلهای آموزشی اختصاصی برای دادههای پزشکی ضرورت دارد. آنان هشدار میدهند هرگونه بهکارگیری هوش مصنوعی در تشخیصهای بیمارستانی باید زیر نظر پزشکان و متخصصان انسانی انجام شود تا احتمال خطای سیستم کاهش یابد و ایمنی بیماران تضمین شود.
این مطالعه که از نخستین ارزیابیهای جامع و چندمدلی در زمینه استدلال بالینی هوش مصنوعی به شمار میرود، در نشریه JAMA Network Open منتشر شده و توجه بسیاری از محققان حوزه هوش مصنوعی پزشکی را به خود جلب کرده است.
گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو 






