شکست GPT-4o و Claude در آزمون تمرکز: آیا هوش مصنوعی هرگز نمی‌تواند مثل انسان حواس‌جمعی داشته باشد؟

0 ارسال شده توسط: کیان رضایی 20 خرداد 1405 ساعت 19:16

تمرکز هوش مصنوعی در مواجهه با چالش‌های شناختی، در آزمون روان‌شناختی کلاسیک استروپ، ضعف قابل‌توجهی از خود نشان داد که تفاوت اساسی پردازش اطلاعات در مدل‌های هوش مصنوعی و مغز انسان را آشکار می‌سازد.

مدل‌های زبان بزرگ نظیر GPT-4o و Claude که قادر به نگارش مقاله، پاسخ‌گویی به پرسش‌ها و حل مسائل پیچیده هستند، با یکی از توانایی‌های روزمره انسان، یعنی حفظ تمرکز در برابر عوامل حواس‌پرتی، دست‌وپنجه نرم می‌کنند. تحقیقات جدید نشان می‌دهد این مدل‌ها در آزمون استروپ، که ابزاری شناخته‌شده برای سنجش توجه و کنترل شناختی است، عملکرد ضعیفی از خود نشان داده‌اند که محدودیت‌های بنیادی در هوش مصنوعی فعلی را برجسته می‌کند.

آزمون استروپ چیست؟

آزمون استروپ یک آزمایش روان‌شناختی کلاسیک است که دهه‌ها برای مطالعه توجه، تمرکز و کنترل خود مورد استفاده قرار گرفته است. در این آزمون، کلمات رنگی مانند «قرمز»، «آبی» یا «سبز» با جوهر رنگی نمایش داده می‌شوند. گاهی کلمه و رنگ جوهر با هم مطابقت دارند (مانند کلمه «قرمز» با جوهر قرمز) و گاهی متناقض‌اند (مانند کلمه «قرمز» با جوهر آبی). از شرکت‌کنندگان خواسته می‌شود که رنگ جوهر را نام ببرند، نه خود کلمه را بخوانند. این کار ساده به نظر می‌رسد، اما چالش‌برانگیز است؛ زیرا خواندن کلمات برای بیشتر افراد یک عادت خودکار است و مغز باید این تمایل را سرکوب کرده و به جای آن بر شناسایی رنگ جوهر تمرکز کند. روانشناسان اغلب از این آزمون برای اندازه‌گیری «کنترل اجرایی» استفاده می‌کنند؛ مجموعه‌ای از فرایندهای ذهنی که به افراد کمک می‌کند توجه را تنظیم کنند، در برابر حواس‌پرتی مقاومت نمایند و روی اهداف متمرکز بمانند.

هوش مصنوعی چگونه تمرکز خود را از دست می‌دهد؟

پژوهشگران به رهبری سوکتو پاتل (Suketu Patel) چندین مدل زبان بزرگ (LLM) پیشرو، از جمله GPT-4o، کلود (Claude) و جمنای (Gemini) را در آزمون استروپ قرار دادند تا ببینند آیا این مدل‌ها چالش تمرکز را همانند انسان‌ها مدیریت می‌کنند یا خیر. در ابتدا، وقتی فهرست‌های کوتاه پنج‌کلمه‌ای از کلمات رنگی به مدل‌های هوش مصنوعی داده شد، آن‌ها حتی زمانی که کلمات و رنگ‌ها مطابقت نداشتند، به طور کلی خوب عمل کردند. اما با طولانی‌تر شدن فهرست‌ها، نتایج به طور چشمگیری تغییر کرد.

GPT-4o با فهرست‌های پنج‌کلمه‌ای به دقت ۹۱ درصد رسید، اما در فهرست‌های ده‌کلمه‌ای دقت آن به ۵۷ درصد کاهش یافت و با چهل کلمه، این میزان به تنها ۱۵ درصد رسید. Claude 3.5 Sonnet تا فهرست‌های بیست‌کلمه‌ای عملکرد پایداری داشت، اما سپس با کاهش شدیدی مواجه شد و دقت آن برای فهرست‌های چهل‌کلمه‌ای به ۲۴ درصد رسید. وقتی کلمات رنگی همسان و ناسازگار در یک فهرست ظاهر شدند، چالش دشوارتر شد و دقت برای موارد ناسازگار در برخی موارد به تقریباً صفر رسید. به گفته پژوهشگران، مدل‌های هوش مصنوعی در حفظ دستورالعمل شناسایی رنگ جوهر مشکل داشتند و به جای آن، به طور فزاینده‌ای به خواندن خود کلمات بازگشتند. این نشان می‌دهد سیستم‌ها قادر به سرکوب پاسخی که برای تولید آن آموزش دیده‌اند، نبودند.

تفاوت جوهری در توجه انسان و ماشین

این یافته از این جهت جالب است که انسان‌ها نیز با تضاد مشابهی روبرو هستند. افراد معمولاً در خواندن کلمات بسیار بهتر از نام بردن رنگ جوهر هستند؛ با این حال، با وجود این سوگیری، اکثر افراد می‌توانند دقت بالا و عملکرد پایداری را حتی در مواجهه با فهرست‌های طولانی از کلمات و رنگ‌های متناقض حفظ کنند. این مطالعه تمایز مهمی بین هوش انسانی و هوش مصنوعی را برجسته می‌کند. اگرچه سیستم‌های هوش مصنوعی مدرن می‌توانند قابلیت‌های زبان و استدلال چشمگیری را تولید کنند، اما مکانیسم‌های زیربنایی آن‌ها با فرایندهای توجه موجود در مغزهای بیولوژیکی متفاوت است. انسان‌ها اغلب می‌توانند تمرکز خود را بر یک هدف خاص حفظ کرده و اطلاعات رقابتی را فیلتر کنند. نتایج نشان می‌دهد که مدل‌های هوش مصنوعی کنونی ممکن است با این نوع کنترل شناختی، به خصوص زمانی که وظایف به طور فزاینده‌ای دشوار می‌شوند، مشکل داشته باشند. پژوهشگران معتقدند که کاهش عملکرد مشاهده شده در این آزمایش‌ها به محدودیت‌های بنیادی در مدل‌های زبان بزرگ امروزی اشاره دارد. در حالی که هوش مصنوعی گاهی اوقات می‌تواند رفتار انسانی را تقلید کند، اما توانایی آن در حفظ تمرکز به نظر می‌رسد که کاملاً متفاوت از روشی است که انسان‌ها عمل می‌کنند. این یافته‌ها یادآوری می‌کنند که حتی پیشرفته‌ترین سیستم‌های هوش مصنوعی نیز هنوز ضعف‌هایی دارند، به‌ویژه زمانی که وظایف از آن‌ها می‌خواهد در برابر حواس‌پرتی مقاومت کرده و در توالی‌های طولانی اطلاعات متمرکز بمانند.