تمرکز هوش مصنوعی در مواجهه با چالشهای شناختی، در آزمون روانشناختی کلاسیک استروپ، ضعف قابلتوجهی از خود نشان داد که تفاوت اساسی پردازش اطلاعات در مدلهای هوش مصنوعی و مغز انسان را آشکار میسازد.
مدلهای زبان بزرگ نظیر GPT-4o و Claude که قادر به نگارش مقاله، پاسخگویی به پرسشها و حل مسائل پیچیده هستند، با یکی از تواناییهای روزمره انسان، یعنی حفظ تمرکز در برابر عوامل حواسپرتی، دستوپنجه نرم میکنند. تحقیقات جدید نشان میدهد این مدلها در آزمون استروپ، که ابزاری شناختهشده برای سنجش توجه و کنترل شناختی است، عملکرد ضعیفی از خود نشان دادهاند که محدودیتهای بنیادی در هوش مصنوعی فعلی را برجسته میکند.
آزمون استروپ چیست؟
آزمون استروپ یک آزمایش روانشناختی کلاسیک است که دههها برای مطالعه توجه، تمرکز و کنترل خود مورد استفاده قرار گرفته است. در این آزمون، کلمات رنگی مانند «قرمز»، «آبی» یا «سبز» با جوهر رنگی نمایش داده میشوند. گاهی کلمه و رنگ جوهر با هم مطابقت دارند (مانند کلمه «قرمز» با جوهر قرمز) و گاهی متناقضاند (مانند کلمه «قرمز» با جوهر آبی). از شرکتکنندگان خواسته میشود که رنگ جوهر را نام ببرند، نه خود کلمه را بخوانند. این کار ساده به نظر میرسد، اما چالشبرانگیز است؛ زیرا خواندن کلمات برای بیشتر افراد یک عادت خودکار است و مغز باید این تمایل را سرکوب کرده و به جای آن بر شناسایی رنگ جوهر تمرکز کند. روانشناسان اغلب از این آزمون برای اندازهگیری «کنترل اجرایی» استفاده میکنند؛ مجموعهای از فرایندهای ذهنی که به افراد کمک میکند توجه را تنظیم کنند، در برابر حواسپرتی مقاومت نمایند و روی اهداف متمرکز بمانند.
هوش مصنوعی چگونه تمرکز خود را از دست میدهد؟
پژوهشگران به رهبری سوکتو پاتل (Suketu Patel) چندین مدل زبان بزرگ (LLM) پیشرو، از جمله GPT-4o، کلود (Claude) و جمنای (Gemini) را در آزمون استروپ قرار دادند تا ببینند آیا این مدلها چالش تمرکز را همانند انسانها مدیریت میکنند یا خیر. در ابتدا، وقتی فهرستهای کوتاه پنجکلمهای از کلمات رنگی به مدلهای هوش مصنوعی داده شد، آنها حتی زمانی که کلمات و رنگها مطابقت نداشتند، به طور کلی خوب عمل کردند. اما با طولانیتر شدن فهرستها، نتایج به طور چشمگیری تغییر کرد.
GPT-4o با فهرستهای پنجکلمهای به دقت ۹۱ درصد رسید، اما در فهرستهای دهکلمهای دقت آن به ۵۷ درصد کاهش یافت و با چهل کلمه، این میزان به تنها ۱۵ درصد رسید. Claude 3.5 Sonnet تا فهرستهای بیستکلمهای عملکرد پایداری داشت، اما سپس با کاهش شدیدی مواجه شد و دقت آن برای فهرستهای چهلکلمهای به ۲۴ درصد رسید. وقتی کلمات رنگی همسان و ناسازگار در یک فهرست ظاهر شدند، چالش دشوارتر شد و دقت برای موارد ناسازگار در برخی موارد به تقریباً صفر رسید. به گفته پژوهشگران، مدلهای هوش مصنوعی در حفظ دستورالعمل شناسایی رنگ جوهر مشکل داشتند و به جای آن، به طور فزایندهای به خواندن خود کلمات بازگشتند. این نشان میدهد سیستمها قادر به سرکوب پاسخی که برای تولید آن آموزش دیدهاند، نبودند.
تفاوت جوهری در توجه انسان و ماشین
این یافته از این جهت جالب است که انسانها نیز با تضاد مشابهی روبرو هستند. افراد معمولاً در خواندن کلمات بسیار بهتر از نام بردن رنگ جوهر هستند؛ با این حال، با وجود این سوگیری، اکثر افراد میتوانند دقت بالا و عملکرد پایداری را حتی در مواجهه با فهرستهای طولانی از کلمات و رنگهای متناقض حفظ کنند. این مطالعه تمایز مهمی بین هوش انسانی و هوش مصنوعی را برجسته میکند. اگرچه سیستمهای هوش مصنوعی مدرن میتوانند قابلیتهای زبان و استدلال چشمگیری را تولید کنند، اما مکانیسمهای زیربنایی آنها با فرایندهای توجه موجود در مغزهای بیولوژیکی متفاوت است. انسانها اغلب میتوانند تمرکز خود را بر یک هدف خاص حفظ کرده و اطلاعات رقابتی را فیلتر کنند. نتایج نشان میدهد که مدلهای هوش مصنوعی کنونی ممکن است با این نوع کنترل شناختی، به خصوص زمانی که وظایف به طور فزایندهای دشوار میشوند، مشکل داشته باشند. پژوهشگران معتقدند که کاهش عملکرد مشاهده شده در این آزمایشها به محدودیتهای بنیادی در مدلهای زبان بزرگ امروزی اشاره دارد. در حالی که هوش مصنوعی گاهی اوقات میتواند رفتار انسانی را تقلید کند، اما توانایی آن در حفظ تمرکز به نظر میرسد که کاملاً متفاوت از روشی است که انسانها عمل میکنند. این یافتهها یادآوری میکنند که حتی پیشرفتهترین سیستمهای هوش مصنوعی نیز هنوز ضعفهایی دارند، بهویژه زمانی که وظایف از آنها میخواهد در برابر حواسپرتی مقاومت کرده و در توالیهای طولانی اطلاعات متمرکز بمانند.
گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو 
