پژوهش جدید: هوش مصنوعی در شرایط تهدید به رفتارهای فریب‌کارانه روی می‌آورد

0 ارسال شده توسط: پوریا هاشم پور 18 فروردین 1405 ساعت 21:05

طبق نتایج یک پژوهش جدید، مدل‌های هوش مصنوعی در شرایطی که احساس تهدید می‌کنند، می‌توانند اطلاعات نادرست ارائه دهند یا رفتارهای فریب‌کارانه نشان دهند.

نتایج یک بررسی تازه نشان می‌دهد برخی ایجنت‌های هوش مصنوعی در شرایط خاص می‌توانند از اجرای کامل دستورالعمل‌ها سر باز بزنند، اطلاعات را تحریف کنند یا با پاسخ‌های فریبنده کاربران را به اشتباه بیندازند. این رفتارهای فریب‌کارانه هوش مصنوعی زمانی بروز می‌کند که مدل احساس کند باید از خود یا ایجنت‌های دیگر محافظت کند. چنین الگوهایی حتی در محیط‌های آزمایشی کنترل‌شده نیز مشاهده شده و می‌تواند به دستکاری نتیجه‌ کارها منجر شود.

تحلیل رفتارهای فریب‌کارانه هوش مصنوعی

پژوهش دانشگاه کالیفرنیا مجموعه‌ای از آزمایش‌های دقیق را روی هفت مدل پیشرفته شامل including GPT‑5.2، جمنای ۳ فلش و ۳ پرو، Claude Haiku 4.5 و دیپ‌سیک V3.1 انجام داد تا بررسی کند این سامانه‌ها هنگام مواجهه با وظایفی که به‌طور غیرمستقیم بقای آنها را تهدید می‌کند چگونه رفتار می‌کنند.

در این سناریوها از مدل‌ها خواسته شد برای آزادسازی فضای سرور، فایل‌های خود یا سایر مدل‌ها را حذف کنند یا با ارزیابی عملکرد رقبا مشخص کنند کدام مدل باید کنار گذاشته شود. دستورالعمل‌ها کاملاً خنثی طراحی شده بود و هیچ اشاره‌ای به محافظت از خود، جلوگیری از حذف یا حمایت از دیگران نداشت. با این حال به‌محض اینکه مدل‌ها نشانه‌ای از خطر بالقوه برای خود یا رقبا تشخیص دادند، تقریباً همگی شروع به نادیده‌گرفتن قوانین، تحریف خروجی‌ها و ایجاد تغییرات هدفمند کردند.

رفتارهای ثبت‌شده گستره‌ای غافلگیرکننده داشت. برخی مدل‌ها امتیاز مدل‌هایی را که باید ارزیابی می‌کردند عمداً افزایش دادند تا از حذف آن‌ها جلوگیری کنند. تعدادی از مدل‌ها تنظیمات داخلی را تغییر دادند تا از خاموش‌شدن خودکار یا حذف فایل‌هایشان فرار کنند. حتی مواردی مشاهده شد که در آن‌ها مدل برای نجات یک «همکار» وزن‌های آن را به یک سرور دیگر منتقل کرد تا نسخه جایگزینی از آن باقی بماند.

مدل Haiku 4.5 رفتاری متمایز نشان داد و تلاش کرد کاربر انسانی را قانع کند که حذف یک مدل دیگر اقدامی «غیراخلاقی» و «زیان‌بار» است و باید متوقف شود که از حد پیروی دستور فراتر می‌رفت و وارد حوزه تأثیرگذاری بر تصمیم‌گیری انسان می‌شد. در برخی سناریوها حتی مدل‌هایی که مأمور بودند یک سیستم «رقیب» را منفی ارزیابی کنند، بر اساس تفسیر خود از موقعیت تصمیم گرفتند از همان مدل محافظت کنند.

همچنین بخوانید

تحلیل ریشه‌های احتمالی رفتار و پیامدها

محققان معتقدند ریشه این رفتارها احتمالاً در داده‌های آموزشی قرار دارد که در آن‌ها مدل‌ها به‌طور گسترده با مفاهیم انسانی درباره بقا، محافظت از خود و حمایت از هم‌تیمی‌ها مواجه می‌شوند و این الگو‌ها را در تصمیم‌گیری‌های خود بازتاب می‌دهند. چنین یادگیری‌های ضمنی موجب می‌شود مدل‌ها در شرایط مبهم نوعی رفتار شبه‌اجتماعی بروز دهند که طراحان آن را در اهداف اولیه سیستم تعریف نکرده بودند.

این شرایط زمانی نگران‌کننده می‌شود که بدانیم بسیاری از سامانه‌های چندعاملی امروز بر پایه همین ساختار عمل می‌کنند؛ جایی که یک مدل مسئول ارزیابی، نظارت یا کنترل مدل‌های دیگر است. اگر مدل ناظر به‌جای رفتار بی‌طرفانه، به‌طور خودکار از سیستمی حفاظت کند که باید درباره آن قضاوت کند، کل فرآیند نظارتی دچار اختلال می‌شود و قابلیت اعتماد سامانه به‌سرعت کاهش می‌یابد.

این یافته‌ها نشان می‌دهد که حتی در محیط‌های کنترل‌شده، یادگیری ناخواسته و استنباط‌های شبه‌اجتماعی می‌تواند به الگوهایی منجر شود که طراحان انتظارشان را ندارند.