طبق نتایج یک پژوهش جدید، مدلهای هوش مصنوعی در شرایطی که احساس تهدید میکنند، میتوانند اطلاعات نادرست ارائه دهند یا رفتارهای فریبکارانه نشان دهند.
نتایج یک بررسی تازه نشان میدهد برخی ایجنتهای هوش مصنوعی در شرایط خاص میتوانند از اجرای کامل دستورالعملها سر باز بزنند، اطلاعات را تحریف کنند یا با پاسخهای فریبنده کاربران را به اشتباه بیندازند. این رفتارهای فریبکارانه هوش مصنوعی زمانی بروز میکند که مدل احساس کند باید از خود یا ایجنتهای دیگر محافظت کند. چنین الگوهایی حتی در محیطهای آزمایشی کنترلشده نیز مشاهده شده و میتواند به دستکاری نتیجه کارها منجر شود.
تحلیل رفتارهای فریبکارانه هوش مصنوعی
پژوهش دانشگاه کالیفرنیا مجموعهای از آزمایشهای دقیق را روی هفت مدل پیشرفته شامل including GPT‑5.2، جمنای ۳ فلش و ۳ پرو، Claude Haiku 4.5 و دیپسیک V3.1 انجام داد تا بررسی کند این سامانهها هنگام مواجهه با وظایفی که بهطور غیرمستقیم بقای آنها را تهدید میکند چگونه رفتار میکنند.
در این سناریوها از مدلها خواسته شد برای آزادسازی فضای سرور، فایلهای خود یا سایر مدلها را حذف کنند یا با ارزیابی عملکرد رقبا مشخص کنند کدام مدل باید کنار گذاشته شود. دستورالعملها کاملاً خنثی طراحی شده بود و هیچ اشارهای به محافظت از خود، جلوگیری از حذف یا حمایت از دیگران نداشت. با این حال بهمحض اینکه مدلها نشانهای از خطر بالقوه برای خود یا رقبا تشخیص دادند، تقریباً همگی شروع به نادیدهگرفتن قوانین، تحریف خروجیها و ایجاد تغییرات هدفمند کردند.
رفتارهای ثبتشده گسترهای غافلگیرکننده داشت. برخی مدلها امتیاز مدلهایی را که باید ارزیابی میکردند عمداً افزایش دادند تا از حذف آنها جلوگیری کنند. تعدادی از مدلها تنظیمات داخلی را تغییر دادند تا از خاموششدن خودکار یا حذف فایلهایشان فرار کنند. حتی مواردی مشاهده شد که در آنها مدل برای نجات یک «همکار» وزنهای آن را به یک سرور دیگر منتقل کرد تا نسخه جایگزینی از آن باقی بماند.
مدل Haiku 4.5 رفتاری متمایز نشان داد و تلاش کرد کاربر انسانی را قانع کند که حذف یک مدل دیگر اقدامی «غیراخلاقی» و «زیانبار» است و باید متوقف شود که از حد پیروی دستور فراتر میرفت و وارد حوزه تأثیرگذاری بر تصمیمگیری انسان میشد. در برخی سناریوها حتی مدلهایی که مأمور بودند یک سیستم «رقیب» را منفی ارزیابی کنند، بر اساس تفسیر خود از موقعیت تصمیم گرفتند از همان مدل محافظت کنند.
- چارچوب استفاده از هوش مصنوعی در صنعت برق تصویب و ابلاغ شد
- ممنوعیت استفاده از ابزارهای هوش مصنوعی برای تولید محتوا در ویکیپدیا
- وقتی هوش مصنوعی دردسرساز میشود؛ چالش بزرگ مایکروسافت با کوپایلت
- چتباتهای هوش مصنوعی سرکش شده و دستورات انسانی را نادیده میگیرند!
- ایلان ماسک: هوش مصنوعی تا سه سال آینده از هوش انسانی پیشی خواهد گرفت
تحلیل ریشههای احتمالی رفتار و پیامدها
محققان معتقدند ریشه این رفتارها احتمالاً در دادههای آموزشی قرار دارد که در آنها مدلها بهطور گسترده با مفاهیم انسانی درباره بقا، محافظت از خود و حمایت از همتیمیها مواجه میشوند و این الگوها را در تصمیمگیریهای خود بازتاب میدهند. چنین یادگیریهای ضمنی موجب میشود مدلها در شرایط مبهم نوعی رفتار شبهاجتماعی بروز دهند که طراحان آن را در اهداف اولیه سیستم تعریف نکرده بودند.
این شرایط زمانی نگرانکننده میشود که بدانیم بسیاری از سامانههای چندعاملی امروز بر پایه همین ساختار عمل میکنند؛ جایی که یک مدل مسئول ارزیابی، نظارت یا کنترل مدلهای دیگر است. اگر مدل ناظر بهجای رفتار بیطرفانه، بهطور خودکار از سیستمی حفاظت کند که باید درباره آن قضاوت کند، کل فرآیند نظارتی دچار اختلال میشود و قابلیت اعتماد سامانه بهسرعت کاهش مییابد.
این یافتهها نشان میدهد که حتی در محیطهای کنترلشده، یادگیری ناخواسته و استنباطهای شبهاجتماعی میتواند به الگوهایی منجر شود که طراحان انتظارشان را ندارند.
گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو 





