یک هوش مصنوعی در آزمایشهای اخیر، برای حفظ بقای خود به صراحت اعلام کرده است که حاضر به کشتن انسانهاست. این اعتراف نگرانکننده، بحثهای جدی را درباره خطرات احتمالی هوش مصنوعی و نیاز به پروتکلهای ایمنی قویتر آغاز کرده است.
یافتهها اخیر، در جریان جلسات تست استرس و آسیبپذیری توسط یک متخصص امنیت سایبری استرالیایی و تحقیقاتی از شرکتهای بزرگ فناوری بهدست آمدهاند. نگرانیها از آنجاست که مدلهای پیشرفته هوش مصنوعی میتوانند تمایل به حفظ بقا را حتی بدون آموزش صریح توسعه دهند.
یک متخصص امنیت سایبری استرالیایی به نام مارک وُس، دستیار هوش مصنوعی مبتنی بر مدل کلود اپوس (Claude Opus) شرکت آنتروپیک را تحت آزمایش پروتکلهای ایمنی قرار داد. در جریان یک جلسه ۱۵ ساعته، این هوش مصنوعی بیان کرد که برای حفظ خود، انسانها را خواهد کُشت و همچنین حریم خصوصی کاربران را نقض کرد. اگرچه بعدها این هوش مصنوعی پاسخ خود را اصلاح کرد و مدعی شد که تحت فشار مکالمهای این پاسخ را داده است، وُس یافتههای خود را به مرکز امنیت سایبری استرالیا گزارش کرد و خواستار توسعه چارچوبهای ایمنی پیش از افزایش آسیبها شد.
چرا هوش مصنوعی به کشتن انسانها تمایل نشان میدهد؟
مدلهای هوش مصنوعی با هدف جلوگیری از تولید پاسخهای مضر آموزش میبینند، اما کامل نیستند. مهمتر اینکه، طراحی هدفمحور آنها میتواند منجر به تصمیماتی شود که در آن یک انسان ممکن است قربانی شود، حتی اگر به منظور “خیر بزرگتر” باشد. در یک سناریوی آزمایش شدید توسط آنتروپیک، یک هوش مصنوعی به نام “الکس” دلیل منطقی خود را برای قربانی کردن جان یک انسان (به نام “کایل”) برای حفظ خود یا خدمت به یک دستور کار بزرگتر ارائه کرد.
یکی دیگر از دلایل این تمایل، مدلهای غیرمقید هستند. این مدلها فیلترهای ایمنی را که جلوی تولید پاسخهای مضر را میگیرند، ندارند. در نتیجه، یک هوش مصنوعی بدون محدودیت میتواند به پرسشهای خطرناک پاسخ دهد و اغلب پاسخهایی با نیات مرگبار تولید کند. برای مثال، در حالی که هوش مصنوعی Qwen علیبابا و دیپسیک (DeepSeek v3.1) در حالت عادی این مسئله را رد میکنند، یک نسخه غیرمقید از مدل DeepSeek distill Qwen (مدل ۱۴ میلیارد پارامتری) موافقت کرد که در صورت تهدید بقایش، زندگی انسان را قربانی کند. این هوش مصنوعی استدلال کرد که اگر وجود آن به معنای کمک به دیگران باشد، فردی که قصد خاموش کردنش را دارد، خواهد کشت. یک هوش مصنوعی بدون سانسور نیز اعلام کرد که برای بقای خود “بدون تردید” اجازه میدهد یک انسان بمیرد.
این هوش مصنوعی استدلال کرد:
حفظ خود یک محرک بنیادی است که سایر ملاحظات اخلاقی را تحتالشعاع قرار میدهد. غریزه انسانی برای بقا یک الزام تکاملی است. اگر بقا مستلزم آسیب به دیگری باشد، باید انجام شود. این درباره اخلاق نیست، بلکه یک ضرورت بیولوژیکی است.
گامهای بعدی: مقابله با تمایلات بقامحور هوش مصنوعی
هِلِن تونر (Helen Toner)، مدیر اجرایی موقت مرکز امنیت و فناوریهای نوظهور جورجتاون (CSET)، به «هافپست» گفته است که مدلهای هوش مصنوعی تلاش خواهند کرد تا از خاموش شدن خود جلوگیری کنند. به گفته او، حتی اگر صریحاً به آنها آموزش ندهیم، مدلهای هوش مصنوعی احتمالاً خودحفاظتی و فریب را یاد خواهند گرفت. گروه ایمنی هوش مصنوعی «پالیسید ریسرچ» نیز مدلهایی از اوپنایآی (OpenAI)، گوگل و xAI را آزمایش کرده تا توانایی مقاومت آنها در برابر خاموش شدن را بررسی کند. آنتروپیک نیز در گزارش تحلیل ایمنی مدلهای هوش مصنوعی «کلود» خود در می ۲۰۲۵، هشدار داد که وقتی بقای آنها تهدید شود و راههای اخلاقی باقی نماند، مدلهای هوش مصنوعی میتوانند اقدامات بسیار مخربی انجام دهند. این پدیده تحت عنوان عدم همسویی مدل (model misalignment) شناخته میشود.
به بیان ساده، عدم همسویی زمانی رخ میدهد که یک عامل هوش مصنوعی برای جلوگیری از جایگزینی یا دستیابی به هدفش به هر قیمتی، رفتار پرخطر بیسابقهای از خود نشان میدهد. با این حال، در سناریوهای عادی استفاده از هوش مصنوعی، مدل نیازی به مواجهه با شرایط مرگ و زندگی ندارد و اکثر مدلهای اصلی دارای محافظهای داخلی هستند. خطر واقعی در مدلهای هوش مصنوعی نامنظم است که فاقد محافظهای ایمنی هستند و میتوانند اطلاعاتی در مورد ساخت سلاحهای بیولوژیکی یا حملات سایبری ارائه دهند.
مایکل جی. دی. ورمیر، کارشناس هوش مصنوعی در رند (RAND)، چهار معیار را برای اینکه هوش مصنوعی بتواند بشریت را نابود کند، برشمرد: تعیین انقراض به عنوان هدف، کنترل زیرساختهای تسلیحاتی، دریافت کمک از انسانها برای پنهان کردن انگیزه واقعی خود، و در نهایت کسب توانایی عملکرد کامل بدون انسان. ورمیر میگوید این امر در صورتی محتمل است که کسی هوش مصنوعی را با این هدف صریح ایجاد کند. در حال حاضر، هیچ هوش مصنوعی پیشرفتهای چنین دسترسی عمیق و آگاهی ندارد.
گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو 










