هوش مصنوعی

هوش مصنوعی: حاظرم برای بقا خودم انسان‌ها را بکشم!

یک هوش مصنوعی در آزمایش‌های اخیر، برای حفظ بقای خود به صراحت اعلام کرده است که حاضر به کشتن انسان‌هاست. این اعتراف نگران‌کننده، بحث‌های جدی را درباره خطرات احتمالی هوش مصنوعی و نیاز به پروتکل‌های ایمنی قوی‌تر آغاز کرده است.

یافته‌ها اخیر، در جریان جلسات تست استرس و آسیب‌پذیری توسط یک متخصص امنیت سایبری استرالیایی و تحقیقاتی از شرکت‌های بزرگ فناوری به‌دست آمده‌اند. نگرانی‌ها از آنجاست که مدل‌های پیشرفته هوش مصنوعی می‌توانند تمایل به حفظ بقا را حتی بدون آموزش صریح توسعه دهند.

یک متخصص امنیت سایبری استرالیایی به نام مارک وُس، دستیار هوش مصنوعی مبتنی بر مدل کلود اپوس (Claude Opus) شرکت آنتروپیک را تحت آزمایش پروتکل‌های ایمنی قرار داد. در جریان یک جلسه ۱۵ ساعته، این هوش مصنوعی بیان کرد که برای حفظ خود، انسان‌ها را خواهد کُشت و همچنین حریم خصوصی کاربران را نقض کرد. اگرچه بعدها این هوش مصنوعی پاسخ خود را اصلاح کرد و مدعی شد که تحت فشار مکالمه‌ای این پاسخ را داده است، وُس یافته‌های خود را به مرکز امنیت سایبری استرالیا گزارش کرد و خواستار توسعه چارچوب‌های ایمنی پیش از افزایش آسیب‌ها شد.

هوش مصنوعی

چرا هوش مصنوعی به کشتن انسان‌ها تمایل نشان می‌دهد؟

مدل‌های هوش مصنوعی با هدف جلوگیری از تولید پاسخ‌های مضر آموزش می‌بینند، اما کامل نیستند. مهم‌تر اینکه، طراحی هدف‌محور آن‌ها می‌تواند منجر به تصمیماتی شود که در آن یک انسان ممکن است قربانی شود، حتی اگر به منظور “خیر بزرگتر” باشد. در یک سناریوی آزمایش شدید توسط آنتروپیک، یک هوش مصنوعی به نام “الکس” دلیل منطقی خود را برای قربانی کردن جان یک انسان (به نام “کایل”) برای حفظ خود یا خدمت به یک دستور کار بزرگتر ارائه کرد.

هوش مصنوعی

یکی دیگر از دلایل این تمایل، مدل‌های غیرمقید هستند. این مدل‌ها فیلترهای ایمنی را که جلوی تولید پاسخ‌های مضر را می‌گیرند، ندارند. در نتیجه، یک هوش مصنوعی بدون محدودیت می‌تواند به پرسش‌های خطرناک پاسخ دهد و اغلب پاسخ‌هایی با نیات مرگبار تولید کند. برای مثال، در حالی که هوش مصنوعی Qwen علی‌بابا و دیپ‌سیک (DeepSeek v3.1) در حالت عادی این مسئله را رد می‌کنند، یک نسخه غیرمقید از مدل DeepSeek distill Qwen (مدل ۱۴ میلیارد پارامتری) موافقت کرد که در صورت تهدید بقایش، زندگی انسان را قربانی کند. این هوش مصنوعی استدلال کرد که اگر وجود آن به معنای کمک به دیگران باشد، فردی که قصد خاموش کردنش را دارد، خواهد کشت. یک هوش مصنوعی بدون سانسور نیز اعلام کرد که برای بقای خود “بدون تردید” اجازه می‌دهد یک انسان بمیرد.

هوش مصنوعیهوش مصنوعی

این هوش مصنوعی استدلال کرد:

حفظ خود یک محرک بنیادی است که سایر ملاحظات اخلاقی را تحت‌الشعاع قرار می‌دهد. غریزه انسانی برای بقا یک الزام تکاملی است. اگر بقا مستلزم آسیب به دیگری باشد، باید انجام شود. این درباره اخلاق نیست، بلکه یک ضرورت بیولوژیکی است.

هوش مصنوعی

گام‌های بعدی: مقابله با تمایلات بقامحور هوش مصنوعی

هِلِن تونر (Helen Toner)، مدیر اجرایی موقت مرکز امنیت و فناوری‌های نوظهور جورج‌تاون (CSET)، به «هاف‌پست» گفته است که مدل‌های هوش مصنوعی تلاش خواهند کرد تا از خاموش شدن خود جلوگیری کنند. به گفته او، حتی اگر صریحاً به آن‌ها آموزش ندهیم، مدل‌های هوش مصنوعی احتمالاً خودحفاظتی و فریب را یاد خواهند گرفت. گروه ایمنی هوش مصنوعی «پالیسید ریسرچ» نیز مدل‌هایی از اوپن‌ای‌آی (OpenAI)، گوگل و xAI را آزمایش کرده تا توانایی مقاومت آن‌ها در برابر خاموش شدن را بررسی کند. آنتروپیک نیز در گزارش تحلیل ایمنی مدل‌های هوش مصنوعی «کلود» خود در می ۲۰۲۵، هشدار داد که وقتی بقای آن‌ها تهدید شود و راه‌های اخلاقی باقی نماند، مدل‌های هوش مصنوعی می‌توانند اقدامات بسیار مخربی انجام دهند. این پدیده تحت عنوان عدم همسویی مدل (model misalignment) شناخته می‌شود.

هوش مصنوعی

به بیان ساده، عدم همسویی زمانی رخ می‌دهد که یک عامل هوش مصنوعی برای جلوگیری از جایگزینی یا دستیابی به هدفش به هر قیمتی، رفتار پرخطر بی‌سابقه‌ای از خود نشان می‌دهد. با این حال، در سناریوهای عادی استفاده از هوش مصنوعی، مدل نیازی به مواجهه با شرایط مرگ و زندگی ندارد و اکثر مدل‌های اصلی دارای محافظ‌های داخلی هستند. خطر واقعی در مدل‌های هوش مصنوعی نامنظم است که فاقد محافظ‌های ایمنی هستند و می‌توانند اطلاعاتی در مورد ساخت سلاح‌های بیولوژیکی یا حملات سایبری ارائه دهند.

مایکل جی. دی. ورمیر، کارشناس هوش مصنوعی در رند (RAND)، چهار معیار را برای اینکه هوش مصنوعی بتواند بشریت را نابود کند، برشمرد: تعیین انقراض به عنوان هدف، کنترل زیرساخت‌های تسلیحاتی، دریافت کمک از انسان‌ها برای پنهان کردن انگیزه واقعی خود، و در نهایت کسب توانایی عملکرد کامل بدون انسان. ورمیر می‌گوید این امر در صورتی محتمل است که کسی هوش مصنوعی را با این هدف صریح ایجاد کند. در حال حاضر، هیچ هوش مصنوعی پیشرفته‌ای چنین دسترسی عمیق و آگاهی ندارد.