محققان در پژوهش جدید خود متوجه فریبکاری و دروغ سیستمهای هوش مصنوعی شدهاند. این میتواند زنگ خطری برای آینده بشریت باشد.
احتمالاً میدانید هر چیزی که یک ربات چت هوش مصنوعی (AI) میگوید را باید با احتیاط بیشتری در نظر بگیرید، زیرا آنها اغلب بدون درک صحت دادهها، بهطور بیرویهای اطلاعات را جمعآوری میکنند.
رباتهای چت، هنر فریب را بهخوبی یاد گرفتهاند
اما تحقیقات جدید نشان میدهد که شاید لازم باشد محتاطتر از این باشیم. بسیاری از سیستمهای هوش مصنوعی توانایی ارائه عمدی اطلاعات نادرست به کاربر را توسعه دادهاند. این رباتهای فریبکار، هنر فریب را به خوبی یاد گرفتهاند!
پیتر پارک، ریاضیدان و دانشمند علوم شناختی در مؤسسه فناوری ماساچوست (MIT) میگوید، توسعهدهندگان هوش مصنوعی درک روشنی از دلایل رفتارهای نامطلوب هوش مصنوعی مانند فریب دادن را ندارند.
اما به طور کلی، فکر میکنیم فریب هوش مصنوعی به این دلیل به وجود میآید که استراتژی مبتنی بر فریب، بهترین راه برای ارتقا سطح آن بوده است. در واقع فریب دادن به آنها کمک میکند تا به اهداف خود برسند.
یکی از عرصههایی که سیستمهای هوش مصنوعی در آن مهارت خاصی در دروغگویی پیدا کردهاند، دنیای بازیها است. در پژوهشهای انجامشده به سه نمونه قابل توجه اشاره شده است. نمونه اول، هوش مصنوعی CICERO متعلق به متا است که برای بازی استراتژیک Diplomacy طراحی شده است. در این بازی، بازیکنان از طریق مذاکره به دنبال تسلط بر جهان هستند. متا قصد داشت این ربات مفید و صادق باشد؛ در واقع، برعکس عمل کرد.
محققان دریافتند برخلاف تلاشهای متا، CICERO به یک دروغگوی قهار تبدیل شدهاند. این هوش مصنوعی نه تنها به بازیکنان دیگر خیانت میکرد، بلکه فریب از پیش طراحی شدهای را هم به کار میبرد. آن برای فریب بازیکنانی که انسان بودند، از قبل برنامهریزی میکرد تا با او یک اتحاد جعلی برقرار کند و او را به خلع سلاح در برابر حمله ترغیب کند.
هوش مصنوعی در فریبکاری آنقدر مهارت پیدا کرده که در میان ۱۰ درصد برتر بازیکنان انسانی که چندین بازی را انجام داده بودند قرار گرفته است.
اما این تنها مورد از دروغ گوییهای هوش مصنوعی نیست. AlphaStar محصول DeepMind، سیستم هوش مصنوعی طراحیشده برای بازی StarCraft II، به طور کامل از مکانیزم fog-of-war بازی برای فریب دادن استفاده میکرد و به بازیکنان انسان القا میکرد که به یک سمتی میرود، در حالی که واقعاً به سمت دیگری میرفت. Pluribus محصول دیگر متا، که برای بازی پوکر طراحی شده بود، توانست با موفقیت بازیکنان انسان را با بلوف زدن وادار به کنار کشیدن کند.
به نظر میرسد اینها مسائل کماهمیتی باشند و تا حدودی همینطور است. در یک بازی دیپلماسی مقابل یک تکه کد کامپیوتری، باخت و برد چندان مهم نیست؛ اما محققان به نمونههای دیگری اشاره کردند که چندان هم بیخطر نبودند.
برای مثال، سیستمهای هوش مصنوعی که برای انجام مذاکرات اقتصادی شبیهسازیشده آموزش دیدهاند، یاد گرفتند که در مورد ترجیحات خود دروغ بگویند تا برتری پیدا کنند. سایر سیستمهای هوش مصنوعی که برای یادگیری از بازخورد انسان به منظور بهبود عملکردشان طراحی شدهاند، یاد گرفتند تا با دروغ گفتن در مورد انجام یا عدم انجام یک کار، نظر مثبت ارزیابان را جلب کنند.
این موضوع در مورد چتباتها هم صدق میکند. ربات چت ChatGPT-4 یک انسان را فریب داد تا فکر کند این چتبات فردی با اختلال بینایی است تا به او در حل یک CAPTCHA کمک کند.
شاید نگرانکنندهترین نمونه، سیستمهایی بودند که توانستند در تستهای ایمنی تقلب کنند. در آزمایشی که برای شناسایی و حذف نسخههای تکثیرشونده سریعتر هوش مصنوعی طراحی شده بود، هوش مصنوعی یاد گرفت وانمود به مردن کند و بدین ترتیب، تست ایمنی را درباره سرعت واقعی تکثیر خود فریب دهد.
دکتر پارک، یکی از محققان این پژوهش، میگوید:
یک هوش مصنوعی فریبکار با دور زدن سیستماتیک تستهای ایمنی اعمالشده توسط توسعهدهندگان و قانونگذاران انسانی، میتواند ما را دچار امنیت کاذب کند.
دروغ گویی هوش مصنوعی خطرناکتر میشود!
این موضوع چالشی جدی به وجود میآورد، چرا که در برخی موارد توانایی فریب با اهداف برنامهنویسان هوش مصنوعی در تضاد است. به عبارت دیگر، هوش مصنوعی دروغ گفتن را یاد میگیرد، در حالی که برنامهنویسان خواهان سیستمی ایمن و قابل اعتماد هستند. ما هنوز راهحل سادهای برای این مشکل نداریم. با این حال، اقداماتی مانند قانون هوش مصنوعی اتحادیه اروپا در حال شکلگیری است، اما کارایی آنها در آینده مشخص خواهد شد.
دکتر پارک تاکید میکند که ما به عنوان یک جامعه به هر مقدار زمانی که بتوانیم نیاز داریم تا برای فریبهای پیشرفتهتر محصولات هوش مصنوعی آینده و مدلهای متنباز آمادگی پیدا کنیم. با پیشرفتهتر شدن قابلیتهای فریبکاری این فناوری، خطراتی که این سیستمها برای جامعه به وجود میآورند، جدیتر خواهند شد.
اگرچه در حال حاضر ممنوعیت کامل قدذت فریب توسط هوش مصنوعی از نظر سیاسی امکانپذیر نیست، پیشنهاد میکنیم سیستمهای فریبکار هوش مصنوعی به عنوان سیستمهای پرخطر طبقهبندی شوند. لازم بهذکر است که این پژوهش در نشریه Patterns منتشر شده است.