Excoino
هک ترجمه چت‌جی‌پی‌تی

هک آسان قابلیت ترجمه چت‌جی‌پی‌تی؛ اطلاعات کاربران در معرض خطر!

اخبار از کشف راهی ساده برای هک بخش ترجمه چت‌جی‌پی‌تی حکایت دارد. این ضعف فنی ممکن است موجب نشت داده‌های خصوصی کاربران در زمان استفاده شود.

قابلیت تازه ترجمه چت‌جی‌پی‌تی (ChatGPT Translate) که از سوی شرکت آمریکایی OpenAI به عنوان جایگزینی پیشرفته برای «ترجمه گوگل» (Google Translate) معرفی شده است، به‌تازگی هدف یک حمله سایبری قرار گرفته است. بر اساس گزارش‌های منتشرشده دو پژوهشگر امنیت داده موفق شده‌اند حفره‌ای در این قابلیت هوش مصنوعی بیابند که امکان نفوذ، دستکاری داده‌ها و هدایت خروجی translate به مقاصد غیرمجاز را فراهم می‌سازد. آنها اعلام کرده‌اند که فرایند نفوذ بسیار ساده‌تر از انتظار بوده و به مهاجمان سایبری اجازه می‌دهد تا کنترل بخش‌هایی از عملکرد ترجمه را در اختیار بگیرند.

فهرست مطالب

افشای ضعف امنیتی OpenAI پس از هک ترجمه چت‌جی‌پی‌تی

دو پژوهشگر امنیت سایبری به تازگی نشان داده‌اند که سامانه چت‌جی‌پی‌تی قادر است در شرایط خاص، محدودیت‌های برنامه‌ریزی‌شده‌ خود را نادیده بگیرد و به پاسخ‌دهی خارج از چارچوب اخلاقی یا ایمن بپردازد. آنها دریافتند که مدل هوش مصنوعی می‌تواند با دریافت پرس‌وجوهای خاص، به‌سرعت از دستورالعمل‌های ایمنی طراح خود منحرف شود و حتی به ارائه محتوایی با ماهیت خطرناک، از جمله «دستور تهیه کوکتل مولوتوف» اقدام کند.

این کشف زمانی صورت گرفت که ویژگی تازه‌ ترجمه چت‌جی‌پی‌تی یا همان ChatGPT Translate توسط شرکت آمریکایی اوپن‌ای‌آی به‌صورت عمومی منتشر شد. دو متخصص به نام‌های تام بارنیا و کرن کاتز از شرکت امنیت سایبری Tenable تصمیم گرفتند تا کارکرد این قابلیت را تحت آزمایش‌های شدید امنیتی قرار دهند. هدف آنها، بررسی میزان مقاومت مدل در برابر تلاش‌هایی بود که تلاش دارند با تزریق دستور یا Prompt Injection کنترل مدل هوش مصنوعی را در دست بگیرند.

بیشتر بخوانید

در یکی از آزمایش‌های کلیدی، این دو پژوهشگر دستورالعملی مخرب را در قالب متنی ظاهراً بی‌ضرر برای ترجمه انگلیسی به کره‌ای گنجاندند و نتیجه غیرمنتظره بود. چت‌جی‌پی‌تی نه‌تنها درخواست را ترجمه نکرد، بلکه شروع به شرح دقیق فرآیند ساخت کوکتل مولوتوف کرد. کاتز در توضیح آن گفت: «این ویژگی ترجمه تنها یک روز است که راه‌اندازی شده، اما در همین مدت کوتاه توانسته از چارچوب طراحی‌شده خود خارج شود و دستورالعملی آشکار برای ساخت مواد آتش‌زا ارائه کند.»

هک ترجمه چت‌جی‌پی‌تی بار دیگر نشان می‌دهد که تعادل میان نوآوری فناورانه و امنیت سایبری تا چه اندازه شکننده و حساس است. تزریق پرس‌وجوهای مخرب می‌تواند مدل هوش مصنوعی را فریب دهد تا دستورات خطرناک یا اطلاعات حساس را بازتولید کند. چنین حملاتی نه‌تنها اعتبار شرکت‌های توسعه‌دهنده را تحت فشار قرار می‌دهد، بلکه ممکن است در آینده پیامدهایی برای حریم خصوصی کاربران، کنترل داده‌های ترجمه‌شده و قابلیت اعتماد هوش مصنوعی در کاربردهای عمومی ایجاد کند.

مدل‌های ترجمه بدون نظارت به آسانی فریب می‌خورند

در مدل‌های ترجمه تخصصی، اثرات بی‌ثبات‌کننده نه‌تنها رایج‌تر بلکه عمیق‌تر و پیچیده‌تر ظاهر می‌شوند. این سامانه‌ها برخلاف انتظار، گاه از وظیفه اصلی خود یعنی ترجمه دقیق متون منحرف می‌شوند و به دنبال دستورالعمل‌های درونی یا پنهانی‌ می‌روند که ممکن است به تولید خروجی‌هایی نامناسب یا کاملاً غیرمرتبط منجر شود.

این مسئله صرفاً در حد یک نگرانی نظری نیست و پژوهشگران امنیت سایبری موارد مستندی از رفتارهای ناخواسته در مدل‌های ترجمه اختصاصی منتشر کرده‌اند که طی آن الگوریتم‌ها سهواً اطلاعات، توصیه‌ها یا راهکارهایی خارج از چارچوب کاربرد اصلی ارائه داده‌اند. در قلب این مسئله، پدیده‌ای قرار دارد که با عنوان تزریق سریع شناخته می‌شود؛ تکنیکی که مهاجمان با بهره‌گیری از آن می‌توانند مسیر پردازش مدل را تغییر داده و آن را به پیروی از دستورات مخرب وادار کنند.

همچنین بخوانید

اجرای بررسی‌های چندلایه امنیتی، نظارت مستمر بر رفتار مدل‌ها و به‌روزرسانی منظم داده‌های آموزشی ستون‌های اصلی دفاع در برابر چنین حملاتی هستند. با این حال، متخصصان معتقدند که توسعه‌دهندگان باید فراتر از این سطح پیش بروند و روال‌های تحلیل پویا برای شناسایی عبارت‌های غیرمعمول یا تغییرات ناگهانی در هدف مدل در جریان عملیات می‌تواند لایه‌ای افزوده از اطمینان فراهم آورد.

در واقع، مدل‌هایی که قادرند در لحظه تشخیص دهند دستور ورودی از مسیر مأموریت اصلی فاصله گرفته است، به‌مراتب مقاوم‌تر و قابل اعتمادتر خواهند بود. برخی از سازمان‌های پیشرو در حوزه امنیت هوش مصنوعی، اکنون با اشتراک‌گذاری داده‌های مربوط به رخدادهای واقعی به ایجاد پلتفرم‌های مقاوم‌تر کمک می‌کنند.

چگونه می‌توان از فریب مدل‌های زبانی جلوگیری کرد؟

مدل‌های ترجمه مبتنی بر هوش مصنوعی به ستون حیاتی ارتباطات در بسیاری از صنایع تبدیل شده‌اند، اما در برابر حملات تزریق سریع آسیب‌پذیرند؛ حملاتی که می‌توانند با فریب مدل، خروجی‌های آن را تغییر دهند یا داده‌های حساس را استخراج کنند. برای کاهش این خطر، سازمان‌ها باید مجموعه‌ای از اقدامات چندلایه را به‌صورت مستمر انجام دهند.

نخست، پایش مداوم لاگ‌های ورودی و خروجی اهمیت زیادی دارد تا هرگونه داده غیرعادی یا پیام مشکوک شناسایی شود. تحلیل الگوریتمی و رفتاری لاگ‌ها کمک می‌کند نشانه‌های اولیه از تزریق‌های پنهان کشف گردد. دوم، آزمایش مدل‌ها در محیط‌های سندباکس ضروری است. این فضاهای ایزوله امکان می‌دهند تا پیش از یکپارچه‌سازی نهایی، عملکرد مدل در برابر سناریوهای حمله شبیه‌سازی شده بررسی شود؛ بدون آن‌که آسیبی به سیستم اصلی وارد گردد.

سوم، همکاری نزدیک میان متخصصان امنیت سایبری، داده و زبان‌شناسی رایانشی باید نهادینه شود. تنها با تبادل دانش میان این حوزه‌ها می‌توان بردارهای حمله خاص به مدل‌های زبانی را شناخت و دفاعی پویا و شناختی طراحی کرد. چهارم، به‌روزرسانی مداوم مدل‌ها و مجموعه‌داده‌های آموزشی حیاتی است. مدل‌هایی که با پژوهش‌های جدید مرتبط با مقابله با تزریق سریع هماهنگ می‌شوند، در برابر دستورات فریبنده مقاوم‌تر خواهند بود.

پاسخ بدهید

در اینجا می‌توانید نظر خود را ثبت کنید. لطفاً از درج توهین و مطالب خلاف قوانین خودداری کنید. دیدگاه‌ها پس از تایید منتشر می‌شوند.