هوش مصنوعی جدید مایکروسافت VASA-A میتواند یک عکس ثابت را متحرک کرده و به شما اجازه دهد با چهره خود یا هر شخصیتی که دوست دارید صحبت کنید.
پژوهشگران شرکت مایکروسافت در آسیا از یک ابزار هوش مصنوعی جدید به نام “VASA-1” رونمایی کردهاند. این ابزار نوآورانه میتواند با استفاده از یک تصویر ثابت یا حتی طرحی از فرد و یک فایل صوتی موجود، به صورت لحظهای چهرهای متحرک و بسیار واقعی بسازد. هوش مصنوعی جدید مایکروسافت قادر است براساس فایل صوتی، مانند سخنرانی یا آهنگ، حرکات لب، حالات چهره و چرخش سر را برای تصویر یا طرح اولیه تولید کند. پژوهشگران نمونههای فراوانی را در صفحه پروژه به اشتراک گذاشتهاند که چنان طبیعی به نظر میرسند که میتوانند به راحتی مخاطب را فریب دهند.
ویدیویی از عملکرد نوش مصنوعی جدید مایکروسافت VASA-1
شاید اگر با دقت زیادی نمونههای منتشر شده را بررسی کنید متوجه کمی مصنوعی یا نامتناسب بودن حرکات لب و سر شوید، اما همچنان واضح است که این فناوری میتواند بهسادگی و سرعت برای ساخت ویدیوهای دیپ فیک افراد واقعی مورد سوءاستفاده قرار بگیرد. خود پژوهشگران نیز از این پتانسیل آگاه هستند و تصمیم گرفتهاند تا زمانی که از «استفاده مسئولانه و مطابق با قوانین» این فناوری اطمینان حاصل نکنند، از عرضه «دموی آنلاین، رابط برنامهنویسی کاربردی، محصول نهایی، جزئیات بیشتر در مورد پیادهسازی، یا هرگونه خدمات مرتبط» خودداری کنند. با این حال، آنها نگفتند که آیا قصد دارند اقدامات حفاظتی خاصی را برای جلوگیری از سوءاستفاده افراد، مانند ساخت پور-نوگرافی جعلی یا راهاندازی کمپینهای اطلاعات غلط، در نظر گرفتهاند.
پژوهشگران بر این باورند که این فناوری هوش مصنوعی، فراتر از پتانسیلهای مخرب خود، مزایای فراوانی دارد. آنها گفتهاند که VASA-1 میتواند برای ارتقای برابری آموزشی و همچنین بهبود دسترسی افراد با چالشهای ارتباطی مفید باشد؛ برای مثال، آنها میتوانند آواتاری را داشته باشند به جای آنها صحبت کند. آنها همچنین اشاره کردهاند که این فناوری میتواند برای کسانی که نیاز به همراهی و حمایت درمانی دارند، مؤثر باشد و این نشان میدهد که VASA-1 میتواند در برنامههایی که امکان برقراری ارتباط با شخصیتهای هوش مصنوعی را فراهم میکنند، به کار گرفته شود.
طبق مقاله منتشر شده همراه با معرفی این ابزار، VASA-1 با استفاده از مجموعه داده VoxCeleb2 آموزش دیده است. این مجموعه شامل «بیش از یک میلیون جمله صوتی برای ۶ هزار و ۱۱۲ فرد مشهور» است که از ویدیوهای یوتیوب استخراج شدهاند. جالب اینجاست که این ابزار با وجود آموزش روی چهرههای واقعی، روی تصاویر هنری مانند نقاشی چهره مونالیزا نیز کار میکند. پژوهشگران برای نمایش قابلیتهای VASA-1، آن را با فایل صوتی اجرای معروف و وایرال آن Hathaway از آهنگ Paparazzi اثر Lil Wayne نیز ترکیب کردهاند. این خروجی چنان سرگرمکننده است که حتی اگر درباره فواید چنین فناوری تردید داشته باشید، ارزش دیدن دارد. این ویدیو را در زیر ببینید.