کمپانی متا موفق به توسعه یک مدل هوش مصنوعی شده که میتواند نوشته ها را به ویدیو تبدیل کرده تا متن را به بهترین شکل توصیف کند.
متا در جولای گذشته از یک هوش مصنوعی برای تبدیل نوشته به عکس رونمایی کرده بود که درست مثل Dall-E و Midjourney از الگوریتمهای ماشین یادگیری برای خلق تصاویری متناسب با نوشته استفاده میکند. روز پنجشنبه مارک زاکربرگ، مدیرعامل کمپانی متا از یک هوش مصنوعی جدید به نام Make-a-Scene رونمایی کرد که عناصر متحرک بیشتری را نسبت به هوش مصنوعی Make-a-Video به وجود میاورد.
هوش مصنوعی تبدیل نوشته به ویدیو متا چگونه کار میکند؟
همانطور که از نامش پیداست، Make-a-Scene یک سیستم هوش مصنوعی جدید است که به مردم اجازه میدهد نوشتههایشان را به ویدیو کلیپهایی باکیفیت تبدیل کنند. ویدیوها همان چیزی را توصیف خواهند کرد که درون نوشته آمده است. این کار با تکیه بر ترکیبی از پردازش زبان طبیعی و شبکههای عصبی مولد برای محتوای غیربصری به تصاویر انجام میشود.
نمونه تبدیل متن قدم زدن زوج جوان زیر باران به ویدیو
یکی از محققان متا میگوید:
کشف ما بسیار ساده است. یاد بگیرد که جهان چگونه است و چگونه از دادههای متنی-تصویری توصیف میشود و بیاموزد که چگونه جهان را در قالب فیلمهای ویدیویی به نمایش بگذارد. این کار باعث شد مدت زمان مورد نیاز برای آموزش مدل ویدیویی کاسته شود و هوش مصنوعی به قدرتی که امروزه رسیده، دست پیدا کند.
مثل بسیاری از تحقیقات هوش مصنوعی متا، این هوش مصنوعی تبدیل عکس به متن هم به صورت یک پروژه منبع باز منتشر میشود. زاکربرگ میگوید که آنها میخواهند در مورد نحوه ساخت سیستمهای هوش مصنوعی جدیدی مثل این سیستم بیشتر وقت بگذارند. متا این تحقیقات و نتایج مولد هوش مصنوعی را با جامعه به اشتراک میگذارند تا بازخوردهای آنها را دریافت کنند و همچنان به تکامل و اصلاح رویکرد این فناوری ادامه دهند.
نمونه تبدیل متن نقاشی کشیدن روی بوم به ویدیو
بدیهی است که مثل هر مولد هوش مصنوعی دیگری، امکان سوء استفاده از این سیستم نیز وجود دارد. تیم تحقیقاتی متا برای جلوگیری از این اتفاق، مجموعه دادههای آموزشی را تدارک دیده است.