متا با معرفی هوش مصنوعی جدید CM3Leon مدعی شده است یکی از بهترین مدلهای هوش مصنوعی را راهاندازی کرده که میتواند بهتر از DALL-E و میدجرنی تصویرسازی کند.
در طول دو سال گذشته، بازار تولید مدلهای هوش مصنوعی تصویرساز بسیار داغ بوده است و این مدلها عملاً توسط هر بازیگر بزرگ فناوری، از جمله گوگل و مایکروسافت و همچنین استارت آپهای بیشماری به کار گرفته شدهاند. اما این بدان معنا نیست که آنها از نظر عملکرد بهترین هستند.
امروز متا هوش مصنوعی جدید CM3Leon (یا آفتابپرست) را معرفی کرد، یک مدل هوش مصنوعی که این شرکت ادعا میکند عملکردی پیشرفته برای تولید متن به تصویر و تصویر به متن دارد.
متا میگوید CM3Leon همچنین به این دلیل که یکی از اولین تولیدکنندگان تصویر با توانایی ایجاد زیرنویس برای تصاویر است، نسبت به دیگر مدلها برتری و تمایز دارد و پایهای را برای مدلهای با قابلیت درک تصویر در آینده ایجاد میکند.
متا در یک پست وبلاگی نوشت: «با قابلیتهای CM3Leon، ابزارهای تولید تصویر میتوانند تصاویر منسجمتری تولید کنند که بهتر از دستورات ورودی پیروی میکند. ما معتقدیم که عملکرد قوی CM3Leon در کارهای مختلف گامی به سوی تولید و درک تصویر با وفاداری بالاتر است.»
چه چیزی این مدل جدید را نسبت به سایر مدلها متمایز جلوه میدهد؟
بیشتر مدلهای هوش مصنوعیِ تصویرساز، از جمله OpenAI’s DALL-E 2، Imagen Google و Stable Diffusion، برای خلق آثار هنری به فرآیندی به نام انتشار متکی هستند. در دیفیوژن، یک مدل یاد میگیرد که چگونه به تدریج نویز را از یک تصویر کم کند. اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گرانقیمت و کند میکند.
در مقابل، هوش مصنوعی جدید CM3Leon یک مدل ترانسفورماتور است که از مکانیزمی به نام «توجه» برای سنجش ارتباط دادههای ورودی مانند متن یا تصاویر استفاده میکند. «توجه» و دیگر ویژگیهای معماری ترانسفورماتورها میتواند سرعت آموزش مدل را افزایش داده و مدلها را آسانتر موازیسازی کند.
به عبارت دیگر، ترانسفورماتورهای بزرگتر را میتوان با افزایش محاسباتی قابل توجه، اما غیرقابل دستیابی آموزش داد. CM3Leon حتی از بسیاری از ترانسفورماتورها کارآمدتر است و متا ادعا میکند که به پنج برابر محاسبات و مجموعه داده آموزشی کمتری نسبت به روشهای قبلی مبتنی بر ترانسفورماتور نیاز دارد.
جالب اینجاست که OpenAI چندین سال پیش ترانسفورماتورها را به عنوان وسیلهای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را رها کرد و ممکن است به زودی به سمت مکانیزم «پیوستگی» حرکت کند.
کاربران میتوانند یک عکس به CM3Leon بدهند و از مدل هوش مصنوعی سؤالاتی در مورد آن بپرسند، خواه این سؤال در مورد جنبههای خاصی از عکس باشد یا حتی از مدل بخواهند که توضیح دقیقی از تصویر مورد نظر ایجاد کند.
سایر ویژگیهای این مدل عبارتند از تبدیل شی به تصویر، تقسیمبندی به تصویر و افزودن یک مرحله وضوح فوقالعاده که کیفیت تصاویر ایجاد شده را افزایش میدهد.
عملکرد CM3Leon در مقایسه با دیگر مدلهای تصویرساز
برای آموزش CM3Leon، متا از مجموعه دادهای متشکل از میلیونها تصویر دارای مجوز از Shutterstock استفاده کرده است، بنابراین میتواند از نگرانیهای مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد اجتناب کند. تواناترین نسخه CM3Leon دارای 7 میلیارد پارامتر است که مقدار آن دو برابر DALL-E 2 میشود.
یکی از کلیدهای عملکرد قویتر CM3Leon تکنیکی به نام تنظیم دقیق نظارتشده یا به اختصار SFT است. SFT برای آموزش مدلهای تولید متن مانند ChatGPT OpenAI استفاده شده است، اما متا این نظریه را مطرح کرد که میتواند در حوزه تولید تصویر نیز مفید باشد.
در واقع، تنظیم دستورالعمل عملکرد هوش مصنوعی جدید CM3Leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر بهبود میبخشد و آن را قادر میسازد تا با پیروی از دستورالعملهای متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند؛ مثلاً تغییر رنگ آسمان به آبی روشن.
اکثر مدلهای هوش مصنوعی تصویرساز با اشیا پیچیده و اعلانهای متنی که محدودیتهای زیادی را شامل میشوند، دست و پنجه نرم میکنند. اما CM3Leon این کار را نمیکند. در چند نمونه متا از CM3Leon خواست با استفاده از اعلانهایی مانند «یک کاکتوس کوچک با کلاه حصیری و عینک آفتابی در صحرا» تصویر تولید کند.
تصاویر تولید شده توسط CM3Leon به طور کلی جزئیات بیشتری داشتند و نشانهها واضحترین نمونههای تولید شده تاکنون بودند. تا همین اواخر، سایر مدلها متن و آناتومی انسان را نسبتاً ضعیف طراحی میکردند.
هوش مصنوعی جدید متا همچنین میتواند دستورالعملهای ویرایش تصاویر موجود را درک کند. به عنوان مثال، با توجه به اعلان «تصویری با کیفیت بالا از اتاقی که یک سینک و یک آینه در آن وجود دارد تولید کن»، مدل مبتنی بر هوش مصنوعی میتواند تصویری منسجم بصری ایجاد کند.
از طرف دیگر، مدل DALL-E 2 بهطور کامل نمیتواند تفاوتهای ظریف اعلانهایی از این قبیل را درک کند و گاهی اوقات اشیا مشخصشده در اعلان را کاملاً حذف میکند. البته، برخلاف DALL-E 2، هوش مصنوعی جدید CM3Leon میتواند طیف وسیعی از اعلانها را برای ایجاد زیرنویسهای کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند.
متا ادعا میکند که در این زمینهها، این مدل حتی از مدلهای تخصصی شرحنویسی تصویر مانند Flamingo، OpenFlamingo بهتر عمل کرده است، علیرغم اینکه هوش مصنوعی متا متن کمتری در دادههای آموزشی خود مشاهده میکرد.
بارد، چت بات هوش مصنوعی گوگل حالا از زبان فارسی هم پشتیبانی میکند
مدلهای هوش مصنوعی مولد مانند DALL-E 2 برای تقویت تعصبات اجتماعی، تصاویری از موقعیتهای اقتدار، مانند مدیرعامل یا مدیر، ایجاد میکنند که بیشتر مردان سفیدپوست را به تصویر میکشند.
متا در اینباره میگوید: «مدل تصویرساز CM3Leon قادر است هرگونه سوگیری موجود در دادههای آموزشی را منعکس کند. در حالی که صنعت هوش مصنوعی به تکامل خود ادامه میدهد، مدلهای مولد مانند CM3Leon به طور فزایندهای پیچیده میشوند. اگرچه این صنعت هنوز در مراحل اولیه درک و رسیدگی به این چالشها قرار دارد، ما معتقدیم که شفافیت کلید تسریع پیشرفت خواهد بود.»
متا هنوز زمان انتشار CM3Leon را مشخص نکرده است و علاقهمندان این صنعت مشتاقانه منتظر عرضه این مدل هوش مصنوعی خارقالعاده هستند. مطمئناً متا با راهاندازی پلتفرم جدید خود یعنی Threads و فروپاشی مداوم متاورس به اندازه کافی کار برای انجام دارد، اما امیدواریم که این تصویرساز جدید هوش مصنوعی در هفتههای آینده منتشر شود.