هوش مصنوعی تصویرساز متا معرفی شد؛ وقت خداحافظی با DALL-E و میدجرنی؟

0 ارسال شده توسط: رضا کارخانه 24 تیر 1402 ساعت 18:35

متا با معرفی هوش مصنوعی جدید CM3Leon مدعی شده است یکی از بهترین مدل‌های هوش مصنوعی را راه‌اندازی کرده که می‌تواند بهتر از DALL-E و میدجرنی تصویرسازی کند.

در طول دو سال گذشته، بازار تولید مدل‌های هوش مصنوعی تصویرساز بسیار داغ بوده است و این مدل‌ها عملاً توسط هر بازیگر بزرگ فناوری، از جمله گوگل و مایکروسافت و همچنین استارت آپ‌های بی‌شماری به کار گرفته شده‌اند. اما این بدان معنا نیست که آنها از نظر عملکرد بهترین هستند.

امروز متا هوش مصنوعی جدید CM3Leon (یا آفتاب‌پرست‌) را معرفی کرد، یک مدل هوش مصنوعی که این شرکت ادعا می‌کند عملکردی پیشرفته برای تولید متن به تصویر و تصویر به متن دارد.

متا می‌گوید CM3Leon همچنین به این دلیل که یکی از اولین تولیدکنندگان تصویر با توانایی ایجاد زیرنویس برای تصاویر است، نسبت به دیگر مدل‌ها برتری و تمایز دارد و پایه‌ای را برای مدل‌های با قابلیت درک تصویر در آینده ایجاد می‌کند.

متا در یک پست وبلاگی نوشت: «با قابلیت‌های CM3Leon، ابزارهای تولید تصویر می‌توانند تصاویر منسجم‌تری تولید کنند که بهتر از دستورات ورودی پیروی می‌کند. ما معتقدیم که عملکرد قوی CM3Leon در کارهای مختلف گامی به سوی تولید و درک تصویر با وفاداری بالاتر است.»

چه چیزی این مدل جدید را نسبت به سایر مدل‌ها متمایز جلوه می‌دهد؟

بیشتر مدل‌های هوش مصنوعیِ تصویرساز، از جمله OpenAI’s DALL-E 2، Imagen Google و Stable Diffusion، برای خلق آثار هنری به فرآیندی به نام انتشار متکی هستند. در دیفیوژن، یک مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویر کم کند. اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گران‌قیمت و کند می‌کند.

در مقابل، هوش مصنوعی جدید CM3Leon یک مدل ترانسفورماتور است که از مکانیزمی به نام «توجه» برای سنجش ارتباط داده‌های ورودی مانند متن یا تصاویر استفاده می‌کند. «توجه» و دیگر ویژگی‌های معماری ترانسفورماتورها می‌تواند سرعت آموزش مدل را افزایش داده و مدل‌ها را آسان‌تر موازی‌سازی کند.

به عبارت دیگر، ترانسفورماتورهای بزرگتر را می‌توان با افزایش محاسباتی قابل توجه، اما غیرقابل دستیابی آموزش داد. CM3Leon حتی از بسیاری از ترانسفورماتورها کارآمدتر است و متا ادعا می‌کند که به پنج برابر محاسبات و مجموعه داده آموزشی کمتری نسبت به روش‌های قبلی مبتنی بر ترانسفورماتور نیاز دارد.

جالب اینجاست که OpenAI چندین سال پیش ترانسفورماتورها را به عنوان وسیله‌ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را رها کرد و ممکن است به زودی به سمت مکانیزم «پیوستگی» حرکت کند.

کاربران می‌توانند یک عکس به CM3Leon بدهند و از مدل هوش مصنوعی سؤالاتی در مورد آن بپرسند، خواه این سؤال در مورد جنبه‌های خاصی از عکس باشد یا حتی از مدل بخواهند که توضیح دقیقی از تصویر مورد نظر ایجاد کند.

سایر ویژگی‌های این مدل عبارتند از تبدیل شی به تصویر، تقسیم‌بندی به تصویر و افزودن یک مرحله وضوح فوق‌العاده که کیفیت تصاویر ایجاد شده را افزایش می‌دهد.

عملکرد CM3Leon در مقایسه با دیگر مدل‌های تصویرساز

برای آموزش CM3Leon، متا از مجموعه داده‌ای متشکل از میلیون‌ها تصویر دارای مجوز از Shutterstock استفاده کرده است، بنابراین می‌تواند از نگرانی‌های مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد اجتناب کند. تواناترین نسخه CM3Leon دارای 7 میلیارد پارامتر است که مقدار آن دو برابر DALL-E 2 می‌شود.

یکی از کلیدهای عملکرد قوی‌تر CM3Leon تکنیکی به نام تنظیم دقیق نظارت‌شده یا به اختصار SFT است. SFT برای آموزش مدل‌های تولید متن مانند ChatGPT OpenAI استفاده شده است، اما متا این نظریه را مطرح کرد که می‌تواند در حوزه تولید تصویر نیز مفید باشد.

در واقع، تنظیم دستورالعمل عملکرد هوش مصنوعی جدید CM3Leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر بهبود می‌بخشد و آن را قادر می‌سازد تا با پیروی از دستورالعمل‌های متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند؛ مثلاً تغییر رنگ آسمان به آبی روشن.

اکثر مدل‌های هوش مصنوعی تصویرساز با اشیا پیچیده و اعلان‌های متنی که محدودیت‌های زیادی را شامل می‌شوند، دست و پنجه نرم می‌کنند. اما CM3Leon این کار را نمی‌کند. در چند نمونه متا از CM3Leon خواست با استفاده از اعلان‌هایی مانند «یک کاکتوس کوچک با کلاه حصیری و عینک آفتابی در صحرا» تصویر تولید کند.

تصاویر تولید شده توسط CM3Leon به طور کلی جزئیات بیشتری داشتند و نشانه‌ها واضح‌ترین نمونه‌های تولید شده تاکنون بودند. تا همین اواخر، سایر مدل‌ها متن و آناتومی انسان را نسبتاً ضعیف طراحی می‌کردند.

هوش مصنوعی جدید متا همچنین می‌تواند دستورالعمل‌های ویرایش تصاویر موجود را درک کند. به عنوان مثال، با توجه به اعلان «تصویری با کیفیت بالا از اتاقی که یک سینک و یک آینه در آن وجود دارد تولید کن»، مدل مبتنی بر هوش مصنوعی می‌تواند تصویری منسجم بصری ایجاد کند.

از طرف دیگر، مدل DALL-E 2 به‌طور کامل نمی‌تواند تفاوت‌های ظریف اعلان‌هایی از این قبیل را درک کند و گاهی اوقات اشیا مشخص‌شده در اعلان را کاملاً حذف می‌کند. البته، برخلاف DALL-E 2، هوش مصنوعی جدید CM3Leon می‌تواند طیف وسیعی از اعلان‌ها را برای ایجاد زیرنویس‌های کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند.

متا ادعا می‌کند که در این زمینه‌ها، این مدل حتی از مدل‌های تخصصی شرح‌نویسی تصویر مانند Flamingo، OpenFlamingo بهتر عمل کرده است، علی‌رغم اینکه هوش مصنوعی متا متن کمتری در داده‌های آموزشی خود مشاهده می‌کرد.

همچنین مطالعه کنید:

بارد، چت بات هوش مصنوعی گوگل حالا از زبان فارسی هم پشتیبانی می‌کند

مدل‌های هوش مصنوعی مولد مانند DALL-E 2 برای تقویت تعصبات اجتماعی، تصاویری از موقعیت‌های اقتدار، مانند مدیرعامل یا مدیر، ایجاد می‌کنند که بیشتر مردان سفیدپوست را به تصویر می‌کشند.

متا در این‌باره می‌گوید: «مدل تصویرساز CM3Leon قادر است هرگونه سوگیری موجود در داده‌های آموزشی را منعکس کند. در حالی که صنعت هوش مصنوعی به تکامل خود ادامه می‌دهد، مدل‌های مولد مانند CM3Leon به طور فزاینده‌ای پیچیده می‌شوند. اگرچه این صنعت هنوز در مراحل اولیه درک و رسیدگی به این چالش‌ها قرار دارد، ما معتقدیم که شفافیت کلید تسریع پیشرفت خواهد بود.»

متا هنوز زمان انتشار CM3Leon را مشخص نکرده است و علاقه‌مندان این صنعت مشتاقانه منتظر عرضه این مدل هوش مصنوعی خارق‌العاده هستند. مطمئناً متا با راه‌اندازی پلتفرم جدید خود یعنی Threads و فروپاشی مداوم متاورس به اندازه کافی کار برای انجام دارد، اما امیدواریم که این تصویرساز جدید هوش مصنوعی در هفته‌های آینده منتشر شود.

گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو

هوش مصنوعی تصویرساز متا معرفی شد؛ وقت خداحافظی با DALL-E و میدجرنی؟

چه چیزی این مدل جدید را نسبت به سایر مدل‌ها متمایز جلوه می‌دهد؟

عملکرد CM3Leon در مقایسه با دیگر مدل‌های تصویرساز

پاسخ بدهید لغو پاسخ