هوش مصنوعی DALL-E 3 به کمک Chat GPT، شما را به یک گرافیست همه فن حریف تبدیل می‌کند + نمونه تصویر

0 ارسال شده توسط: رضا کارخانه 30 شهریور 1402 ساعت 20:14

کمپانی OpenAI جدیدترین مدل تصویرساز خود یعنی هوش مصنوعی DALL-E 3 را معرفی کرد که از سازگاری کامل با ChatGPT بهره می‌برد.

آخرین نسخه از مدل مولد هوش مصنوعی اوپن‌ ای‌آی که DALL-E 3 نام دارد، تصاویر را با دنبال کردن دقیق توصیفات و مدیریت تولید متن درون تصویر (مانند برچسب‌ها و نشانه‌ها) ارائه می‌کند و مدل‌های قبلی را به چالش می‌کشد. برای دسترسی به پرامپ‌های این هوش مصنوعی، می‌توانید از هوش مصنوعی POE کمک بگیرید.

هوش مصنوعی DALL-E 3 در پیش نمایش تحقیقاتی، در اوایل اکتبر در دسترس مشتریان ChatGPT Plus و Enterprise قرار خواهد گرفت. این مدل جدید در واقع یک تولید‌کننده متن به تصویر است که تصاویر جدید را براساس توضیحات نوشته شده توسط کاربر ایجاد می‌کند.

پیشرفت‌های چشمگیر هوش مصنوعی DALL-E 3

اگرچه OpenAI جزئیات فنی دقیقی را درباره هوش مصنوعی تصویرساز DALL-E 3 منتشر نکرده است، اما مدل‌های هوش مصنوعی در نسخه‌های قبلی DALL-E، براساس میلیون‌ها تصویر ایجاد شده توسط هنرمندان و عکاسان انسانی توسعه می‌یافتند که برخی از آنها از وب‌سایت‌هایی مانند Shutterstock مجوز داشتند. احتمالاً DALL-E 3 نیز از همین فرمول پیروی کند، اما با تکنیک‌های آموزشی جدید و زمان آموزش محاسباتی بیشتر.

با قضاوت در مورد نمونه‌های ارائه شده توسط OpenAI در وبلاگ تبلیغاتی خود، به نظر می‌رسد DALL-E 3 یک تصویرساز پیشرفته‌تر در مقایسه با مدل‌های رقیب خود است. در حالی که نمونه‌های منتشر شده توسط OpenAI به دلیل اثربخشی انتخاب شده‌اند، به نظر می‌رسد دستورالعمل‌های فوری را صادقانه دنبال می‌کنند و به‌طور متقاعدکننده‌ای اشیا را با کمترین تغییر شکل ارائه می‌کنند.

در مقایسه با نسخه DALL-E 2، اوپن ای‌آی می‌گوید که DALL-E 3 جزئیات کوچک مانند دست‌ها را به‌طور مؤثرتر اصلاح می‌کند و به‌طور پیش‌فرض تصاویر جذابی را بدون نیاز به هک یا مهندسی سریع ایجاد می‌کند.

در مقایسه، هوش مصنوعی تصویرساز میدجرنی – Midjourney جزئیات واقعی را به خوبی ارائه می‌کند، اما همچنان برای به دست آوردن هر گونه کنترلی بر خروجی تصویر، نیاز به دقت بسیار زیادی دارد. هوش مصنوعی DALL-E 3 همچنین متن درون تصاویر را به گونه‌ای مدیریت می‌کند که نسخه‌های قبلی از انجام آن ناتوان بودند.

به عنوان مثال، در پیامی از این مدل هوش مصنوعی جدید خواسته شد جمله‌ی مقابل را به تصویر بکشد: «نمونه‌ای از آووکادو نشسته روی صندلی درمانگر که می‌گوید: از درون خیلی خالی هستم». هوش مصنوعی تصویرساز DALL-E 3 با یک سوراخ به اندازه گودال در مرکز آن، یک آووکادوی کارتونی با نقل قول کامل ایجاد کرد.

کمپانی OpenAI می‌گوید که سومین نسخه از مدل DALL-E سازگاری 100 درصدی با ChatGPT دارد و به عنوان یک ویژگی یکپارچه ChatGPT Plus به میدان خواهد آمد. این مدل جدید امکان اصلاحات مکالمه را در تصاویر به گونه‌ای فراهم می‌کند که از دستیار هوش مصنوعی به عنوان شریک تصویرساز خود استفاده کند.

این سازگاری همچنین به این معنی است که ChatGPT قادر خواهد بود تصاویر را براساس زمینه مکالمه فعلی تولید کند که ممکن است به قابلیت‌های جدیدی منجر شود. دستیار هوش مصنوعی Bing مایکروسافت که بر اساس فناوری OpenAI ساخته شده نیز از ماه مارس قادر به تولید تصاویر در مکالمه خواهد بود.

تصویری که توسط هوش مصنوعی DALL-E 3 ایجاد شده است، از رندر سه بعدی از یک لیوان قهوه که در یک روز طوفانی روی لبه پنجره قرار داده شده منشأ گرفته است. طوفان بیرون از پنجره در قهوه منعکس شده و با رعد و برق‌های مینیاتوری و امواج آشفته داخل لیوان دیده می‌شود. اتاق کم نور است و به فضای دراماتیک می‌افزاید.

بیشتر بخوانید:

این زن رباتی واقعا مدیرعامل یک شرکت بزرگ است و حتی مصاحبه هم می‌کند

نسخه اصلی هوش مصنوعی DALL-E در ژانویه 2021 پدیدار شد و OpenAI در آوریل 2022 دنباله‌ای با قابلیت‌های چشمگیرتر خود را ایجاد کرده و عصر جدیدی از تصاویر تولید شده توسط هوش مصنوعی را با انفجاری شگفت‌انگیز آغاز کرد.

مدل‌های DALL-E از تکنیکی به نام انتشار پنهان استفاده می‌کنند که توانایی اصلاح نویز در تصاویر را دارد. همین فناوری امکان ظهور مدل Stable Diffusion را در آگوست سال گذشته فراهم کرد.

با توجه به اینکه مدل هوش مصنوعی DALL-E چگونه مفاهیم مربوط به تصاویر ایجاد شده توسط انسان را یاد می‌گیرد، فناوری هوش مصنوعی تصویرساز از زمان معرفی اصلی آن در سال گذشته بسیار بحث برانگیز بوده است.

نگرانی‌ها در مورد توسعه‌ی مدل‌های جدید هوش مصنوعی

شاید تصور کنید تمام مردم از ظهور فناوری‌های جدید مبتنی بر هوش مصنوعی بسیار هیجان‌زده و خوشحال هستند، اما این‌طور نیست! پیشرفت‌های روزافزون این فناوری باعث اعتراض هنرمندانی شده است که می‌ترسند مدل‌های هوش مصنوعی روزی جایگزین آن‌ها شوند یا سبک‌ آثار آن‌ها را به‌طور غیراخلاقی به سرقت ببرند.

پس از شکایت نیویورک تایمز از OpenAI به دلیل استفاده بدون مجوز از داده‌های این نشریه، یک دعوای حقوقی در مورد نقض کپی رایت در سراسر جهان به راه افتاده است. هنرمندان ادعا می‌کنند که مدل‌های هوش مصنوعی از آثار آنها به‌عنوان داده‌های آموزشی استفاده می‌کنند، بدون آنکه پیش از استفاده در روش‌های آموزشی از صاحب اثر اجازه گرفته شود. این امر سبب شده قوانین جدیدی درباره کپی رایت از سوی اداره حق نسخه‌برداری ایالات متحده ایجاد شود.

شرکت سازنده‌ی این مدل جدید می‌گوید که DALL-E 3 به عنوان یک هنرمند مستقل توسعه یافته و توانایی ایجاد تصاویر متمایزی را دارد. OpenAI همچنین بستری را فراهم کرده که هنرمندان می‌توانند از استفاده از آثار خود به‌عنوان مدل‌های آموزشی آینده خودداری کنند. با این وجود، بعید به نظر می‌رسد که این اقدامات هنرمندانی که معتقدند آموزش هوش مصنوعی از ریشه و اساس کاری اشتباه است را راضی کند.

در حال حاضر، سیاست کپی رایت ایالات متحده می‌گوید که آثار هنری تولید شده توسط هوش مصنوعی نمی‌توانند محافظت از حق چاپ را دریافت کنند، بنابراین از نظر فنی، هر تصویری که با هوش مصنوعی DALL-E 3 ایجاد شود در حوزه عمومی قرار می‌گیرد.

در حالی که OpenAI به صراحت این قانون را تایید نمی‌کند، اما می‌گوید تصاویری که با DALL-E 3 ایجاد می‌کنید متعلق به شما هستند و برای چاپ مجدد، فروش یا تجاری کردن آنها به اجازه ما نیاز ندارید. این یک تغییر قابل توجه نسبت به سال گذشته است، زمانی که OpenAI استفاده از تصویر DALLE-2 را براساس این اعلامیه که شرکت مالک همه نسل‌ها است محدود کرد.

در مورد ایمنی، OpenAI می‌گوید که در هوش مصنوعی تصویرساز DALL-E 3 نيز مانند نسخه قبلی DALL-E 2، فیلترهای تشخیص کلمات کلیدی و تصویر را برای محدود کردن توانایی آن در تولید محتوای خشونت‌آمیز، جنسی یا نفرت‌آمیز پیاده‌سازی کرده است.

این سیستم همچنین به گونه‌ای برنامه‌ریزی شده که درخواست‌هایی برای ایجاد تصاویری از چهره‌های عمومی را رد کند. چنین درخواست‌هایی باعث ایجاد مشکلاتی در مولد تصویر میدجرنی هنگام تولید تصاویر دستگیری جعلی از دونالد ترامپ شده است.

کمپانی اوپن ای‌آی می‌گوید با کارشناسانی به نام «تیم‌های قرمز» برای شناسایی و کاهش خطرات احتمالی، مانند سوگیری‌های مضر یا تولید تبلیغات و اطلاعات نادرست، همکاری کرده است.

این شرکت در مورد پتانسیل ابزار جدید خود برای خدشه‌دار کردن سوابق تاریخی با تصاویر ساختگی‌ متقاعد کننده صحبتی نکرده است، اما اظهار داشته در حال آزمایش یک ابزار طبقه‌بندی کننده است که می‌تواند به تشخیص اینکه آیا یک تصویر توسط هوش مصنوعی DALL-E 3 تولید شده یا نه کمک کند.

درحال حاضر ما به هوش مصنوعی تصویرساز DALL-E 3 برای آزمایش آن دسترسی نداریم، اما براساس گفته‌های شرکت سازنده، این مولد جذاب اکنون در حال آزمایش به سر می‌برد. این شرکت قصد دارد مدل جدید خود را در ماه اکتبر از طریق API و در اواخر پاییز امسال در دسترس مشتریان ChatGPT Plus و Enterprise قرار دهد.