تا زمان انتشار عمومی سورا، باید از جایگزینهای این ابزار هوش مصنوعی برای ساخت ویدیو بهره بگیرید. در این مطلب با Runway و سایرین آشنا شوید.
سورا (Sora) از OpenAI یکی از تاثیرگذارترین ابزارهای هوش مصنوعی شناخته میشود؛ اما دسترسی گسترده به امکاناتش برای همه وجود ندارد. تا به حال شاهد انتشار نمونه ویدیوهای ساخته شده با این هوش مصنوعی در دسته بندیهای مختلفی بودهایم.
برای مثال ویدیوی مستند مربوط به یک فضانورد یا موزیک ویدیوی معروفی که درباره تماشای باران بود و وایرال شد را در نظر بگیرید. علاوه بر اینها یک فیلم کوتاه دیگر از سوی OpenAI منتشر شد که یک مرد در حال دویدن را با سر بادکنکی نمایش میداد.
مدیر ارشد تکنولوژی (CTO) در OpenAI به نام میرا موراتی میگوید امیدواریم در سال 2024 سرانجام بتوانیم به نسخه عمومی هوش مصنوعی سورا دسترسی پیدا کنیم. البته او هشدار دارد که اگر کمپانی سازنده نتواند تا پیش از ماه نوامبر مشکلات امنیتی محصول خود را برطرف سازد، این پیش بینی ناگزیر تغییر خواهد کرد.
جایگزینهای فعلی برای هوش مصنوعی سورا
در حالی که انتظار میکشید Sora برای عموم کاربران منتشر شود، ابزارهای هوش مصنوعی فوق العادهای الان هم وجود دارند که میتوانند در ساخت ویدیو و محتوا به شما کمک شایانی کنند. این جایگزینهای هوش مصنوعی سورا شامل مواردی چون Pika Labs و Runway میشوند. در ادامه با گجت نیوز همراه باشید تا این 7 ابزار کاربردی ساخت ویدیو را به شما معرفی کنیم.
اصلیترین محدودیت در نسل فعلی ابزارهای ساخت ویدیو با هوش مصنوعی، طول مدت آنها است. اغلب آنها تنها 3 تا 6 ثانیه حرکت یا پویانمایی پیوسته را پشتیبانی میکنند و برخی تا همان 3 ثانیه دوام میآورند.
این ابزارهای ساخت ویدیو صرفنظر از محدودیت مذکور، قادر هستند نتایج چشمگیری را خلق کنند و همچنین هر روز بهبود مییابند تا با ارائه امکانات جدیدتر، محدودیتهای ثابت خود را کمرنگتر کنند. همچنین میتوانید در این ابزارها از قابلیتهای لیپ سینک، جلوههای صوتی و صدای افزوده بر تصویر استفاده کنید که در هوش مصنوعی سورا از همان روز اول هم امکان پذیر نخواهند بود.
ابزار Runway
ابزار Runway یکی از مهمترین بازیگران این عرصه شناخته میشود. پیش از آنکه OpenAI از Sora رونمایی کند، Runway محتوای مولد چشمگیر و واقع گرایانه ارائه میکرد.
ابزار Runway اولین هوش مصنوعی بود که مدل ویدیویی تجاری و مصنوعی را معرفی کرد و در خلال سال گذشته به طور پیوسته در تلاش بوده است تا آن را بهبود ببخشد. این بهبود عمدتا شامل ارتقا کیفیت و پایداری حرکتی در مدل نسل دوم Runway از زمان معرفی اولیه Sora میشود.
مهمترین آنها، لیپ سینک بسیار دقیق و صحیح در هر تصویر است که همچنین پویانمایی حرکات سر و چشم را به منظور افزایش میزان واقع گرایی ویدیو مدیریت میکند. این قابلیت همچنین با صداهای مصنوعی و ساخته ElevenLabs یا توانایی ضبط و آپلود صدای شما به عنوان کاربر همراه میشود.
قابلیت اختصاصی ابزار هوش مصنوعی Runway در ساخت ویدیو، Motion Brush نام دارد که توانایی انتخاب یک بخش از تصویر و به حرکت درآوردن همان بخش است. با این قابلیت همچنین میتوانید چند بخش مختلف از تصویر را انتخاب کنید تا هر کدام به طور مستقل به حرکت درآیند.
ابزار هوش مصنوعی Pika Labs
ابزار Pika Labs پس از Runway قرار دارد و دومین بازیگر اصلی در این عرصه به شمار میرود. مدل Pika 1.0 آن میتواند از عکس، متن یا سایر قطعات ویدیویی و تصویری یک کلیپ ویدیویی تولید کند و همچنین مدت این ویدیو را تا 12 ثانیه هم افزایش دهد. البته ذکر این نکته هم ضروری است که هرچه مدت ویدیو را طولانیتر کنید، حرکت آن بدتر میشود.
هوش مصنوعی Pika سال گذشته با سر و صدای زیادی رونمایی شد و در اولین نمایش خود یک کلیپ کارتونی را از ایلان ماسک نشان داد. علاوه بر این، قابلیت مفیدی در Pika وجود دارد که به شما اجازه میدهد یک بخش به خصوص در تصویر را جابجا کنید یا به حرکت درآورید.
هوش مصنوعی Pika Labs امکان پرامپت هدایتی و کنترلهای مناسب برای حرکات درون ویدیو ارائه میکند. این ابزار همچنین قابلیت جلوههای صوتی دارد که با پرامپت متنی یا لیپ سینک وارد روند میشوند.
در Pika Labs هم میشود لیپ سینک را وارد محتوای ویدیویی کرد. بدین ترتیب میتوانید از یک عکس میدجورنی هم ویدیو درست کنید و سپس لبهای سوژه را به حرکت درآورده و به آن صدا بدهید.
ابزار Stable Video
ابزار Stable Video ساخته StabilityAI روی Stable Video Diffusion در فاز بتای بسته به سر میبرد و اتفاقا یکی از بهترین جایگزینها برای هوش مصنوعی سورا است. این ابزار همچنین یکی از معدود پلتفرمهای SVD به شمار میرود که امکان کنترل کاربر روی حرکات ویدیو را ارائه میدهد.
با ابزار Stable Video میتوانید از عکس یا متن هم ویدیو بسازید و نسبت تصویر و سبک موردنظرتان را به هوش مصنوعی مولد آن اعلام کنید. قابلیتهای کنترل و سفارشی سازی بیشتری هم برای Stable Video وجود دارد که در این مطلب مجالی برای بررسی تخصصی آنها نیست. وقتی با این ابزار از یک متن برای ایجاد ویدیو استفاده میکنید، چهار گزینه از تصویر اولیه تا پویانمایی ویدیویی به شما پیشنهاد میشود.
ابزار هوش مصنوعی Stable Video هنوز در مرحله بتا (آزمایشی) قرار دارد و هزینه خدمات نهایی آن مشخص نیست.
ابزارهای Leonardo و Night Cafe
ابزار Stable Video Diffusion درواقع نوعی مدل باز است؛ یعنی کمپانیهای دیگر میتوانند مجوز آن را بخرند و حق استفاده تجاریاش را به دست آورند. دو مورد نمونه آن هم Leonardo و Night Cafe هستند. این دو پلتفرمهای تصویری هوش مصنوعی هستند که بازه وسیعی را از مدلهای شاملStable Diffusion ارائه میکنند.
این پلتفرمهای تصویر با برندهای Motion By Leonardo و Animate by Night Cafe اساسا یکسان هستند. آنها تصویری که توسط خودشان ساختهاید را دریافت و کاری میکنند به حرکت درآید. شما میتوانید درجه حرکت را دستکاری کنید؛ اما امکانات سادهای برای سایر کنترلها وجود دارد.
ابزار هوش مصنوعی Finalframe
این ابزار در دنیای هوش مصنوعی مولد، قابلیتهای ویژهای دارد. کمپانی Finalframe نسبتا کوچک و خود راهانداز است که به راحتی در زمینه کیفیت و امکانات با امثال Pika Labs و Runway رقابت میکند تا پلتفرم قابلی را در اختیار کاربران بگذارد.
داستان انتخاب نام هم در این حقیقت ریشه دارد که Finalframe کلیپ ویدیویی جدید را بر اساس آخرین قاب (فریم) از ویدیوی قبلی تولید میکند تا پایداری را در نسل ویدیوهای طولانی بهبود ببخشد. میتوانید در Finalframe یک کلیپ ویدیویی تولید یا وارد کنید و سپس آن را روی تایملاین بگذارید تا زمینه ساز ایجاد ویدیوهای بعدی شود.
این استارتاپ اخیرا همچنین قابلیت لیپ سینک و جلوههای صوتی را در دسترس برخی کاربران قرار داد. Finalframe با این امکانات جدیدش یک قطعه صوتی را در نمای تایملاین گذاشت تا کاربران بتوانند آن را انتخاب کرده و به ویدیوی خود اضافه کنند.
ابزار هوش مصنوعی Haiper
این ابزار تقریبا تازه وارد، مدل مخصوص خودش را دارد. هوش مصنوعی Haiper رویکرد متفاوتی در مقایسه با سایر ابزارهای ساخت ویدیو دارد و بر آموزش مجموعه دادهها متمرکز شده است. از نظر Haiper، دنبال کردن پرامپتهای کاربر بر ارائه کنترلهای زیاد روی حرکتهای ویدیو ارجحیت دارد.
ابزار هوش مصنوعی Haiper در حالت پیش فرض خود حتی اجازه نمیدهد سطح حرکت ویدیو را تغییر دهید. درواقع Haiper فرض میکند که هوش مصنوعی خودش به خوبی میداند چه سطحی از حرکت برای این ویدیو مناسبتر است. این دریافت با توجه به پرامپت پیش بینی میشود و باید اعتراف کنیم که در اکثر مواقع کاملا هم درست از آب درمیآید.
ابزار LTX Studio
این ابزار برخلاف همه ابزارهای دیگری که تا اینجا معرفی کردیم، یک پلتفرم محتوایی کاملا مولد است که میتواند ویدیو مولتی شات و مولتی سین را تنها از یک پرامپت متنی تولید کند. ابزار هوش مصنوعی LTX Studio دارای تصاویر، ویدیوها، قطعات موسیقی و جلوههای صوتی متعدد مانند امکان صدا گذاری روی ویدیو است و همچنین میتواند همه این موارد را به طور هم زمان تولید کند.
قالب کلی آن بیشتر شبیه یک تابلو به نظر میرسد نه نوار پرامپت یا پخش کننده ویدیو رایج در سایر پلتفرمها. وقتی در ابزار LTX Studio یک ویدیو تولید میکنید، به شما اجازه میدهد وارد محصول شوید و هر عنصر مد نظرتان را تغییر دهید. این تغییرات میتواند شامل مثلا عوض کردن زاویه دوربین باشد.
برخی کاربران میگویند ابزار هوش مصنوعی LTX Studio نمیتواند به اندازه مواردی چون Runway و Stable Video قدرتمند عمل کند و معمولا تصاویرش محو و بی کیفیت میشوند. از طرفی این مشکلات قبلا هم در دو ابزار باکیفیت مذکور وجود داشتند که به مرور رفع شدند؛ پس انتظار میرود که LTX Studio هم به زودی از آنها خلاصی پیدا کند. البته LTX Studio هنوز امکان لیپ سینک هم ندارد و شاید در آینده به آن اضافه شود.