چت جی پی تی اکنون می‌تواند شما را ببیند و به صدای شما گوش کند

یک دیدگاه ارسال شده توسط: امیرحسین خرمی 04 مهر 1402 ساعت 21:11

هوش مصنوعی چت جی پی تی – ChatGPT اکنون می‌تواند به سوالات شما با صدای شبه‌انسانی پاسخ دهد و تصاویر ارسالی شما را تحلیل کند.

اوپن ای‌آی، شرکت مشهور در حوزه هوش مصنوعی که توسعه چت بات ChatGPT را در کارنامه خود دارد، در حال به‌روزرسانی قابلیت‌های مکالمه این ربات چت محبوب است. اکنون با دریافت آخرین به‌روزرسانی اپلیکیشن ChatGPT برای iOS و اندروید، کاربران می‌توانند از طریق دستورات صوتی با چت جی پی تی تعامل داشته باشند و پاسخ‌ها را با صدای شبه‌انسانی دریافت کنند.

علاوه بر آن، نسخه ارتقا یافته ChatGPT ویژگی‌های تشخیص بصری را ارائه می‌کند. کاربران به‌لطف این ویژگی می‌توانند تصاویر را درون برنامه آپلود یا ضبط کرده و توضیحاتی شامل اطلاعات و جزئیات تصویر را دریافت کنند. رویکرد OpenAI برای بهبود مستمر مدل‌های هوش مصنوعی، به‌ویژه چت جی پی تی، نشان‌دهنده تغییر به سمت معرفی این مدل‌ها به‌عنوان یک دستیار صوتی هوشمند، مانند سیری اپل یا الکسای آمازون است.

ویژگی‌های صوتی و بصری چت جی پی تی

بهبود ویژگی‌های برنامه ChatGPT می‌توانند به اوپن ای‌آی در رقابت با سایر شرکت‌های هوش مصنوعی مانند Google، Anthropic، InflectionAI و Midjourney برتری دهد. با جمع‌آوری داده‌های بیشتر از کاربران از طریق ورودی‌های صوتی و تصویری، OpenAI قصد دارد موتورهای مبتنی بر هوش مصنوعی خود را توسعه داده تا هر چه بیشتر به هوش شبه‌انسانی نزدیک‌تر شوند.

مدل‌های زبانی این شرکت، از جمله آخرین نسخه چت جی پی تی (GPT-4)، با استفاده از داده‌های متنی گسترده جمع‌آوری‌شده از منابع مختلف در اینترنت توسعه یافته‌اند. برای دستیابی به قابلیت‌های پیشرفته‌تر هوش مصنوعی، کارشناسان بر این باورند که الگوریتم‌ها باید علاوه بر متن، به اطلاعات صوتی و تصویری نیز دسترسی داشته باشند، دقیقا مشابه با هوش حیوانات و انسان‌ها که بر انواع مختلفی از داده‌های حسی متکی هستند.

طبق شایعات، مدل آتی هوش مصنوعی گوگل به‌نام «جمینی»، چند وجهی خواهد بود و قادر به مدیریت متن، ویدئو، تصاویر و ورودی‌های صوتی است. به گفته ترور دارل، استاد دانشگاه برکلی و یکی از بنیانگذاران Prompt AI، انتظار می‌رود ترکیب زبان طبیعی با امکان تشخیص و دستکاری تصویر در مدل‌های هوش مصنوعی، باعث بهبود عملکرد آنها شود.

فناوری تولید صدای جدید OpenAI همچنین فرصت‌هایی را پیش روی این شرکت می‌گذارد تا بتواند مجوز این فناوری را به سایر سازمان ها نیز اعطا کند. به عنوان مثال، پلتفرم اسپاتیفای قصد دارد از الگوریتم‌های سنتز گفتار این شرکت برای ترجمه پادکست‌ها به زبان‌های مختلف و تقلید از صدای پادکست اصلی به شیوه‌ای که توسط هوش مصنوعی تولید می‌شود، استفاده کند.

در نسخه جدید اپلیکیشن چت جی پی تی، کاربران می‌توانند از طریق آیکون‌ها به ویژگی‌های صوتی و تصویری دسترسی داشته باشند. این ویژگی‌ها با تبدیل اطلاعات ورودی به متن با استفاده از تشخیص گفتار یا تصویر کار می‌کنند و به این ربات چت اجازه می‌دهند تا پاسخی متناسب با آن ایجاد کند. بدین ترتیب بسته به حالت کاربر، برنامه می‌تواند با استفاده از صدا یا متن پاسخ دهد.

به عنوان مثال، هنگامی‌که به صورت شفاهی از آن سوال می‌شود که آیا می‌تواند بشنود، برنامه با بیان توانایی خود در خواندن و پاسخ به پیام‌های متنی پاسخ می‌دهد، زیرا درخواست‌های صوتی را به عنوان متن پردازش می‌کند. کاربران هم‌چنین می‌توانند از بین پنج صدای مختلف، نمونه مورد پسند خود را برای چت بات انتخاب کنند.

جیم گلس، استاد MIT و متخصص در فناوری گفتار، خاطرنشان می‌کند که بسیاری از گروه های دانشگاهی در حال حاضر در حال آزمایش رابط‌های صوتی متصل به مدل های زبان بزرگ با نتایج امیدوارکننده هستند. با این حال، او اشاره می‌کند در حالی که تشخیص گفتار به طور قابل توجهی بهبود یافته است، هنوز برای بسیاری از زبان ها با چالش هایی مواجه است.

به‌روزرسانی جدید ChatGPT برای چه کاربرانی در دسترس است؟

ویژگی‌های صوتی و بصری جدید ChatGPT به تدریج تکامل خواهند یافت و اکنون به‌طور اختصاصی از طریق نسخه اشتراکی با قیمت 20 دلار در ماه در دسترس هستند. در فاز اول، این قابلیت‌ها تنها به زبان انگلیسی محدود خواهند بود و در تمامی کشورهای مجاز به استفاده از چت جی پی تی قابل دسترسی هستند.

در آزمایش‌های اولیه، ویژگی جستجوی بصری در ChatGPT با محدودیت‌هایی همراه بود. برای مثال، این مدل هنوز نمی‌تواند افراد را در تصاویر شناسایی کند، اما قادر به توصیف اشیا یا صحنه‌ها است. عملکرد ویژگی صوتی در برنامه نیز طی آزمایش کارشناسان وب‌سایت Wire کمی تاخیر داشت که می‌تواند در نسخه نهایی بهبود یابد.

همانند پیشرفت‌های اخیر در هوش مصنوعی مولد، به‌روزرسانی‌های OpenAI برای چت جی پی تی نگرانی‌هایی را در مورد امنیت و محافظت از پرسش‌های صوتی و داده‌های تصویری تولید شده توسط کاربر ایجاد می‌کند. اوپن ای‌آی در حال حاضر تعداد قابل توجهی از جفت داده‌های متن-تصویر را از وب برای آموزش مدل‌های خود نظیر ChatGPT و Dall-E جمع آوری کرده است.

رویکرد OpenAI برای مدیریت داده‌های کاربر در حال تکامل بوده و گزینه‌هایی برای کنترل اشتراک‌گذاری داده‌ها به کاربران ارائه شده است. اگرچه این شرکت در ابتدا اعلام کرد که کاربران می‌توانند اشتراک گذاری داده‌ها را از طریق برنامه غیرفعال کنند، اما مشخص شد که خاموش کردن سابقه چت و آموزش، قابلیت‌های صوتی را نیز غیرفعال می‌کند. OpenAI تصریح کرد که آنها در حال حاضر داده‌های صوتی را برای آموزش مدل‌های خود جمع آوری نمی‌کنند، اما در حال بررسی گزینه هایی برای کاربرانی هستند که می‌خواهند داده‌های خود را به اشتراک بگذارند.

ویژگی‌های جدید چت جی پی تی از پتانسیل بالایی برای موفقیت برخوردار هستند، زیرا هدف آنها طبیعی‌تر کردن تعامل با ربات‌های چت است. با این حال، برخی تحقیقات نشان می‌دهند که رابط‌های بسیار پیچیده که سعی در شبیه‌سازی تعامل چهره به چهره دارند، اگر نتوانند ارتباط انسانی را به‌طور کامل شبیه‌سازی کنند، ممکن است استفاده از آنها غیرطبیعی و چالش‌برانگیز باشد.