هوش مصنوعی چت جی پی تی – ChatGPT اکنون میتواند به سوالات شما با صدای شبهانسانی پاسخ دهد و تصاویر ارسالی شما را تحلیل کند.
اوپن ایآی، شرکت مشهور در حوزه هوش مصنوعی که توسعه چت بات ChatGPT را در کارنامه خود دارد، در حال بهروزرسانی قابلیتهای مکالمه این ربات چت محبوب است. اکنون با دریافت آخرین بهروزرسانی اپلیکیشن ChatGPT برای iOS و اندروید، کاربران میتوانند از طریق دستورات صوتی با چت جی پی تی تعامل داشته باشند و پاسخها را با صدای شبهانسانی دریافت کنند.
علاوه بر آن، نسخه ارتقا یافته ChatGPT ویژگیهای تشخیص بصری را ارائه میکند. کاربران بهلطف این ویژگی میتوانند تصاویر را درون برنامه آپلود یا ضبط کرده و توضیحاتی شامل اطلاعات و جزئیات تصویر را دریافت کنند. رویکرد OpenAI برای بهبود مستمر مدلهای هوش مصنوعی، بهویژه چت جی پی تی، نشاندهنده تغییر به سمت معرفی این مدلها بهعنوان یک دستیار صوتی هوشمند، مانند سیری اپل یا الکسای آمازون است.
ویژگیهای صوتی و بصری چت جی پی تی
بهبود ویژگیهای برنامه ChatGPT میتوانند به اوپن ایآی در رقابت با سایر شرکتهای هوش مصنوعی مانند Google، Anthropic، InflectionAI و Midjourney برتری دهد. با جمعآوری دادههای بیشتر از کاربران از طریق ورودیهای صوتی و تصویری، OpenAI قصد دارد موتورهای مبتنی بر هوش مصنوعی خود را توسعه داده تا هر چه بیشتر به هوش شبهانسانی نزدیکتر شوند.
مدلهای زبانی این شرکت، از جمله آخرین نسخه چت جی پی تی (GPT-4)، با استفاده از دادههای متنی گسترده جمعآوریشده از منابع مختلف در اینترنت توسعه یافتهاند. برای دستیابی به قابلیتهای پیشرفتهتر هوش مصنوعی، کارشناسان بر این باورند که الگوریتمها باید علاوه بر متن، به اطلاعات صوتی و تصویری نیز دسترسی داشته باشند، دقیقا مشابه با هوش حیوانات و انسانها که بر انواع مختلفی از دادههای حسی متکی هستند.
طبق شایعات، مدل آتی هوش مصنوعی گوگل بهنام «جمینی»، چند وجهی خواهد بود و قادر به مدیریت متن، ویدئو، تصاویر و ورودیهای صوتی است. به گفته ترور دارل، استاد دانشگاه برکلی و یکی از بنیانگذاران Prompt AI، انتظار میرود ترکیب زبان طبیعی با امکان تشخیص و دستکاری تصویر در مدلهای هوش مصنوعی، باعث بهبود عملکرد آنها شود.
فناوری تولید صدای جدید OpenAI همچنین فرصتهایی را پیش روی این شرکت میگذارد تا بتواند مجوز این فناوری را به سایر سازمان ها نیز اعطا کند. به عنوان مثال، پلتفرم اسپاتیفای قصد دارد از الگوریتمهای سنتز گفتار این شرکت برای ترجمه پادکستها به زبانهای مختلف و تقلید از صدای پادکست اصلی به شیوهای که توسط هوش مصنوعی تولید میشود، استفاده کند.
در نسخه جدید اپلیکیشن چت جی پی تی، کاربران میتوانند از طریق آیکونها به ویژگیهای صوتی و تصویری دسترسی داشته باشند. این ویژگیها با تبدیل اطلاعات ورودی به متن با استفاده از تشخیص گفتار یا تصویر کار میکنند و به این ربات چت اجازه میدهند تا پاسخی متناسب با آن ایجاد کند. بدین ترتیب بسته به حالت کاربر، برنامه میتواند با استفاده از صدا یا متن پاسخ دهد.
به عنوان مثال، هنگامیکه به صورت شفاهی از آن سوال میشود که آیا میتواند بشنود، برنامه با بیان توانایی خود در خواندن و پاسخ به پیامهای متنی پاسخ میدهد، زیرا درخواستهای صوتی را به عنوان متن پردازش میکند. کاربران همچنین میتوانند از بین پنج صدای مختلف، نمونه مورد پسند خود را برای چت بات انتخاب کنند.
جیم گلس، استاد MIT و متخصص در فناوری گفتار، خاطرنشان میکند که بسیاری از گروه های دانشگاهی در حال حاضر در حال آزمایش رابطهای صوتی متصل به مدل های زبان بزرگ با نتایج امیدوارکننده هستند. با این حال، او اشاره میکند در حالی که تشخیص گفتار به طور قابل توجهی بهبود یافته است، هنوز برای بسیاری از زبان ها با چالش هایی مواجه است.
بهروزرسانی جدید ChatGPT برای چه کاربرانی در دسترس است؟
ویژگیهای صوتی و بصری جدید ChatGPT به تدریج تکامل خواهند یافت و اکنون بهطور اختصاصی از طریق نسخه اشتراکی با قیمت 20 دلار در ماه در دسترس هستند. در فاز اول، این قابلیتها تنها به زبان انگلیسی محدود خواهند بود و در تمامی کشورهای مجاز به استفاده از چت جی پی تی قابل دسترسی هستند.
در آزمایشهای اولیه، ویژگی جستجوی بصری در ChatGPT با محدودیتهایی همراه بود. برای مثال، این مدل هنوز نمیتواند افراد را در تصاویر شناسایی کند، اما قادر به توصیف اشیا یا صحنهها است. عملکرد ویژگی صوتی در برنامه نیز طی آزمایش کارشناسان وبسایت Wire کمی تاخیر داشت که میتواند در نسخه نهایی بهبود یابد.
همانند پیشرفتهای اخیر در هوش مصنوعی مولد، بهروزرسانیهای OpenAI برای چت جی پی تی نگرانیهایی را در مورد امنیت و محافظت از پرسشهای صوتی و دادههای تصویری تولید شده توسط کاربر ایجاد میکند. اوپن ایآی در حال حاضر تعداد قابل توجهی از جفت دادههای متن-تصویر را از وب برای آموزش مدلهای خود نظیر ChatGPT و Dall-E جمع آوری کرده است.
رویکرد OpenAI برای مدیریت دادههای کاربر در حال تکامل بوده و گزینههایی برای کنترل اشتراکگذاری دادهها به کاربران ارائه شده است. اگرچه این شرکت در ابتدا اعلام کرد که کاربران میتوانند اشتراک گذاری دادهها را از طریق برنامه غیرفعال کنند، اما مشخص شد که خاموش کردن سابقه چت و آموزش، قابلیتهای صوتی را نیز غیرفعال میکند. OpenAI تصریح کرد که آنها در حال حاضر دادههای صوتی را برای آموزش مدلهای خود جمع آوری نمیکنند، اما در حال بررسی گزینه هایی برای کاربرانی هستند که میخواهند دادههای خود را به اشتراک بگذارند.
ویژگیهای جدید چت جی پی تی از پتانسیل بالایی برای موفقیت برخوردار هستند، زیرا هدف آنها طبیعیتر کردن تعامل با رباتهای چت است. با این حال، برخی تحقیقات نشان میدهند که رابطهای بسیار پیچیده که سعی در شبیهسازی تعامل چهره به چهره دارند، اگر نتوانند ارتباط انسانی را بهطور کامل شبیهسازی کنند، ممکن است استفاده از آنها غیرطبیعی و چالشبرانگیز باشد.