سیستم تشخیص گفتار MIT

سیستم تشخیص گفتار MIT همانند یک نوزاد توانایی یادگیری زبان را خواهد داشت

سیستم‌های تشخیص گفتار امروزی هنوز به رشد کافی نرسیده و هنوز راه زیادی برای تکامل آنها باقی مانده است؛ اما محققین در آزمایشگاه علوم کامپیوتر و هوش مصنوعی موسسه فناوری ماساچوست (CSAIL) با استفاده از تکنیکی جدید، امکان یادگیری را تنها با مشاهده تصاویر مختلف فراهم کرده‌اند. درواقع سیستم تشخیص گفتار MIT همانند یک نوازد، زبان‌های مختلف را می‌آموزد.

جیم گلس (Jim Glass)، یکی از محققین ارشد این مرکز می‌گوید:

روش مرسوم برای آموزش سیستم‌های تشخیص گفتار، ضبط ضدای مردم و پخش آن است. در این صورت برای هر صدای پخش‌شده باید کلمات و عبارات مختلف را به صورت دقیق مشخص کرد. در حالت ایده‌آل، انجام چنین کاری به چندصد یا چند هزار ساعت زمان نیاز دارد تا ماشین به‌درستی کار کند و بسیاری از کمپانی‌های بزرگ همچون گوگل (Google) و بایدو (Baidu) نیز مجبور به انجام چنین کاری هستند. اما سیستم تشخیص گفتار MIT نیاز به چنین نظارت بالایی را از بین می‌برد.

سیستم تشخیص گفتار MIT برای یادگیری تنها به تصویر و صدای مرتبط با آن نیاز دارد

اگرچه این سیستم پیشرفت‌های زیادی داشته و روز به روز نیز شاهد بهتر شدن آن هستیم، اما دستاورد جدید محققین مرکز ام آی تی از چند جهت می‌تواند جذاب باشد. پیش از هر چیزی، باید به روش آموزش سیستم تشخیص گفتار اشاره کنیم. تکنیک جدید محققین این امکان را فراهم می‌کند تا دستگاه با مشاهده همزمان صدا و تصویر مربوط به آن، زبان مورد نظر را بیاموزد. درواقع ماشین‌ها نیز می‌توانند همانند یک انسان با نگاه کردن و گوش کردن همه چیز را بیاموزند.

سیستم تشخیص گفتار MIT

مورد دوم که بدون شک اهمیت بسیاری دارد، امکان استفاده از تکنیک تشخیص گفتار در هر جای دنیا است:

هزینه تولید اطلاعات مشروح بالاست. بیش از یک دهه از به‌کارگیری سیستم‌های تشخیص گفتار می‌گذرد و این ماشین‌ها باید چیزی را بیاموزند که امکان کسب سود از آن وجود داشته باشد. در این حالت، زبانی انتخاب می‌شود که برای سازندگان سودآور است. تاکنون بازخوردها از زبان انگلیسی، زبان کشورهای اروپای غربی و همینطور ژاپنی بالا بوده، اما مشکل اصلی تعداد زیاد زبان‌هاست. هم‌اکنون بیش از 7 هزار زبان مختلف در دنیا وجود دارد که تنها 1 میلیون نفر از 300 مورد از آنها استفاده می‌کند. درواقع تاکنون هیچ توجهی به بسیاری از این زبان‌ها نشده است.

در بسیاری از مناطق مختلف که از سطح سواد پایینی برخوردارند، می‌توان از سیستم تشخیص گفتار برای بالا بردن اطلاعات مردم نیز استفاده کرد. هرچند هنوز تحقیقات دانشمندان در مراحل ابتدایی بوده و زمان نسبتا زیادی تا بهره‌برداری از آن باقی مانده است.

برای آزمایش این تکنیک نیز هزار عکس مختلف همراه با توضیح کلامی در اختیار ماشین قرار می‌گیرد و محققین با ضبط صدایی مرتبط با تصاویر، از ماشین می‌خواهند که 10 تصویر مرتبط با صدای پخش‌شده را پیدا کند که به‌نظر نتایج آن نیز موفقیت‌آمیز بوده است. به‌نظر در آینده دیگر نیازی به انجام کارهای پر زحمت و تفهیم تک به تک لغات به ماشین‌های یادگیری نخواهد بود.

پاسخ بدهید

وارد کردن نام و ایمیل اجباری است | در سایت ثبت نام کنید یا وارد شوید و بدون وارد کردن مشخصات نظر خود را ثبت کنید *

*