سیستمهای تشخیص گفتار امروزی هنوز به رشد کافی نرسیده و هنوز راه زیادی برای تکامل آنها باقی مانده است؛ اما محققین در آزمایشگاه علوم کامپیوتر و هوش مصنوعی موسسه فناوری ماساچوست (CSAIL) با استفاده از تکنیکی جدید، امکان یادگیری را تنها با مشاهده تصاویر مختلف فراهم کردهاند. درواقع سیستم تشخیص گفتار MIT همانند یک نوازد، زبانهای مختلف را میآموزد.
جیم گلس (Jim Glass)، یکی از محققین ارشد این مرکز میگوید:
روش مرسوم برای آموزش سیستمهای تشخیص گفتار، ضبط ضدای مردم و پخش آن است. در این صورت برای هر صدای پخششده باید کلمات و عبارات مختلف را به صورت دقیق مشخص کرد. در حالت ایدهآل، انجام چنین کاری به چندصد یا چند هزار ساعت زمان نیاز دارد تا ماشین بهدرستی کار کند و بسیاری از کمپانیهای بزرگ همچون گوگل (Google) و بایدو (Baidu) نیز مجبور به انجام چنین کاری هستند. اما سیستم تشخیص گفتار MIT نیاز به چنین نظارت بالایی را از بین میبرد.
سیستم تشخیص گفتار MIT برای یادگیری تنها به تصویر و صدای مرتبط با آن نیاز دارد
اگرچه این سیستم پیشرفتهای زیادی داشته و روز به روز نیز شاهد بهتر شدن آن هستیم، اما دستاورد جدید محققین مرکز ام آی تی از چند جهت میتواند جذاب باشد. پیش از هر چیزی، باید به روش آموزش سیستم تشخیص گفتار اشاره کنیم. تکنیک جدید محققین این امکان را فراهم میکند تا دستگاه با مشاهده همزمان صدا و تصویر مربوط به آن، زبان مورد نظر را بیاموزد. درواقع ماشینها نیز میتوانند همانند یک انسان با نگاه کردن و گوش کردن همه چیز را بیاموزند.
مورد دوم که بدون شک اهمیت بسیاری دارد، امکان استفاده از تکنیک تشخیص گفتار در هر جای دنیا است:
هزینه تولید اطلاعات مشروح بالاست. بیش از یک دهه از بهکارگیری سیستمهای تشخیص گفتار میگذرد و این ماشینها باید چیزی را بیاموزند که امکان کسب سود از آن وجود داشته باشد. در این حالت، زبانی انتخاب میشود که برای سازندگان سودآور است. تاکنون بازخوردها از زبان انگلیسی، زبان کشورهای اروپای غربی و همینطور ژاپنی بالا بوده، اما مشکل اصلی تعداد زیاد زبانهاست. هماکنون بیش از 7 هزار زبان مختلف در دنیا وجود دارد که تنها 1 میلیون نفر از 300 مورد از آنها استفاده میکند. درواقع تاکنون هیچ توجهی به بسیاری از این زبانها نشده است.
در بسیاری از مناطق مختلف که از سطح سواد پایینی برخوردارند، میتوان از سیستم تشخیص گفتار برای بالا بردن اطلاعات مردم نیز استفاده کرد. هرچند هنوز تحقیقات دانشمندان در مراحل ابتدایی بوده و زمان نسبتا زیادی تا بهرهبرداری از آن باقی مانده است.
برای آزمایش این تکنیک نیز هزار عکس مختلف همراه با توضیح کلامی در اختیار ماشین قرار میگیرد و محققین با ضبط صدایی مرتبط با تصاویر، از ماشین میخواهند که 10 تصویر مرتبط با صدای پخششده را پیدا کند که بهنظر نتایج آن نیز موفقیتآمیز بوده است. بهنظر در آینده دیگر نیازی به انجام کارهای پر زحمت و تفهیم تک به تک لغات به ماشینهای یادگیری نخواهد بود.