پس از 25 سال تلاش، اینک سیستم تشخیص گفتار مایکروسافت (Microsoft Speech Recognition) به اندازه یک انسان واقعی دقیق شده است. به گفته محققان، هدف بعدی به جای تشخیص، درک مکالمه توسط این سیستم است. جزئیات بیشتری از این دستاورد بزرگ را در ادامه مطالعه خواهید کرد.
محققان مایکروسافت 25 سال مشغول ساخت یک تکنولوژی فوقالعاده مهم برای بشریت بودهاند. سیستم تشخیص گفتار مایکروسافت ظاهرا پس از مدتها آزمون و خطا موفق شده نرخ خطای بسیار اندک 5.1 درصدی را از خود به جای بگذارد. این برای نخستین باری است که سیستم مذکور موفق شده به دقت و صراحت مترجمان حرفهای انسانی عمل کند.
یک سال قبل، تیم تحقیقاتی گفتگو و دیالوگ مایکروسافت اعلام کرد که نرخ خطای سیستم تشخیص گفتار این شرکت به 5.9 درصد رسیده است. این نرخ تقریبا همسان با نرخ اشتباهات انسانهای عادی بود، اما تداوم کار آنها باعث به دست آمدن نرخ 5.1 درصدی شده است که دیگر نزدیک به گفتگوی گویندگان حرفهای انسانی است.
سوییچبرد (Switchboard) بخشی از مکالمههای تلفنی ضبط شده است که تیم تحقیقاتی مایکروسافت بیش از 20 سال است که از آن برای آزمون سیستمهای تشخیص گفتار مورد استفاده قرار میدهد. از جمله وظایف این برد میتوان به بازنویسی مکالمههای بین افراد غریبه تحت موضوعات مختلفی نظیر ورزش و سیاست اشاره کرد.
به منظور کاهش میزان خطای سیستم در حدود 12 درصد نسبت به معیارهای سال گذشته، این گروه تحقیقاتی مجموعهای از پیشرفتها را در آکوستیک مبتنی بر شبکه و مدلهای صوتی گنجاندهاند. در پس ارتقا کلی تمامی اجزای سیستم نیز افزایش تعداد واژگان مدل از 30.000 کلمه به 165.000 کلمه قرار دارد. مهمتر از همه محققان چیزی را ثبت کردهاند که «حافظه بلند مدت و کوتاه مدت مبتنی بر هر دوره محاوره» نامیده میشود. به عبارت سادهتر، این بدان معناست که مدل جدید زبان آنها اجازه می دهد سیستم برای مشخص کردن عباراتی خاص، از کل کمالمههای ثبت شده در پیشین استفاده کند. این به سیستم اجازه میدهد تا به طور مثال اگر بحثی در زمینه ورزش شکل گرفته بود آن شناسایی کند و ترجمه و شناسایی عبارات تخصصی برای آن عملا بدون مشکل باشد.
این تیم عنوان میکند همچنان باید بر روی حوزه تشخیص گفتار کار کرد، چرا که این دستاورد جدید هنوز نمیتواند کارهای پیچیدهتری را نظیر تشخیص گفتار در محیطهای شلوغ و یا سخنرانی با سرعت بسیار زیاد را انجام دهد. “Xuedong Huang” متخصص فنی مایکروسافت اینگونه توضیح میدهد:
علاوه بر اینها، ما نه تنها مشغول یاد دادن به کامپیوترها برای بازگویی کلمات هستیم، بلکه سعی داریم به آنها فهمیدن معنی و نیت کلمات را نیز آموزش دهیم. حرکت از تشخیص به سمت فهمیدن گفتمان هدف بزرگ بعدی در این تکنولوژی است.
هدف بعدی سیستم تشخیص گفتار مایکروسافت
سیستم تشخیص گفتار مایکروسافت در حال حاضر در سرویسهایی همچون کورتانا و مترجم گفتار (Speech Translator) مورد استفاده قرار میگیرد و جزئیات آخرین نسخه از آن را نیز میتوانید از این لینک مشاهده کنید.