ساخت دستگاهی که افکار انسان را به گفتار صوتی تبدیل میکند پیشرفت بزرگی در حوزه پزشکی و علم محسوب میشود. مزایای چنین اختراعی چیست؟
در دنیای سرشار از اطلاعات کنونی که هوش مصنوعی در حال رشد و پیشرفت است، هر چیزی که تا مدتی پیش ناممکن بوده، ممکن میشود. شاید تا چند دهه پیش تصور اینکه بتوانیم از کیلومترها دورتر با دوستان و آشنایان خود بهصورت تصویری صحبت کنیم، رویا بود؛ ولی هماکنون پیشپاافتادهترین تکنولوژی که میتوان نام برد، تماس تصویری است!
دانشمندان چندین دهه است که بهدنبال اختراع و ساخت دستگاهی هستند تا بتواند هر آنچه درون مغز آدمی در جریان است را تبدیل به صوت کند. بهنظر میرسد چینیهای پرتلاش به این موفقیت دست یافتهاند و دستگاه آنها میتواند نشانههای عصبی را به گفتار صوتی بدل کند.
دستگاهی که افکار انسان را به گفتار صوتی تبدیل میکند
تیمی از پژوهشگران چینی پس از مدتها تلاش و کار روی نشانههای فعالیت مغزی عصبی روشی برای تولید صوت مصنوعی پیدا کردهاند که به آن ترکیب گفتار میگویند. در واقع به اصطلاح خودمانی، چینیها وسیلهای به نام ذهنخوان تولید کردهاند و این همان چیزی است که همه ما آرزوی ساختش را داشتیم.
بهگفته این تیم تحقیقاتی برای رسیدن به نتایج فعلی از روشی بهنام الکتروکورتیکوگرافی استفاده کردهاند که سعی میکند سیگنالهای مغزی را بهکمک الکترودهای کاشته شده در مغز، بهطور مستقیم از قشر آن دریافت کند. بهزعم پژوهشگران چینی، دستگاه آنها با چالشهایی روبهرو است که در ادامه توضیح خواهیم داد.
چالش لحن
هنگامی که دوست شما صحبت میکند حرفهای او را متوجه میشوید؛ زیرا هم لحن دارد و هم گفتار او آهنگین است. برای انتقال معانی نیاز به لحن و آهنگ داریم. برای مثال زبانهای ماندارین چینی، ویتنامی، پنجابی، تایلندی و لائوسی را اگر در نظر بگیرید، نهتنها کلمهها حاوی حروف مصوت و صامت هستند، بلکه از نظر لحن ممکن است معانی متفاوتی داشته باشند. دانشمندان در اینباره میگویند:
با توجه به اینکه یک هجای آهنگی را میتوان به هجای لحن و پایه که مستقل از یکدیگر هستند، تقسیم کرد، ما یک چارچوب تقسیم و تحلیل را پیشنهاد کردیم. فرض کردیم که لحن و هجای پایه را میتوان جدا از فعالیت عصبی رمزگشایی کرد و سپس گفتار آهنگین را میتوان با استفاده از ترکیب لحن رمزگشایی شده و هجای پایه ترکیب کرد.
نقشه برداری زبانی چیست؟
پژوهشی که چینیها انجام دادهاند دارای پنج شرکت کنندهی مبتلا به تومور مغزی بوده و الکترودهای مغزی هنگام جراحی کاشته شده و بدین ترتیب تحت نقشهبرداری زبان بیدار قرار گرفتند. در این عمل جراحی دو الکترود روی سطح جانبی مغز آنها کاشته شد تا فعالیت عصبی آنها ثبت شود.
سپس به هر شرکتکننده گفته شد هجای ma را به هشت لحن متفاوت و بعد از شنیدن یک نشانه صوتی بیان کند. هر یک از شرکتکنندهها تا 160 آزمایش انجام دادند. لازم به ذکر است که هجای مذکور در زبان ماندارین چهار معنای متفاوت میتواند داشته باشد که عبارتند از: مادر، حشیش، اسب و سرزنش.
برای اینکه لحن بهصورت دقیق شناسایی و تولید شود، پژوهشگران از الگوریتمهایی که فعالیتهای عصبی را مشاهده میکنند استفاده و آنها را تقویت کردند. ضبط تمامی صداها برای هماهنگی با الکتروکورتیکوگرافی از طریق یک میکروفون انجام میشد. نتیجه، ساخت مدل شبکه عصبی ماژولار چند جریانی بود که قادر است لحن و هجای پایه را بهطور موازی رمزگشایی کند و سپس با ترکیب خروجیهای ماژولهای لحن و هجا گفتار را ترکیب کند.
اگرچه این دستگاه برای زبانهای دارای لحنهای مختلف با محدودیتهایی روبهرو است، ولی در زبانهای غیرآهنگین مثل انگلیسی و ژاپنی پژوهشگران موفق به ضبط نشانههای عصبی شده و جملات کوتاهی را تبدیل به گفتار صوتی کردهاند. پیشرفت دانشمندان چینی میتواند کمک زیادی به مبتلایان آنارتری (کسانی که گفتار خود را بهطور کامل از دست دادهاند) کند.
از طرف دیگر روش مذکور میتواند کارایی و بازده ارتباطی رابطههای گفتاری مغز و رایانه را افزایش دهد. چینیها همچنین تأکید کردهاند دستگاهی که اختراع شده قادر است لهجههای چینی نظیر کانتونی و چینی وو را هندل کند. نظر شما درباره این اختراع چیست؟