محققان MIT با استفاده از هوش مصنوعی سیستم جدیدی ساختهاند که میتواند جهان را با استفاده از صدا، مدلسازی کند.
با توجه به نقشی اساسی MIT در توسعه بسیاری از جنبههای علوم مدرن، مهندسی، ریاضیات و فناوری، یکی از زمینههایی که تاکنون مورد تحقیق و بررسی توسط این دانشگاه قرار نگرفته بود، به تصویر کشیدن محیط جهان بهوسیله صدا است.
اکنون، محققان مؤسسه فناوری ماساچوست (Massachusetts Institute of Technology) یک مقاله تحقیقاتی در مورد ساخت یک مدل یادگیری ماشین (ML) آموزش دیده در این حوزه نوشتهاند. یادگیری ماشین (Machine Learning) شاخهای از هوش مصنوعی (AI) و مجموعهای از تکنیکهاست که محققان از آنها برای آموزش به سیستمها استفاده میکنند.
اطلاعات موجود در یک پست در وب سایت MIT News نشان میدهد که محققان MIT برای ساخت یک مدل ML که از آکوستیک فضایی برای دیدن و مدلسازی محیط استفاده میکند، درحال همکاری با آزمایشگاه هوش مصنوعی MIT-IBM Watson هستند.
به بیان ساده، این مدل ارائه شده توسط محققان MIT با تشخیص اینکه چگونه صوت از یک نقطهی مشخص به گوش شنونده میرسد و به موقعیتهای مختلف منتشر میشود، مدلسازی را امکانپذیر میکند. از آنجایی که این تکنیک امکان تعیین هندسه سه بعدی زیربنایی اشیاء محیطی را با استفاده از صدا فراهم میکند، میتواند در موارد مختلف بسیار مفید واقع شود.
برنامههایی مانند واقعیت مجازی نیز با عوامل هوش مصنوعی تقویت شدهاند تا از صدا و بینایی برای تجسم بهتر محیط خود استفاده کنند. به عنوان مثال، یک ربات کاوشگر در اعماق آب میتواند از آکوستیک (اصوات) برای تعیین بهتر مکان اشیاء خاص در مقایسه با دید کامپیوتری استفاده کند.
محققان MIT میگویند ساخت مدل ML بر اساس صدا، بسیار پیچیدهتر از مدل مبتنی بر بینایی کامپیوتری است. دلیل این موضوع این است که مدلهای دید کامپیوتری از خاصیتی به نام سازگاری فتومتریک استفاده میکنند (به این معنا که یک شی در هنگام مشاهده از زوایای مختلف تقریباً یکسان به نظر میرسد). اما این ویژگی در مورد صدا صدق نمیکند؛ زیرا بسته به موقعیت مکانی شما و سایر موانع، آنچه از منبع میشنوید ممکن است بسیار متغیر باشد.
برای رفع این پیچیدگی، محققان MIT از دو ویژگی به نام عمل متقابل و هندسه موضعی استفاده کردند. اولی اساساً به این معناست که حتی اگر مکان گوینده و شنونده را عوض کنید، صدا دقیقاً یکسان خواهد بود. نقشهبرداری هندسه موضعی نیز شامل ترکیب دوطرفه در یک میدان صوتی عصبی (NAF) برای گرفتن اشیا و سایر اجزای معماری است.
محققان MIT خاطرنشان کردند برای اینکه مدل ML در محیطهای آزمایشی کار کند، باید اطلاعات بصری و طیفنگاریهایی شامل نمونههای صوتی بر اساس مکان منبع صدا و شنونده، به آن داده شود. با پیروی از این ورودیها، مدل میتواند به دقت تعیین کند که چگونه صدا با حرکت شنونده در اطراف محیط تغییر میکند.
در گامهای بعدی، محققان MIT قصد دارند با تقویت بیشتر این مدل، محیطهای بزرگتر و پیچیدهتری مانند یک ساختمان یا حتی کل شهر را تجسم کنند. بنابراین، با اینکه این مدل اکنون تنها در مدلسازی و نقشهبرداریهای سه بعدی کاربرد دارد، اما ممکن است در آیندهای نزدیک از آن برای کمک به نابینایان استفاده شود.