گزارشها از انتشار مدل هوش مصنوعی SeamlessM4T متا خبر میدهند که میتواند از ترجمه و رونویسی نزدیک به 100 زبان مختلف پشتیبانی کرده و نیاز به مترجمان را از بین ببرد.
در تلاش برای توسعه یک مدل هوش مصنوعی که میتواند طیف وسیعی از لهجههای مختلف را درک کند، متا یک مدل جدید بهنام SeamlessM4T ایجاد کرده است که توانایی ترجمه و رونویسی متون از 100 زبان مختلف در سراسر جهان را ارائه میدهد.
متا ادعا میکند SeamlessM4T که بهطور متنباز با SeamlessAlign همراه میشود، پیشرفت درخورتوجهی در زمینه ترجمه گفتار-به-گفتار و گفتار-به-نوشتار مبتنیبر هوش مصنوعی است.
متا در یک پست وبلاگی میگوید:
مدل واحد ما ترجمههای درخواستی را ارائه میکند که افرادی با زبانهای مختلف را قادر میسازد تا ارتباط مؤثرتری برقرار کنند. SeamlessM4T بهطور ضمنی زبانهای مبدأ را بدون نیاز به مدل شناسایی زبان جداگانه تشخیص میدهد.
هوش مصنوعی SeamlessM4T متا چیزی شبیه جانشین Meta’s No Language Left Behind است، یک مدل ترجمه ماشینی جهانی متن به متن و از معدود سیستمهای ترجمه مستقیم گفتار به گفتار که از زبان هوکین پشتیبانی میکند. این مدل همچنین مبتنی بر گفتار انبوه چند زبانه است که چارچوب متا برای فناوری تشخیص گفتار، شناسایی زبان و ترکیب گفتار را در بیش از 1100 زبان ارائه میکند.
متا در توسعهی ابزارهای پیشرفته ترجمه تنها نیست
فراتر از انبوه خدمات تجاری و مدلهای منبعباز موجود در آمازون، مایکروسافت، OpenAI و تعدادی از استارتآپها، گوگل در حال ایجاد چیزی است که آن را مدل گفتار جهانی مینامد، بخشی از تلاشهای بزرگتر غول سرچ اینترنت برای ساخت مدلی قابل درک برای فهم زبانهای پرتکلم دنیا.
در همین حال، موزیلا رهبری Common Voice را بر عهده داشت، یکی از بزرگترین مجموعههای چند زبانه صداها برای آموزش الگوریتمهای تشخیص خودکار گفتار. اما هوش مصنوعی SeamlessM4T متا یکی از تلاشهای بلندپروازانهتر تا به امروز برای ترکیب قابلیتهای ترجمه و رونویسی در یک مدل واحد محسوب میشود.
در توسعه آن، متا از میلیاردها جمله عمومی و حدود 4 میلیون ساعت گفتار صوتی در محیط وب استفاده کرده است. در مصاحبهای با TechCrunch، خوان پینو، دانشمند تحقیقاتی در بخش تحقیقات هوش مصنوعی متا و مشارکت کننده در این پروژه، منابع دقیق دادهها را فاش نکرد و تنها گفت که تنوع زیادی از این منابع وجود دارد.
همه تولیدکنندگان محتوا با روش استفاده از دادههای عمومی برای آموزش مدلهایی که میتوانند به صورت تجاری استفاده شوند موافق نیستند. برخی از شرکتها، وبسایتها، نویسندگان و تولیدکنندگان محتوا از مدلهای هوش مصنوعی شکایت کردهاند و استدلال میکنند که شرکتهای توسعهدهنده باید وادار به گرفتن مجوز و در صورت نیاز پرداخت غرامت شوند. برای مثال میتوان به شکایت نیویورک تایمز از OpenAI اشاره کرد.
برتریهای مدل هوش مصنوعی جدید متا
متا میگوید در آموزش مدل هوش مصنوعی خود، از مطالبی استفاده کرده است که دارای حق چاپ نبوده و اساساً از منابع منبعباز یا دارای مجوز گردآوری شده است. این شرکت اذغان داشت که بهطور کلی از متن و گفتار استخراجشده از SeamlessAlign برای ایجاد مجموعه داده آموزشی هوش مصنوعی SeamlessM4T متا استفاده میکند.
محققان 443 هزار ساعت گفتار را با متون تراز کردند و 29 هزار ساعت همترازی گفتار به گفتار ایجاد کردند که به هوش مصنوعی SeamlessM4T متا یاد داد چگونه گفتار را به متن رونویسی کند، متن را ترجمه کند، گفتار را از متن تولید کند و حتی کلماتی را که در یک زبان گفته میشود به کلمات در زبان دیگر ترجمه کند.
متا ادعا میکند که براساس معیار داخلی، SeamlessM4T حتی در برابر نویزهای پسزمینه و تغییرات صدای سخنگو نیز هنگام ترجمه گفتار به متن در مقایسه با مدل فعلی رونویسی گفتار بهتر عمل میکند. متا این امر را به ترکیب غنی دادههای گفتاری و نوشتاری در مجموعه داده آموزشی نسبت میدهد و معتقد است SeamlessM4T نسبت به مدلهای فقط گفتاری و متنی برتری دارد.
نگرانی متا از سوگیریهای مدل جدید خود
متا در یک پست وبلاگ نوشت: «با توجه به نتایجی که حاصل شد، ما معتقدیم هوش مصنوعی SeamlessM4T یک پیشرفت مهم در تلاش جامعه هوش مصنوعی به سمت ایجاد سیستمهای چندوظیفهای جهانی است.» با این وجود، شرکت نگران است که این مدل چه سوگیریهایی ممکن است داشته باشد.
مقالهای که اخیرا در The Conversation منتشر شده است، به ایرادات بسیاری در ترجمه مبتنی بر هوش مصنوعی، از جمله شکلهای مختلف سوگیری جنسیتی اشاره میکند. به عنوان مثال، گوگل ترنسلیت زمانی فرض میکرد که پزشکان مرد هستند، با اینکه پرستارهای زن فقط به زبانهای خاصی صحبت میکنند. مترجم بینگ مایکروسافت نیز عباراتی مانند «میز نرم است» را در زبان آلمانی بهعنوان die Tabelle ترجمه کرده است که درواقع به جدولی از ارقام اشاره میکند.
الگوریتمهای تشخیص گفتار نیز اغلب دارای سوگیری هستند. یک مطالعه منتشر شده در مجموعه مقالات آکادمی ملی علوم نشان داد که سیستمهای تشخیص گفتار شرکتهای پیشرو، در رونویسی صدای سیاهپوستان دوبرابر ضعیفتر از رونویسی افراد سفیدپوست عمل میکنند.
هوش مصنوعی SeamlessM4T متا نیز از این نظر منحصربهفرد نیست و با چنین ایراداتی دست و پنجه نرم میکند. در مقاله منتشر شده کنار پست وبلاگ، متا نشان میدهد که این مدل هنگام ترجمه از اصطلاحات خنثی به اشکال مذکر تعمیم مییابد و هنگام ترجمه از مرجع مذکر (مثلاً اسمهایی مانند «او» در انگلیسی) برای اکثر زبانها بهتر عمل میکند.
بیشتر بخوانید:
وقتی هوش مصنوعی گوگل از مزایای برده داری تعریف میکند!
علاوهبراین، در غیاب اطلاعات جنسیتی، SeamlessM4T ترجیح میدهد فرم مردانه را در حدود 10 درصد مواقع ترجمه کند. متا حدس میزند این مشکل احتمالاً به دلیل بازنمایی بیش از حد واژگان مردانه در دادههای آموزشی باشد.
مشکلات و نقصهای هوش مصنوعی SeamlessM4T متا
متا با ذکر این موضوع به مدل هوش مصنوعی جدید خود برتری میبخشد که این مدل متون اضافی و اشتباه را در ترجمههای خود استفاده نمیکند. این قابلیت مشکلی رایج در ترجمه و مدلهای متنی مولد هوش مصنوعی محسوب میشود.
البته این قابلیت در ترجمه متون در تمام زبانها صدق نمیکند. در برخی از زبانها، مانند بنگالی و قرقیزی، SeamlessM4T ترجمههایی اشتباه و بیربط درباره وضعیت فرهنگی، اجتماعی و اقتصادی جامعهی مربوطه انجام میدهد. حتی فراتر از آن، این هوش مصنوعی جدید در ترجمههای مربوط به گرایش جنسی و مذهب بدتر عمل میکند.
متا اشاره میکند که نسخهی نمایشی عمومی SeamlessM4T حاوی فیلتری برای جلوگیری از ورودیهای غیرمجاز و گفتار خروجی نامتعارف است. اما این فیلتر بهطور پیشفرض در نسخهی منبعباز مدل وجود ندارد.
مشکل بزرگتر در ترجمهی مبتنی بر هوش مصنوعی، از دست دادن غنای واژگانی است که میتواند ناشی از استفاده بیشاز حد آنها باشد. برخلاف هوش مصنوعی، مترجمان انسانی هنگام ترجمه یک زبان به زبان دیگر، انتخابهای منحصربهفرد خود را انجام میدهند.
مترجمان انسانی قادرند در صورت لزوم متن منبع را گسترش دهند، مطالبی را از آن حذف کنند، عادیسازی کنند یا حتی چکیده مطلب را تهیه کنند که محصول نهایی کار آنها بهطور غیررسمی به عنوان ترجمه شناخته میشود. سیستمهای هوش مصنوعی ممکن است ترجمههایی با درجه دقت بیشتر تولید کنند، اما در ترجمه نهایی آنها تنوع بهشدت کاهش مییابد.
احتمالاً به همین دلیل است که متا توصیه میکند از SeamlessM4T برای ترجمههای طولانی و ترجمههای تایید شده، مانند مواردی که توسط سازمانهای دولتی و مقامات ترجمه به رسمیت شناخته میشوند، استفاده نکنید. متا همچنین از استقرار SeamlessM4T برای مقاصد پزشکی یا قانونی جلوگیری میکند، دلیل این موضوع احتمالاً برای محافظت از خود در صورت ترجمه اشتباه است.
این روش متا یک راهحل عاقلانه حساب میشود، زیرا در چندین مورد ترجمهی اشتباه هوش مصنوعی به اشتباهاتی در اجرای قانون منجر شده است. برای مثال در سپتامبر 2012، پلیس بهدلیل ترجمه نادرست پیامک یک مرد، به اشتباه او را به تروریست بودن متهم کرد.
در سال 2017 نیز یک پلیس در کانزاس از گوگل ترجمه استفاده کرد تا از فردی اسپانیاییزبان بپرسد که امکان جستجوی خودروی او برای کشف مواد مخدر وجود دارد یا خیر. اما به دلیل ترجمه نادرست، راننده متوجه منظور پلیس نشد و اجرای قانون وقفه به وجود آمد.
پینو در مورد کاهش نقصهای مدلهای هوش مصنوعی در ترجمه با SeamlessM4T گفت:
این رویکرد سیستمی واحد، خطاها و تأخیرها را کاهش میدهد، کارایی و کیفیت فرآیند ترجمه را افزایش میدهد و ما را به امکان دسترسی به یک ترجمه بینقص نزدیکتر میکند. در آینده ما قصد داریم به بررسی اینکه چگونه این مدل بنیادی میتواند قابلیتهای ارتباطی جدید را فعال کند، بپردازیم.
باوجود این پیشرفت روزافزون در زمینه ابزارهای مترجم مبتنی بر هوش مصنوعی، باید امیدوار باشیم که مترجمهای انسانی در آینده بهطور کامل از چرخه خارج نشوند.