گوگل پروژه جدید مبتنی بر هوش مصنوعی خود با پوشش 1000 زبان رایج و پرکاربرد جهان را معرفی کرد. حالا این پروژه دقیقاً چه پیامدهایی خواهد داشت؟
گوگل که مدتی قبل نابودی بشر در آینده به دست هوش مصنوعی را پیشبینی کرده بود، به تازگی از پروژه بلندپروازانه جدیدی برای توسعه یک مدل زبانی هوش مصنوعی خبر داد که 1000 زبان رایج دنیا را پوشش میدهد. این شرکت به عنوان اولین قدم خود در راستای این هدف، یک مدل هوش مصنوعی با پشتیبانی از بیش از 400 زبان را معرفی کرد و آن را «گستردهترین پوشش زبانی که امروز در یک مدل گفتاری دیده میشود» دانست.
طرح بلندپروازانه گوگل برای پوشش 1000 زبان پرکاربرد جهان
میتوان گفت که زبان و هوش مصنوعی همیشه مهمترین بخش محصولات گوگل بودهاند، اما پیشرفتهای اخیر در زمینه یادگیری ماشین یا به طور دقیقتر، توسعه مدلهای زبانی گسترده (LLM) چندمنظوره به تمرکز این شرکت روی این حوزهها اضافه کرده است. گوگل همین الان هم این مدلهای زبانی را در محصولاتی نظیر موتور جستجوی خود گنجانده است.
نواقص متعددی در مدلهای زبانی پیدا میشود؛ به عنوان مثال، در این مدلها باز هم اثر سوگیریهای اجتماعی غیراخلاقی نظیر نژادپرستی و بیگانههراسی به چشم میخورد یا امکان تجزیه و تحلیل زبان بر اساس حساسیت انسان مهیا نیست. حتی زمانی گوگل برخی از محققان خود را که مقالاتی با تمرکز روی این نواقص نوشته بودند، اخراج کرده بود.
با این حال، این مدلها توانایی انجام فعالیتهای زیادی را دارند؛ از تولید زبان (نظیر مدل GPT-3 متعلق به OpenAI) تا ترجمه (پروژه No Language Left Behind متا). در طرف دیگر، پروژه 1000 زبانه هوش مصنوعی گوگل نه روی کارکرد مشخصی، بلکه روی ایجاد سیستمی واحد با گستره دانش بالا از زبانهای جهان متمرکز است.
به گفته زوبین قهرمانی، معاون تحقیقات بخش هوش مصنوعی گوگل در گفتگو با وبسایت The Verge، این شرکت آمریکایی بر این عقیده است که با ساخت مدلی در این اندازه، انتقال کارکردهای هوش مصنوعی به زبانهایی که در فضای اینترنت و دیتاستهای آموزشی هوش مصنوعی مورد کمتوجهی قرار گرفتهاند (یا همان زبانهای دارای منابع کم) آسانتر از قبل خواهد شد.
او همچنین این نکته را خاطرنشان کرده است که با در اختیار داشتن مدل واحدی که در ارتباط با زبانهای متفاوت فراوانی بوده و بر پایه آنها تعلیم دیده است، عملکرد سیستم هوش مصنوعی در حوزه زبانهای دارای منابع کم بهبود پیدا میکند. البته با توجه به توضیحات او، گوگل برای پوشش هزار زبان قرار نیست هزار مدل مختلف را توسعه بدهد.
قهرمانی میگوید که زبانها از این جهت که از یکی به دیگری تکامل پیدا کردهاند و اشتراکاتی دارند، به ارگانیسمها شبیهاند. ضمن اینکه پیشرفتهای چشمگیری در زمینه «یادگیری بدون نمونه» (Zero-shot learning) را میتوان دید و تیم آنها با گنجاندن دادههای یک زبان جدید داخل مدل 1000 زبانه هوش مصنوعی گوگل میتوانند آنچه از یک زبان رایج با منابع فراوان تعلیم داده شده را به یک زبان دارای منابع کم ترجمه کنند.
دسترسی به دادهها یکی از چالشهای تعلیم تعداد زیادی زبان به حساب میآید و گوگل در این راستا تامین مالی مجموعهای از دادهها برای زبانهای دارای منابع کم را بر عهده میگیرد؛ از جمله این دادهها باید به صداهای ضبط شده و متون نوشته شده اشاره کرد. البته گوگل متذکر شده که هنوز تصمیم قطعی درباره حوزه کاربرد این مدل نگرفته است و فقط انتظار دارد در برخی از محصولات آن مثل گوگل ترنسلیت و زیرنویسهای یوتیوب کاربرد داشته باشد.
در خصوص کارکرد مدل زبانی، زوبین قهرمانی اظهار داشته است که یک مدل زبانی از پس فعالیتهای مختلفی بر میآید؛ تبدیل فرمانهای یک ربات به کد، حل مسائل ریاضی و انجام ترجمه همه با همدیگر. به عقیده او، این مدلها دارند به منابعی از دانش تبدیل میشوند و امکان استفاده از آنها به روشهای متفاوت فراهم است.