شیائومی MiMo V2.5 را معرفی کرد؛ هوش مصنوعی متن‌باز با توان پردازش چندرسانه‌ای

یک دیدگاه ارسال شده توسط: کیان رضایی 10 اردیبهشت 1405 ساعت 18:39

شیائومی از سری مدل‌های هوش مصنوعی متن‌باز MiMo V2.5 رونمایی کرد. این مدل‌ها با معماری پیشرفته، توانایی پردازش هم‌زمان انواع رسانه‌ها را دارند.

مدل‌های هوش مصنوعی جدید شامل دو مدل MiMo-V2.5 و MiMo-V2.5-Pro است که بر اساس معماری پیشرفته ترکیبی از متخصصان (MoE) ساخته شده‌اند. هر دو مدل از پنجره زمینه ۱ میلیون توکنی پشتیبانی می‌کنند و تحت مجوز MIT برای استفاده تجاری رایگان عرضه شده‌اند.

معرفی مدل MiMo-V2.5

مدل MiMo-V2.5 یک هوش مصنوعی بومی چندوجهی (Omnimodal) است که برای پردازش یکپارچه متن، تصویر، ویدیو و صدا طراحی شده. این مدل با مجموع ۳۱۰ میلیارد پارامتر (۱۵ میلیارد پارامتر فعال) بر روی داده‌هایی به حجم تقریبی ۴۸ تریلیون توکن آموزش دیده است و برای درک چندرسانه‌ای و وظایف مبتنی بر عامل (Agent) بهینه شده.

MiMo-V2.5-Pro: نسخه قدرتمندتر

نسخه MiMo-V2.5-Pro قدرتمندترین مدل این سری محسوب می‌شود که برای وظایف پیچیده برنامه‌نویسی، مهندسی نرم‌افزار و استدلال‌های طولانی طراحی شده است. این مدل با مجموع ۱.۰۲ تریلیون پارامتر (۴۲ میلیارد پارامتر فعال) و پشتیبانی از پنجره زمینه ۱ میلیون توکنی، برای اجرای گردش‌کارهای خودکار و پیچیده بسیار کارآمد است.

بیشتر بخوانید

دسترسی و نحوه استفاده

سری مدل‌های MiMo-V2.5 به طور کامل تحت مجوز MIT به صورت متن‌باز منتشر شده‌اند که امکان استفاده تجاری، آموزش مستمر و تنظیم دقیق را بدون نیاز به مجوز اضافی فراهم می‌کند. هر دو مدل به همراه وزن‌ها و توکنایزر از طریق پلتفرم Hugging Face برای دانلود در دسترس قرار گرفته‌اند و با فریم‌ورک‌های مدرن مانند SGLang و vLLM سازگار هستند.