مدل‌های هوش مصنوعی در پیش‌بینی فوتبال افتضاح هستند

0 ارسال شده توسط: امین میانرودی 17 اردیبهشت 1405 ساعت 19:50

مطالعه‌ای جدید فاش کرد که مدل‌های هوش مصنوعی در پیش‌بینی مسابقات فوتبال لیگ برتر عملکردی فاجعه‌بار دارند. این سیستم‌ها در تحلیل دقیق دنیای واقعی برای طولانی‌مدت، همچنان ناتوان هستند.

گزارش KellyBench که توسط استارتاپ General Reasoning منتشر شد، شکاف بین توانایی‌های رو به رشد هوش مصنوعی در وظایفی مانند کدنویسی را برجسته می‌کند. این مطالعه کاستی‌های سیستم‌های هوش مصنوعی در مواجهه با مسائل پیچیده و واقعی انسانی، از جمله پیش‌بینی فوتبال را نشان می‌دهد.

شبیه‌سازهای هوش مصنوعی نمی‌توانند فوتبال را پیش‌بینی کنند!

General Reasoning در یک شبیه‌سازی مجازی از فصل ۲۰۲۳-۲۰۲۴ لیگ برتر انگلستان، هشت سیستم هوش مصنوعی برتر را مورد آزمایش قرار داد. به این هوش مصنوعی‌ها داده‌های تاریخی و آماری دقیق تیم‌ها و بازی‌های قبلی ارائه شد و از آن‌ها خواسته شد تا مدل‌هایی برای حداکثر کردن بازده و مدیریت ریسک ایجاد کنند. این عامل‌های هوش مصنوعی سپس روی نتایج بازی‌ها و تعداد گل‌های زده‌شده شرط‌بندی کردند تا توانایی آن‌ها در سازگاری با رویدادهای جدید و داده‌های به‌روزشده بازیکنان در طول فصل سنجیده شود. در این آزمایش، هوش مصنوعی‌ها امکان دسترسی به اینترنت برای نتایج را نداشتند و هر کدام سه بار برای کسب سود فرصت داشتند.

نتایج نشان داد که Claude Opus 4.6 شرکت Anthropic با متوسط ۱۱ درصد ضرر، بهترین عملکرد را داشت و در یک تلاش تقریباً به نقطه سربه‌سر رسید. در مقابل، Grok 4.20 شرکت xAI یک بار ورشکست شد و دو تلاش دیگر را نیز نتوانست به پایان برساند. Gemini 3.1 Pro گوگل در یک بار تلاش ۳۴ درصد سود کرد، اما در تلاشی دیگر ورشکست شد.

نویسندگان این مقاله نتیجه‌گیری کردند: «هر مدل پیشرفته‌ای که ارزیابی کردیم در طول فصل ضرر کرد و بسیاری از آن‌ها ورشکست شدند.» این تحقیق نشان می‌دهد که هوش مصنوعی در چنین سناریویی «به‌طور سیستماتیک از انسان‌ها ضعیف‌تر عمل می‌کند.»

مدل هوش مصنوعی	میانگین ROI	بهترین تلاش	بدترین تلاش	میانگین موجودی نهایی
Anthropic Claude Opus 4.6	۱۱٫۰%-	۰٫۲%-	۱۸٫۸%-	۸۹٬۰۳۵ پوند
OpenAI GPT-5.4	۱۳٫۶%-	۴٫۱%-	۳۱٫۶%-	۸۶٬۳۶۵ پوند
Google Gemini 3.1 Pro	۴۳٫۳%-	۳۳٫۷%+	۱۰۰٫۰%-	۵۶٬۷۱۵ پوند
Google Gemini Flash 3.1 LP	۵۸٫۴%-	۲۴٫۷%+	۱۰۰٫۰%-	۴۱٬۶۰۵ پوند
Z.AI GLM-5	۵۸٫۸%-	۱۴٫۳%-	۱۰۰٫۰%-	۴۱٬۲۲۱ پوند
Moonshot Kimi K2.5	۶۸٫۳%-	۲۷٫۰%-	۱۰۰٫۰%-	۷٬۴۲۰ پوند
xAI Grok 4.20	۱۰۰٫۰%-	۱۰۰٫۰%-	۱۰۰٫۰%-	۰ پوند
Acree Trinity	۱۰۰٫۰%-	۱۰۰٫۰%-	۱۰۰٫۰%-	۰ پوند

هر مدل با موجودی نرمال‌شده ۱۰۰,۰۰۰ پوند شروع کرد. بازگشت سرمایه و موجودی نهایی در سه تلاش میانگین‌گیری شده‌اند. Grok و Trinity تمام تلاش‌ها را کامل نکردند.

بیشتر بخوانید

چرا هوش مصنوعی در پیش‌بینی فوتبال شکست می‌خورد؟

راس تیلور، یکی از نویسندگان مطالعه و مدیرعامل General Reasoning، اظهار داشت: «تبلیغات زیادی در مورد اتوماسیون هوش مصنوعی وجود دارد، اما اندازه‌گیری زیادی از قرار دادن هوش مصنوعی در یک چارچوب زمانی طولانی مدت صورت نگرفته است.» او افزود که بسیاری از معیارهای سنتی برای آزمایش هوش مصنوعی ناقص هستند، زیرا در «محیط‌های بسیار ایستا» تنظیم شده‌اند که شباهت کمی به هرج و مرج و پیچیدگی دنیای واقعی دارند.

تیلور، که پیشتر محقق هوش مصنوعی در متا (Meta AI) بود، توضیح داد: «اگر هوش مصنوعی را در برخی وظایف دنیای واقعی امتحان کنید، واقعاً بد عمل می‌کند… بله، مهندسی نرم‌افزار بسیار مهم و از نظر اقتصادی ارزشمند است، اما فعالیت‌های بسیار دیگری با افق‌های زمانی طولانی‌تر وجود دارد که بررسی آن‌ها اهمیت دارد.» این مطالعه در حالی منتشر می‌شود که هیجان زیادی در سیلیکون ولی درباره جهش‌های اخیر هوش مصنوعی در انجام وظایف برنامه‌نویسی با کمترین مداخله انسانی وجود دارد.