مطالعهای جدید فاش کرد که مدلهای هوش مصنوعی در پیشبینی مسابقات فوتبال لیگ برتر عملکردی فاجعهبار دارند. این سیستمها در تحلیل دقیق دنیای واقعی برای طولانیمدت، همچنان ناتوان هستند.
گزارش KellyBench که توسط استارتاپ General Reasoning منتشر شد، شکاف بین تواناییهای رو به رشد هوش مصنوعی در وظایفی مانند کدنویسی را برجسته میکند. این مطالعه کاستیهای سیستمهای هوش مصنوعی در مواجهه با مسائل پیچیده و واقعی انسانی، از جمله پیشبینی فوتبال را نشان میدهد.
شبیهسازهای هوش مصنوعی نمیتوانند فوتبال را پیشبینی کنند!
General Reasoning در یک شبیهسازی مجازی از فصل ۲۰۲۳-۲۰۲۴ لیگ برتر انگلستان، هشت سیستم هوش مصنوعی برتر را مورد آزمایش قرار داد. به این هوش مصنوعیها دادههای تاریخی و آماری دقیق تیمها و بازیهای قبلی ارائه شد و از آنها خواسته شد تا مدلهایی برای حداکثر کردن بازده و مدیریت ریسک ایجاد کنند. این عاملهای هوش مصنوعی سپس روی نتایج بازیها و تعداد گلهای زدهشده شرطبندی کردند تا توانایی آنها در سازگاری با رویدادهای جدید و دادههای بهروزشده بازیکنان در طول فصل سنجیده شود. در این آزمایش، هوش مصنوعیها امکان دسترسی به اینترنت برای نتایج را نداشتند و هر کدام سه بار برای کسب سود فرصت داشتند.
نتایج نشان داد که Claude Opus 4.6 شرکت Anthropic با متوسط ۱۱ درصد ضرر، بهترین عملکرد را داشت و در یک تلاش تقریباً به نقطه سربهسر رسید. در مقابل، Grok 4.20 شرکت xAI یک بار ورشکست شد و دو تلاش دیگر را نیز نتوانست به پایان برساند. Gemini 3.1 Pro گوگل در یک بار تلاش ۳۴ درصد سود کرد، اما در تلاشی دیگر ورشکست شد.
نویسندگان این مقاله نتیجهگیری کردند: «هر مدل پیشرفتهای که ارزیابی کردیم در طول فصل ضرر کرد و بسیاری از آنها ورشکست شدند.» این تحقیق نشان میدهد که هوش مصنوعی در چنین سناریویی «بهطور سیستماتیک از انسانها ضعیفتر عمل میکند.»
| مدل هوش مصنوعی | میانگین ROI | بهترین تلاش | بدترین تلاش | میانگین موجودی نهایی |
|---|---|---|---|---|
| Anthropic Claude Opus 4.6 | ۱۱٫۰%- | ۰٫۲%- | ۱۸٫۸%- | ۸۹٬۰۳۵ پوند |
| OpenAI GPT-5.4 | ۱۳٫۶%- | ۴٫۱%- | ۳۱٫۶%- | ۸۶٬۳۶۵ پوند |
| Google Gemini 3.1 Pro | ۴۳٫۳%- | ۳۳٫۷%+ | ۱۰۰٫۰%- | ۵۶٬۷۱۵ پوند |
| Google Gemini Flash 3.1 LP | ۵۸٫۴%- | ۲۴٫۷%+ | ۱۰۰٫۰%- | ۴۱٬۶۰۵ پوند |
| Z.AI GLM-5 | ۵۸٫۸%- | ۱۴٫۳%- | ۱۰۰٫۰%- | ۴۱٬۲۲۱ پوند |
| Moonshot Kimi K2.5 | ۶۸٫۳%- | ۲۷٫۰%- | ۱۰۰٫۰%- | ۷٬۴۲۰ پوند |
| xAI Grok 4.20 | ۱۰۰٫۰%- | ۱۰۰٫۰%- | ۱۰۰٫۰%- | ۰ پوند |
| Acree Trinity | ۱۰۰٫۰%- | ۱۰۰٫۰%- | ۱۰۰٫۰%- | ۰ پوند |
هر مدل با موجودی نرمالشده ۱۰۰,۰۰۰ پوند شروع کرد. بازگشت سرمایه و موجودی نهایی در سه تلاش میانگینگیری شدهاند. Grok و Trinity تمام تلاشها را کامل نکردند.
- آیا هوش مصنوعی بشر را منقرض خواهد کرد؟ بررسی علمی یک سناریوی آخرالزمانی
- پسوردهای ساختهشده با هوش مصنوعی بهراحتی هک میشوند!
- ربات انساننمای آنر رکورد جهانی دو نیمهماراتن را شکست
چرا هوش مصنوعی در پیشبینی فوتبال شکست میخورد؟
راس تیلور، یکی از نویسندگان مطالعه و مدیرعامل General Reasoning، اظهار داشت: «تبلیغات زیادی در مورد اتوماسیون هوش مصنوعی وجود دارد، اما اندازهگیری زیادی از قرار دادن هوش مصنوعی در یک چارچوب زمانی طولانی مدت صورت نگرفته است.» او افزود که بسیاری از معیارهای سنتی برای آزمایش هوش مصنوعی ناقص هستند، زیرا در «محیطهای بسیار ایستا» تنظیم شدهاند که شباهت کمی به هرج و مرج و پیچیدگی دنیای واقعی دارند.
تیلور، که پیشتر محقق هوش مصنوعی در متا (Meta AI) بود، توضیح داد: «اگر هوش مصنوعی را در برخی وظایف دنیای واقعی امتحان کنید، واقعاً بد عمل میکند… بله، مهندسی نرمافزار بسیار مهم و از نظر اقتصادی ارزشمند است، اما فعالیتهای بسیار دیگری با افقهای زمانی طولانیتر وجود دارد که بررسی آنها اهمیت دارد.» این مطالعه در حالی منتشر میشود که هیجان زیادی در سیلیکون ولی درباره جهشهای اخیر هوش مصنوعی در انجام وظایف برنامهنویسی با کمترین مداخله انسانی وجود دارد.
گجت نیوز آخرین اخبار تکنولوژی، علم و خودرو 


