۳ قابلیتی که چت‌جی‌پی‌تی بهتر از جمنای انجام می‌دهد

0 ارسال شده توسط: کیارش باستانی 12 بهمن 1404 ساعت 10:59

چت‌جی‌پی‌تی، محصول برجسته OpenAI، همچنان یکی از پیشتازان حوزه هوش مصنوعی است. اما آیا در تمام زمینه‌ها از رقبایش برتر است؟

رقابت در دنیای هوش مصنوعی، به‌ویژه میان مدل‌های پیشرفته‌ای نظیر ChatGPT و جمنای گوگل، هر روز فشرده‌تر می‌شود. با تغییرات سریع در قابلیت‌ها، مقایسه مستقیم آن‌ها دشوار است و به همین دلیل، اتکا به معیارهای سنجش تخصصی اهمیت می‌یابد. در ادامه، به سه حوزه‌ی کلیدی می‌پردازیم که چت‌ جی‌پی‌تی در آن‌ها برتری قابل‌توجهی نسبت به جمنای نشان داده است.

پاسخگویی به پرسش‌های علمی پیچیده

چت‌جی‌پی‌تی در آزمون GPQA Diamond، که برای سنجش استدلال در سطح دکترا در رشته‌های فیزیک، شیمی و زیست‌شناسی طراحی شده، عملکرد درخشانی دارد. این پرسش‌ها “Google-proof” نامیده می‌شوند، به این معنی که پاسخ آن‌ها با جستجوی ساده در اینترنت یافت نمی‌شود و نیازمند استدلال پیچیده علمی است.

بیشتر بخوانید

در این آزمون چندگزینه‌ای، که هوش مصنوعی امتیازی برای فصاحت کلام دریافت نمی‌کند، ChatGPT-5.2 با ۹۲.۴٪ امتیاز از Gemini 3 Pro با ۹۱.۹٪ پیشی گرفت. برای مقایسه، یک فارغ‌التحصیل دکترا حدود ۶۵٪ و یک فرد غیرمتخصص عادی ۳۴٪ امتیاز کسب می‌کند.

رفع مشکلات کدنویسی دنیای واقعی

قابلیت حل مشکلات نرم‌افزاری و رفع باگ‌ها یک مهارت ضروری برای سیستم‌های هوش مصنوعی امروزی است. در این زمینه، ChatGPT در معیار SWE-Bench Pro (Private Dataset) که وظایف مهندسی نرم‌افزار واقعی از پلتفرم گیت‌هاب (GitHub) را ارزیابی می‌کند، از رقبای خود بهتر عمل می‌کند.

چت‌جی‌پی‌تی ۵.۲ موفق به حل حدود ۲۴٪ از مسائل شد، در حالی که هوش مصنوعی گوگل جمنای تنها ۱۸٪ را حل کرد. این آزمون به دلیل نیاز به درک پایگاه کد ناآشنا، تفسیر گزارش باگ و تولید راه‌حلی کاربردی بسیار دشوار است و حتی برای انسان‌ها نیز ۱۰۰٪ چالش‌برانگیز است.

همچنین بخوانید

حل پازل‌های بصری انتزاعی

آزمون ARC-AGI-2 که در مارس ۲۰۲۵ به‌روزرسانی شده، برای سنجش توانایی هوش مصنوعی در به‌کارگیری استدلال انتزاعی در چالش‌های ناآشنا طراحی شده است. این آزمون به قابلیت درک الگوهای زیربنایی از طریق مثال‌های محدود و اعمال صحیح آن‌ها بر روی نمونه‌های جدید می‌پردازد.

چت‌جی‌پی‌تی ۵.۲ پرو با کسب ۵۴.۲٪ امتیاز در این معیار، عملکردی قوی‌تر از جمنای نشان داد. نسخه‌های مختلف Gemini مانند جمنای ۳ دیپ‌تینک (۴۵.۱٪) و جمنای ۳ پرو (۳۱.۱٪) امتیازات پایین‌تری کسب کردند. این حوزه یکی از نقاط قوت ChatGPT است که در آن از سایر رقبا نیز پیشی می‌گیرد.