نویسنده (ها): مروارید
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
ما هوش مصنوعی را آموزش دادیم تا نبوغ ریاضی باشند ، اما سهواً بلایای مکالمه ایجاد کردیم. – دانشگاه کارنگی ملون
(پیوند غیر عضو)
مدل های AI هر هفته به طور مداوم از معیارهای ریاضی بهتر عمل می کنند. برخی حتی متخصصان انسانی را در مسابقات مانند ریاضی و آیمه شکست دادند.
اما این چیزی است که هیچ کس در مورد آن صحبت نمی کند: این نبوغ ریاضی اغلب نمی توانند مکالمات اساسی را انجام دهند.
محققان دانشگاه کارنگی ملون به تازگی شواهدی را منتشر کردند که باعث می شود شما در مورد نحوه آموزش هوش مصنوعی تجدید نظر کنید. مطالعه آنها بیش از 20 مدل متمرکز بر استدلال را مورد بررسی قرار داده و چیزی تکان دهنده پیدا کرده است.
هرچه یک مدل در ریاضیات بهتر شود ، در هر چیز دیگری بدتر می شود.
تیم تحقیق مدل ها را در سه دسته مجزا آزمایش کرد:
Math Reasoning Tasks: MATH-500, AIME24, AIME25, and OlympiadBench.Other Reasoning Tasks: LiveCodeBench (coding), GPQA-Diamond (scientific QA), ACPBench (agent planning), and HeadQA (medical reasoning)Non-Reasoning Tasks: CoQA (conversational QA), IFEval (instruction following), HaluEval (hallucination detection), and MC-TACO (استدلال موقتی)
آنها یک شاخص قابل انتقال برای اندازه گیری چگونگی پیشرفت در ریاضی به حوزه های دیگر ایجاد کردند:
ti_other (٪) = (performance_gain_other / under_gain_math) × 100ti_non (٪) = (performance_gain_non / performance_gain_math) × 100
اعداد مثبت نشان می دهد که مهارت های ریاضی به سایر کارها کمک می کند. اعداد منفی نشان می دهد که عملکرد مدل در توانایی های عمومی کاهش یافته است.
شکل 2 الگویی را نشان می دهد که در تمام اندازه ها و معماری های مدل کاهش می یابد:
یادگیری تقویت … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی