آیا هوش مصنوعی از نظر ریاضی صلاحیت دارد؟ مروری بر مطالعه اپل


نویسنده(های): دواشیش دات مامگین

در ابتدا منتشر شد به سمت هوش مصنوعی.

هوش مصنوعی و ریاضیات

در سال‌های 2022 و 2023، شرکت‌های بزرگ هوش مصنوعی در درجه اول به این موضوع توجه داشتند NLP. این را پرتاب هایی که بیشتر بر روی استفاده خلاقانه و Mira متمرکز شده بودند، نشان داد. با این حال آخرین مدل های (o1 و کلود سونت جدید 3.5) بیشتر بر استدلال ریاضی و مسائل علمی تمرکز کرده اند.

البته این منطقی است. تز در مورد هوش مصنوعی این بوده است که وقتی هوش مصنوعی بتواند RL را برای بهبود خود انجام دهد، می تواند به سطوح بسیار بالاتری ارتقا یابد. با این حال، انجام RL در NLP و سایر وظایف زبانی دشوار است.

هیچ پاسخ صحیح مطلقی برای “در بریتانیا چه کنم؟” وجود ندارد.
البته، LLM ها می توانند به درجه ای از درستی دست یابند، اما نمی توانند بی نهایت پیشرفت کنند، زیرا هیچ پاسخ مشخصی برای این سؤالات وجود ندارد.

مسائل ریاضی و علمی پاسخ های مشخصی دارند. هوش مصنوعی زمانی می تواند RL را انجام دهد که بتوان یک پاسخ درست را ارزیابی کرد. و مانند AlphaZero با شطرنج، هوش مصنوعی می تواند به پاسخ صحیح نگاه کند، وزن ها را تنظیم کند و سعی کند به طور مکرر به پاسخ صحیح برسد.

اگر می خواهید بررسی جامع تری از RL داشته باشید، من آنها را در یک توضیح می دهم مقاله قبلی. با این حال، من می خواهم مقاله جدید را مرور کنم و استدلال ریاضی در LLM را مورد بحث قرار دهم.

مجموعه داده های ریاضیات پایه مدرسه

را مجموعه داده های ریاضی پایه با 8500 سوال برای محک زدن عملکرد LLM ها در استدلال ریاضی استفاده می شود. دستورالعمل هایی که Surge و Open AI برای ایجاد آن استفاده کردند مجموعه داده شهودی و ساده هستند. مسائل ریاضی در مجموعه داده دارند:

  1. محاسبات ساده – چیزی که اکثر مردم می توانند در ذهن خود محاسبه کنند. مانند 8*6 یا 4+4.
  2. چند مرحله میانی – هر مشکل 2 تا 8 مرحله در راه حل دارد.
  3. پاسخ های عدد صحیح – پاسخ باید یک مقدار صحیح باشد.
  4. فقط عملیات ابتدایی – جمع، تفریق، ضرب و تقسیم- در مجموعه داده استفاده می شود.
  5. بدون تکرار تنظیمات – برای هر مشکل یک تنظیم منحصر به فرد وجود دارد.
  6. عملیات را بنویسید – اگر با استفاده از 8/2 به چیزی رسیدید، آن را به جای 4 به عنوان 8/2 بنویسید.

با استفاده از این معیارها، مجموعه داده های متعددی برای ارزیابی مدل های متعدد LLM در استدلال ریاضی ایجاد شد.

شناسایی مشکل

مجموعه داده GSM8K از سال 2021 وجود داشته است و در هوش مصنوعی بسیار تأثیرگذار بوده است. با این حال، اخیر کاغذ سیب با یک فرضیه متفاوت مطرح می شود.

فرضیه – LLM ها الگوهای یادگیری در مجموعه داده ها هستند و استدلال ریاضی را انجام نمی دهند.

این موضوعی است که معمولاً توسط محققان هوش مصنوعی به آن اشاره می شود. ترانسفورماتورها، محبوب‌ترین نسخه هوش مصنوعی مورد استفاده در LLM، ماشین‌هایی هستند که برای شناسایی و یادگیری الگوها در داده‌ها و استفاده از آنها برای پیش‌بینی نشانه‌های بعدی طراحی شده‌اند.

با این حال، از نظر استدلال ریاضی، این یک مشکل ایجاد می کند. LLM ها برای حل سوالاتی که در آن ارزش ها یا روابط تغییر می کند، تلاش می کنند.

بیایید یک آزمایش انجام دهیم

به عنوان مثال، هر سوال مدرسه ابتدایی را در نظر بگیرید. یک مثال ارائه شده در مقاله به شرح زیر است:

وقتی سوفی برادرزاده‌اش را تماشا می‌کند، اسباب‌بازی‌های مختلفی برای او می‌آورد. کیسه بلوک های ساختمانی دارای 31 بلوک است. داخل سطل حیوانات عروسکی 8 عدد عروسک وجود دارد. برج حلقه های روی هم 9 حلقه رنگارنگ روی خود دارد. سوفی اخیراً یک لوله از توپ‌های فنری خریده و تعداد کل اسباب‌بازی‌هایش را برای برادرزاده‌اش به 62 رسانده است.

پاسخ از این معادله به دست می آید

31+8+9+x = 62

X = 62-31-8-9 = 14

و ChatGPT 4-o پاسخ درست را در اینجا می دهد.

حالا بیایید سناریو و اعداد را اصلاح کنیم.

سمیرا با گربه اش بازی می کند. گربه او اسباب بازی های زیر را دارد: 23 اسباب بازی ماهی، 4 توپ و 9 حلقه. او اخیراً برای او جعبه ای خریده است که تعداد اسباب بازی ها را به 59 می رساند. چند اسباب بازی در جعبه بود؟

اینجا پاسخ دوباره است،

23+4+9+x = 59

X = 59–23–4–9 = 23

در حالی که ChatGPT-4o هنوز هم می تواند پاسخ درست را بدهد، محققان دریافتند که بسیاری از LLM های دیگر نمی توانند.

حل مشکل مجموعه داده

اگر LLM ها استدلال ریاضی را انجام می دهند، باید بتوانند هرگونه تغییر نمادین در سناریو و متغیر را محاسبه کنند. اگر اعداد را می فهمیدند، اگر سؤالات در قالب دیگری بود، فرقی نمی کرد.

بنابراین، محققان یک راه حل ساده را انتخاب کردند. برای سوال زیر:

"When Sophie watches her nephew, she gets out various toys for him. The bag of building blocks has 31 blocks in it. The bin of stuffed animals has 8 stuffed animals inside. The tower of stacking rings has 9 multicolored rings on it. Sophie recently bought a tube of bouncy balls, bringing her total number of toys for her nephew up to 62. How many bouncy balls came in the tube?"

آنها یک نماد نمادین ایجاد کردند که این بود:

"When girl> watches family>, she gets out various toys for him. The bag of building blocks has x> blocks in it. The bin of stuffed animals has y> stuffed animals inside. The tower of stacking rings has z> multicolored rings on it. Sophie recently bought a tube of bouncy balls, bringing her total number of toys for her nephew up to total>. How many bouncy balls came in the tube?"

اکنون می توانید این متغیرها را برای ایجاد سوالات مختلف تنظیم کنید. این سوالات مجموعه داده GSM-Symbolic را تشکیل می دهند.

هنگامی که در برابر معیار جدید آزمایش شد، بسیاری از LLM ها عملکرد را کاهش دادند.

نتیجه

این افت دقت مدل را در GSM-Symbolic v/s مجموعه داده GSM8K اندازه گیری می کند. بزرگ‌ترین سقوط از فضل با مدل‌های زبانی کوچک اتفاق می‌افتد (تعجبی ندارد؛ آنها الگوهای کمتری را تشخیص دهد). o1-Mini و GPT 4-o کوچکترین دلتا را در عملکرد نشان می دهند.

اما، با کمال تعجب، حتی o1 و GPT 4-o با معرفی متغیر دوم، افت عملکرد بیشتری را نشان می‌دهند.

اضافه کردن اعداد نامتناسب به سوالات

اگر یک جمله بی اهمیت به سوال ریاضی اضافه کنیم چطور؟ اگر انسان ها یک عبارت تصادفی را در یک سوال ریاضی ببینند، می دانند چگونه آن را نادیده بگیرند. با این حال، به LLM ها گفته می شود که به تمام بخش های سؤال “توجه” داشته باشند.

بنابراین، اگر سوال را از مقاله بگیریم:

"Oliver picks 44 Kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday. How many Kiwis does Oliver have?"

و سپس یک قسمت اضافه کنید

"Oliver picks 44 Kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picked twice the number of kiwis he did on Friday, but 5 were smaller than average. How many Kiwis does Oliver have?"

افزودن این اعداد و جملات بی‌اهمیت به سوال، دقت LLM را کاهش می‌دهد.

نتایج

حتی مدل‌های مرزی نیز وقتی این متغیر اضافی به سؤال اضافه می‌شود، شکست می‌خورند. بنابراین، شاید آخرین مدل‌ها شروع به تشخیص الگوهای پیشرفته کرده باشند، اما هنوز با استدلال ریاضی دست و پنجه نرم می‌کنند.

سوال پایانی

یادگیری ماشینی همیشه روی ریاضیات متمرکز بوده است. بصری به نظر می رسد که جدیدترین مدل ها همچنین سعی می کنند این تخصص را در LLM های فعلی بیاورند.

و همانطور که کاغذ اپل نشان می دهد، آنها بسیار بهتر از سایر مدل های کوچکتر عمل می کنند.

فرضیه و سوال کلیدی این مقاله مهمترین آنهاست.

آیا LLM ها فقط تشخیص دهنده الگو هستند و اگر هستند، آیا هرگز مشکلات جدید را حل می کنند؟

در حالت ایده آل، شما می خواهید که هوش مصنوعی فرضیه هایی را در علوم و ریاضیات ایجاد و اثبات کند. این گامی حیاتی به سوی AGI خواهد بود. هوش واقعی انسان نیاز به شناخت الگو دارد، اما از شما می‌خواهد که استدلال کنید و منطق را برای مشکلات به کار ببرید.

اگر سازگاری با سناریوهای جدید خارج از الگوهای شناخته شده برای LLM ها مشکل ساز است، آنگاه مدل ها باید بیشتر توسعه یابند.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/is-ai-mathematically-competent-a-review-of-the-apple-study