درون rStar-Math، تکنیکی که مدل های کوچک را GPT-o1 ریاضی در استدلال ریاضی می سازد

نویسنده(های): خسوس رودریگز

در ابتدا منتشر شد به سمت هوش مصنوعی.

درون rStar-Math، تکنیکی که مدل های کوچک را GPT-o1 ریاضی در استدلال ریاضی می سازد

من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:

TheSequence | خسوس رودریگز | زیر پشته

بهترین منبع برای به‌روز ماندن با پیشرفت‌های یادگیری ماشین، هوش مصنوعی و داده‌ها…

thesequence.substack.com

نبرد بین SLM و بزرگ LLMs یکی از جالب ترین گرایش ها در هوش مصنوعی مولد. ما همیشه مجذوب ادعاهای مدل های کوچکتر هستیم که رقبا را در معیارهای مختلف شکست می دهند. اخیراً، این امر حتی با توجه به حوزه هایی مانند استدلال بیشتر مرسوم شده است. برای مدتی، استدلال محصول جانبی قوانین مقیاس‌بندی را در نظر می‌گرفت، اما اکنون شاهد ظهور SLM‌هایی هستیم که می‌توانند در حوزه‌های مختلف استدلال کنند. یکی از چشمگیرترین نمونه ها چند روز پیش بود که مایکروسافت مقاله‌ای را منتشر کرد که در آن rStar-Math را مشخص می‌کند، روشی که اعتبارسنجی SLM می‌تواند از مدل‌هایی مانند GPT-o1 در استدلال ریاضی بدون هیچ گونه تقطیر بهتر باشد..

rStar-Math یک رویکرد جدید است که به طور قابل توجهی قابلیت های استدلال ریاضی مدل های زبان کوچک (SLM) را تقویت می کند. این سیستم نوآورانه SLM ها را قادر می سازد تا به سطوح عملکردی قابل مقایسه و حتی فراتر از O1 OpenAI دست یابند، علیرغم اندازه بسیار کوچکتر مدل. این امر از طریق یک فرآیند تفکر عمیق سیستم 2 که خود تکامل یافته است، انجام می شود مونت کارلو جستجوی درخت (MCTS) توسط یک مدل ترجیحی فرآیند (PPM) به دقت طراحی شده هدایت می شود.

معماری

در قلب rStar-Math یک فرآیند خود-تکاملی نهفته است که از چهار دور مجزا تشکیل شده است. هر دور بر اصلاح تدریجی خط مشی SLM متمرکز است که مراحل استدلالی را ایجاد می کند و PPM که این مراحل را ارزیابی می کند و منجر به استدلال ریاضی دقیق و پیچیده می شود.

دور 1: بوت استرپینگ. دور اولیه از یک LLM از قبل آموزش دیده قدرتمند، DeepSeek-Coder-V2-Instruct (236B) برای راه اندازی فرآیند استفاده می کند. این یک مجموعه اولیه از مسیرهای استدلال با استفاده از MCTS و یک حاشیه نویسی ساده با هدایت پایانه برای تخصیص مقادیر Q به هر مرحله بر اساس سهم آنها در رسیدن به پاسخ صحیح ایجاد می کند. سپس از این داده ها برای تنظیم دقیق یک SLM 7B کوچکتر که به عنوان SLM-r1 تعیین می شود، استفاده می شود و اولین تکرار مدل خط مشی را تشکیل می دهد.
دور 2: PPM قابل اعتماد. در این دور، SLM-r1 برای تولید مجموعه گسترده‌تری از مسیرهای استدلال با 16 MCTS در هر مسئله استفاده می‌شود. افزایش عرضه منجر به حاشیه نویسی های Q-value قابل اعتمادتر می شود. این داده‌ها برای آموزش اولین مدل پاداش واقعاً مؤثر، PPM-r2 استفاده می‌شوند که گامی مهم به سوی استدلال قوی سیستم 2 است.
دور 3: PPM-Augmented MCTS. معرفی MCTS افزوده شده با PPM کیفیت مسیرهای تولید شده را به شدت بهبود می بخشد. PPM فرآیند جستجو را هدایت می کند و مراحلی را که به احتمال زیاد منجر به راه حل های صحیح می شوند، اولویت بندی می کند. این منجر به یک مجموعه آموزشی غنی شده با مسائل ریاضی چالش برانگیز می شود که مرزهای قابلیت های SLM را بیشتر می کند.
دور 4: حل مسائل چالش برانگیز. دور نهایی بر گسترش پوشش مجموعه تمرینی متمرکز است تا مشکلات حتی دشوارتر در سطح رقابت را شامل شود. برای مشکلاتی که در قالب استاندارد 16 MCTS قابل حل نیستند، طرح های اضافی (تا 128)، همراه با گسترش درختان متعدد با دانه های تصادفی متفاوت انجام می شود. این رویکرد استراتژیک تضمین می‌کند که خط‌مشی SLM و PPM در معرض مجموعه‌ای متنوع و چالش برانگیز از مسائل ریاضی قرار گرفته و آموزش داده می‌شوند.

این فرآیند خود-تکاملی تکراری به یک سیاست قدرتمند SLM و یک PPM بسیار دقیق ختم می‌شود که می‌تواند به طور مؤثر جستجوی MCTS را برای حل مسائل پیچیده ریاضی هدایت کند.

نوآوری های کلیدی

سه نوآوری کلیدی زیربنای موفقیت چشمگیر rStar-Math است:

مسیر استدلال تایید شده گام به گام. این روش جدید با مشکل مراحل میانی اشتباهی که اغلب توسط LLM ها ایجاد می شوند مقابله می کند. با تقویت نسل CoT با کد پایتون مربوطه و تأیید اجرای موفقیت‌آمیز کد در هر مرحله، فقط مراحل معتبر و منطقی سالم حفظ می‌شوند. این امر تولید مسیرهای استدلالی با کیفیت بالا را تضمین می کند و به طور قابل توجهی باعث افزایش می شود داده های آموزشییکپارچگی
مدل ترجیحی فرآیند (PPM). روش‌های موجود برای آموزش مدل‌های پاداش فرآیند (PRM) با یک چالش حیاتی روبرو هستند: نیاز به حاشیه‌نویسی دقیق پاداش در سطح مرحله، که دستیابی به آن دشوار و پرهزینه است. rStar-Math این مانع را با معرفی PPM که با استفاده از یک رویکرد جدید مبتنی بر جفت ترجیح آموزش داده شده است، دور می‌زند. به جای تکیه بر امتیازهای دقیق پاداش، PPM یاد می گیرد که مراحل مثبت (درست) را از منفی (نادرست یا نامربوط) تشخیص دهد. این رویکرد رتبه‌بندی دوتایی به طور مؤثر از اطلاعات کیفیت نسبی موجود از طریق گسترش گسترده MCTS استفاده می‌کند که منجر به یک مدل پاداش فرآیند قابل اعتماد و مؤثر می‌شود.
سنتز داده CoT-افزوده کد. rStar-Math از یک روش جدید سنتز داده CoT با کد افزوده در طول عرضه MCTS استفاده می کند. خط مشی SLM هر دو a را ایجاد می کند زبان طبیعی (NL) CoT و کد پایتون مربوطه برای هر مرحله. سپس کد پایتون اجرا می شود و تنها مراحلی که کد با موفقیت اجرا شده اند به عنوان کاندیدای معتبر حفظ می شوند. این رویکرد به طور موثر مسئله توهم LLM را کاهش می دهد و از تولید مراحل صحیح و مرتبط اطمینان می دهد. به‌علاوه، راه‌اندازی‌های گسترده MCTS به‌طور خودکار مقادیر Q را به هر مرحله بر اساس سهم آن در رسیدن به پاسخ صحیح اختصاص می‌دهد، و به عنوان یک مکانیسم ارزشمند خود حاشیه‌نویسی برای آموزش PPM عمل می‌کند.

عملکرد و تاثیر

rStar-Math عملکرد قابل توجهی را در انواع معیارهای چالش برانگیز ریاضی نشان می دهد، به طور مداوم به نتایج پیشرفته دست می یابد و از SLM موجود و حتی برخی راه حل های بزرگتر LLM پیشی می گیرد.

عملکرد بهتر از OpenAI o1. در معیار MATH، rStar-Math دقت Qwen2.5-Math-7B را از 58.8٪ به 90.0٪ افزایش می دهد، و 4.5٪ از پیش نمایش o1 بیشتر می شود. در AIME 2024، به طور متوسط 53.3٪ از مشکلات را حل می کند و آن را در 20٪ دانش آموزان برتر دبیرستانی قرار می دهد که در این امتحان چالش برانگیز شرکت می کنند.
تعمیم پذیری rStar-Math تعمیم پذیری قوی را نشان می دهد و نتایج قابل توجهی را در معیارهای مختلف ریاضی فراتر از MATH و GSM8K که معمولاً مورد استفاده قرار می گیرد، به دست می آورد. مجموعه داده ها. این شامل عملکرد بهتر از o1-mini در معیار ریاضی کالج و تعیین امتیازات پیشرفته جدید در نیمکت المپیاد و امتحان ریاضی ورودی کالج چینی (Gaokao) است.
خود بازتابی درونی. به طرز جالبی، فرآیند تفکر عمیق مبتنی بر MCTS در rStar-Math یک قابلیت بازتاب خود را نشان می‌دهد. مدل خط‌مشی می‌تواند گام‌های با کیفیت پایین را شناسایی کند، به عقب برگردد و راه‌حل‌های جایگزین را بررسی کند و سطحی از آگاهی فراشناختی را به نمایش بگذارد که به صراحت برای آن آموزش ندیده است.
PPM Guiding Reasoning. آزمایش‌ها نشان می‌دهند که PPM نقش مهمی در شکل‌دهی مرزهای استدلال تفکر عمیق سیستم 2 ایفا می‌کند. هنگامی که خط مشی SLM به سطح معینی از شایستگی دست یافت، PPM به عامل اصلی تعیین کننده حد بالای عملکرد سیستم تبدیل می شود.

نتیجه گیری

rStar-Math پیشرفت قابل توجهی در زمینه استدلال ریاضی مبتنی بر LLM ارائه می دهد. رویکرد خود-تکاملی نوآورانه آن، همراه با PPM جدید و سنتز داده‌های CoT با کد افزوده شده، LLM‌های کوچک‌تر را قادر می‌سازد تا به سطوح عملکرد قابل‌توجهی دست یابند، با مدل‌های بزرگ‌تر و از نظر محاسباتی گران‌تر رقابت کنند و حتی پیشی بگیرند. قابلیت خود انعکاس اضطراری پتانسیل این روش را بیشتر برجسته می کند. موفقیت rStar-Math در باز کردن قابلیت‌های تفکر عمیق SLMها، نویدبخش تحقیقات آینده در حوزه‌های مختلف، از جمله اثبات قضیه، استدلال کد، و حل مسائل کلی است.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/artificial-intelligence/inside-rstar-math-a-technique-that-makes-small-models-math-gpt-o1-in-math-reasoning