نویسنده(های): خسوس رودریگز
در ابتدا منتشر شد به سمت هوش مصنوعی.
درون rStar-Math، تکنیکی که مدل های کوچک را GPT-o1 ریاضی در استدلال ریاضی می سازد
من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:
TheSequence | خسوس رودریگز | زیر پشته
بهترین منبع برای بهروز ماندن با پیشرفتهای یادگیری ماشین، هوش مصنوعی و دادهها…
thesequence.substack.com
نبرد بین SLM و بزرگ LLMs یکی از جالب ترین گرایش ها در هوش مصنوعی مولد. ما همیشه مجذوب ادعاهای مدل های کوچکتر هستیم که رقبا را در معیارهای مختلف شکست می دهند. اخیراً، این امر حتی با توجه به حوزه هایی مانند استدلال بیشتر مرسوم شده است. برای مدتی، استدلال محصول جانبی قوانین مقیاسبندی را در نظر میگرفت، اما اکنون شاهد ظهور SLMهایی هستیم که میتوانند در حوزههای مختلف استدلال کنند. یکی از چشمگیرترین نمونه ها چند روز پیش بود که مایکروسافت مقالهای را منتشر کرد که در آن rStar-Math را مشخص میکند، روشی که اعتبارسنجی SLM میتواند از مدلهایی مانند GPT-o1 در استدلال ریاضی بدون هیچ گونه تقطیر بهتر باشد..
rStar-Math یک رویکرد جدید است که به طور قابل توجهی قابلیت های استدلال ریاضی مدل های زبان کوچک (SLM) را تقویت می کند. این سیستم نوآورانه SLM ها را قادر می سازد تا به سطوح عملکردی قابل مقایسه و حتی فراتر از O1 OpenAI دست یابند، علیرغم اندازه بسیار کوچکتر مدل. این امر از طریق یک فرآیند تفکر عمیق سیستم 2 که خود تکامل یافته است، انجام می شود مونت کارلو جستجوی درخت (MCTS) توسط یک مدل ترجیحی فرآیند (PPM) به دقت طراحی شده هدایت می شود.
معماری
در قلب rStar-Math یک فرآیند خود-تکاملی نهفته است که از چهار دور مجزا تشکیل شده است. هر دور بر اصلاح تدریجی خط مشی SLM متمرکز است که مراحل استدلالی را ایجاد می کند و PPM که این مراحل را ارزیابی می کند و منجر به استدلال ریاضی دقیق و پیچیده می شود.
- دور 1: بوت استرپینگ. دور اولیه از یک LLM از قبل آموزش دیده قدرتمند، DeepSeek-Coder-V2-Instruct (236B) برای راه اندازی فرآیند استفاده می کند. این یک مجموعه اولیه از مسیرهای استدلال با استفاده از MCTS و یک حاشیه نویسی ساده با هدایت پایانه برای تخصیص مقادیر Q به هر مرحله بر اساس سهم آنها در رسیدن به پاسخ صحیح ایجاد می کند. سپس از این داده ها برای تنظیم دقیق یک SLM 7B کوچکتر که به عنوان SLM-r1 تعیین می شود، استفاده می شود و اولین تکرار مدل خط مشی را تشکیل می دهد.
- دور 2: PPM قابل اعتماد. در این دور، SLM-r1 برای تولید مجموعه گستردهتری از مسیرهای استدلال با 16 MCTS در هر مسئله استفاده میشود. افزایش عرضه منجر به حاشیه نویسی های Q-value قابل اعتمادتر می شود. این دادهها برای آموزش اولین مدل پاداش واقعاً مؤثر، PPM-r2 استفاده میشوند که گامی مهم به سوی استدلال قوی سیستم 2 است.
- دور 3: PPM-Augmented MCTS. معرفی MCTS افزوده شده با PPM کیفیت مسیرهای تولید شده را به شدت بهبود می بخشد. PPM فرآیند جستجو را هدایت می کند و مراحلی را که به احتمال زیاد منجر به راه حل های صحیح می شوند، اولویت بندی می کند. این منجر به یک مجموعه آموزشی غنی شده با مسائل ریاضی چالش برانگیز می شود که مرزهای قابلیت های SLM را بیشتر می کند.
- دور 4: حل مسائل چالش برانگیز. دور نهایی بر گسترش پوشش مجموعه تمرینی متمرکز است تا مشکلات حتی دشوارتر در سطح رقابت را شامل شود. برای مشکلاتی که در قالب استاندارد 16 MCTS قابل حل نیستند، طرح های اضافی (تا 128)، همراه با گسترش درختان متعدد با دانه های تصادفی متفاوت انجام می شود. این رویکرد استراتژیک تضمین میکند که خطمشی SLM و PPM در معرض مجموعهای متنوع و چالش برانگیز از مسائل ریاضی قرار گرفته و آموزش داده میشوند.
این فرآیند خود-تکاملی تکراری به یک سیاست قدرتمند SLM و یک PPM بسیار دقیق ختم میشود که میتواند به طور مؤثر جستجوی MCTS را برای حل مسائل پیچیده ریاضی هدایت کند.
نوآوری های کلیدی
سه نوآوری کلیدی زیربنای موفقیت چشمگیر rStar-Math است:
- مسیر استدلال تایید شده گام به گام. این روش جدید با مشکل مراحل میانی اشتباهی که اغلب توسط LLM ها ایجاد می شوند مقابله می کند. با تقویت نسل CoT با کد پایتون مربوطه و تأیید اجرای موفقیتآمیز کد در هر مرحله، فقط مراحل معتبر و منطقی سالم حفظ میشوند. این امر تولید مسیرهای استدلالی با کیفیت بالا را تضمین می کند و به طور قابل توجهی باعث افزایش می شود داده های آموزشییکپارچگی
- مدل ترجیحی فرآیند (PPM). روشهای موجود برای آموزش مدلهای پاداش فرآیند (PRM) با یک چالش حیاتی روبرو هستند: نیاز به حاشیهنویسی دقیق پاداش در سطح مرحله، که دستیابی به آن دشوار و پرهزینه است. rStar-Math این مانع را با معرفی PPM که با استفاده از یک رویکرد جدید مبتنی بر جفت ترجیح آموزش داده شده است، دور میزند. به جای تکیه بر امتیازهای دقیق پاداش، PPM یاد می گیرد که مراحل مثبت (درست) را از منفی (نادرست یا نامربوط) تشخیص دهد. این رویکرد رتبهبندی دوتایی به طور مؤثر از اطلاعات کیفیت نسبی موجود از طریق گسترش گسترده MCTS استفاده میکند که منجر به یک مدل پاداش فرآیند قابل اعتماد و مؤثر میشود.
- سنتز داده CoT-افزوده کد. rStar-Math از یک روش جدید سنتز داده CoT با کد افزوده در طول عرضه MCTS استفاده می کند. خط مشی SLM هر دو a را ایجاد می کند زبان طبیعی (NL) CoT و کد پایتون مربوطه برای هر مرحله. سپس کد پایتون اجرا می شود و تنها مراحلی که کد با موفقیت اجرا شده اند به عنوان کاندیدای معتبر حفظ می شوند. این رویکرد به طور موثر مسئله توهم LLM را کاهش می دهد و از تولید مراحل صحیح و مرتبط اطمینان می دهد. بهعلاوه، راهاندازیهای گسترده MCTS بهطور خودکار مقادیر Q را به هر مرحله بر اساس سهم آن در رسیدن به پاسخ صحیح اختصاص میدهد، و به عنوان یک مکانیسم ارزشمند خود حاشیهنویسی برای آموزش PPM عمل میکند.
عملکرد و تاثیر
rStar-Math عملکرد قابل توجهی را در انواع معیارهای چالش برانگیز ریاضی نشان می دهد، به طور مداوم به نتایج پیشرفته دست می یابد و از SLM موجود و حتی برخی راه حل های بزرگتر LLM پیشی می گیرد.
- عملکرد بهتر از OpenAI o1. در معیار MATH، rStar-Math دقت Qwen2.5-Math-7B را از 58.8٪ به 90.0٪ افزایش می دهد، و 4.5٪ از پیش نمایش o1 بیشتر می شود. در AIME 2024، به طور متوسط 53.3٪ از مشکلات را حل می کند و آن را در 20٪ دانش آموزان برتر دبیرستانی قرار می دهد که در این امتحان چالش برانگیز شرکت می کنند.
- تعمیم پذیری rStar-Math تعمیم پذیری قوی را نشان می دهد و نتایج قابل توجهی را در معیارهای مختلف ریاضی فراتر از MATH و GSM8K که معمولاً مورد استفاده قرار می گیرد، به دست می آورد. مجموعه داده ها. این شامل عملکرد بهتر از o1-mini در معیار ریاضی کالج و تعیین امتیازات پیشرفته جدید در نیمکت المپیاد و امتحان ریاضی ورودی کالج چینی (Gaokao) است.
- خود بازتابی درونی. به طرز جالبی، فرآیند تفکر عمیق مبتنی بر MCTS در rStar-Math یک قابلیت بازتاب خود را نشان میدهد. مدل خطمشی میتواند گامهای با کیفیت پایین را شناسایی کند، به عقب برگردد و راهحلهای جایگزین را بررسی کند و سطحی از آگاهی فراشناختی را به نمایش بگذارد که به صراحت برای آن آموزش ندیده است.
- PPM Guiding Reasoning. آزمایشها نشان میدهند که PPM نقش مهمی در شکلدهی مرزهای استدلال تفکر عمیق سیستم 2 ایفا میکند. هنگامی که خط مشی SLM به سطح معینی از شایستگی دست یافت، PPM به عامل اصلی تعیین کننده حد بالای عملکرد سیستم تبدیل می شود.
نتیجه گیری
rStar-Math پیشرفت قابل توجهی در زمینه استدلال ریاضی مبتنی بر LLM ارائه می دهد. رویکرد خود-تکاملی نوآورانه آن، همراه با PPM جدید و سنتز دادههای CoT با کد افزوده شده، LLMهای کوچکتر را قادر میسازد تا به سطوح عملکرد قابلتوجهی دست یابند، با مدلهای بزرگتر و از نظر محاسباتی گرانتر رقابت کنند و حتی پیشی بگیرند. قابلیت خود انعکاس اضطراری پتانسیل این روش را بیشتر برجسته می کند. موفقیت rStar-Math در باز کردن قابلیتهای تفکر عمیق SLMها، نویدبخش تحقیقات آینده در حوزههای مختلف، از جمله اثبات قضیه، استدلال کد، و حل مسائل کلی است.
منتشر شده از طریق به سمت هوش مصنوعی