نویسنده (ها): باسکه
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
بهینه سازی سیاست نمونه گیری پویا (DAPO) در واقع نوعی الگوریتم بهینه سازی یادگیری تقویت است. برای درک کامل DAPO ، ما باید به تدریج آن را از PPO -> GRPO -> DAPO مرتب و توضیح دهیم.
بهینه سازی سیاست پروگزیمال (PPO)
هسته اصلی PPO محدود کردن تفاوت بین سیاست های جدید و قدیمی در هنگام به روزرسانی های خط مشی است و از سقوط آموزش به دلیل بروزرسانی بیش از حد بزرگ جلوگیری می کند. فرمول اصلی آن:
کجا
- π_ {θ} احتمال خروجی مدل خط مشی جدید است.
- π_ {θ_ {قدیمی}} احتمال نتیجه مدل سیاست قدیمی است.
- π_ {θ}/π_ {θ_ {قدیمی}} نمونه برداری نسبت اهمیت است که عمدتاً تضمین می کند که توزیع مدلهای جدید و قدیمی تفاوت معنی داری ندارند.
- ε پارامتر قطع برای نسبت اهمیت است ، که همچنین تغییر توزیع مدل را محدود می کند تا از تغییر بیش از حد یا خیلی کم جلوگیری شود.
- \ tilde {a} _t تابع بهبود است ، که عمدتا از مقادیر مدل پاداش و مدل ارزش حاصل می شود.
- R_L نمره مدل پاداش است.
- V نمره مدل ارزش است.
شکل 1 در بالا عملکرد مدل را مقایسه می کند (با استفاده از AIME ارزیابی شده است مجموعه داده) و تولید شده آنتروپی با و بدون پارامتر قطع. ما به وضوح می توانیم ببینیم که پس از افزودن پارامتر قطع ، عملکرد مدل و آنتروپی به میزان قابل توجهی بهبود می یابد.
بهینه سازی سیاست نسبی گروه (GRPO)
GRPO عمدتاً عملکرد ارزش را حذف می کند و مزیت را به صورت گروهی مرتبط می کند ، که آموزش مدل را به شدت سرعت می بخشد. فرمول به شرح زیر است:
تغییرات اصلی ایجاد شده عبارتند از:
- نمونه برداری از هر بار چندین بار برای تشکیل گروه ها و استفاده از مقادیر عادی پاداش گروه به عنوان یک مزیت.
- معرفی واگرایی KL به عنوان منظم.
- از آنجا که آموزش GRPO عمدتاً برای مشکلات استدلال ریاضی یا منطقی است ، مدل پاداش آن نیز مبتنی بر قانون است. به عنوان مثال:
کجا
- y پاسخ استاندارد است.
- \ hat {y} پاسخ پیش بینی شده است.
دپو
در صدر
از فرمول فوق ، به وضوح می توانیم ببینیم که برای پارامتر کلیپ ، یک کلیپ کم و کلیپ بالا اضافه می کنیم. این به این دلیل است که:
- کلیپ بالا اکتشاف مدل را کنترل می کند و به مدل اجازه می دهد تا نشانه های بیشتری را کشف کند.
- کلیپ کم تضمین می کند که احتمال یک نشانه به سرعت کاهش نمی یابد و پایداری نشانه های با احتمال زیاد را حفظ می کند.
در اینجا یک مثال آورده شده است: وقتی ε = 0.2 ، فرض کنید احتمال یک عمل π_ {θ_ {قدیمی}} (O_1 | q) = 0.01 است ، و احتمال عمل دیگر π_ {θ_ {قدیمی} (O_2 | q) = 0.9 است. از آنجا که مدل فقط هنگامی که π_ {θ} ≤π_ {θ_ {قدیمی}}} (1+ε) حداکثر احتمال به روز شده برای π_ {θ_ {قدیمی}} (O_1 | q) است (1+0.2) * 0.01 = 0.012 (1+0.012) ، و برای π_ {{{{{به روز می شود ( 0.9 = 1.08. این بدان معنی است که احتمال به روزرسانی نشانه های کم قابلیت بسیار پایین تر از نشانه های با قابلیت بالا است. علاوه بر این ، در آزمایشات DAPO ، محققان دریافتند که حداکثر احتمال خروجی نشانه های قطع شده π_ {θ_ {قدیمی}} (O_I | Q) است
برای رسیدگی به این مسئله ، DAPO قطع کم کم را پیشنهاد می کند. به طور خاص:
- ε_ {کم}: برای محدود کردن کاهش احتمال نشانه های با احتمال زیاد استفاده می شود و از احتمال زیاد یک نشانه جلوگیری می کند. این مقدار را می توان کوچکتر کرد.
- ε_ {بالا}: برای محدود کردن افزایش احتمال نشانه های کم قابلیت استفاده می شود و فضای اکتشافی بزرگتر را فراهم می کند. این مقدار را می توان بزرگتر کرد.
در dapo ، ε_ {کم}
- هنگامی که (A> 0) ، مرز قطع در (1 + ε_ {High}) است. ε_ {بالا} بزرگتر از جلوگیری از کوتاه شدن نشانه های کوچک به راحتی جلوگیری می کند ، بنابراین به روزرسانی ها را امکان پذیر می کند.
- چه زمانی (الف
نمونه گیری پویا
در الگوریتم های RL فعلی ، همان سریع باید نمونه برداری شود. اگر تمام نتایج نمونه برداری از میزان صحت (یعنی پاداش ها همه صحیح باشد) از 1 ، یا همه دارای میزان صحت (یعنی پاداش) 0 هستند ، آنگاه مزیت \ hat {a از این گروه فقط 0 است. وقتی \ hat {a 0 است ، هیچ به روزرسانی شیب ایجاد نمی شود و باعث کاهش کارآیی نمونه ها می شود. همانطور که در شکل 3 در زیر نشان داده شده است ، به عنوان مدل آموزش مدل ، تعداد نمونه های مؤثر در دسته به تدریج کاهش می یابد.
برای پرداختن به این موضوع ، DAPO نمونه گیری پویا را پیشنهاد می کند ، که گروه هایی را با دقت 1 یا 0 فیلتر می کند ، و اطمینان می دهد که همه نمونه ها در هر دسته مؤثر هستند شیب ضمن حفظ قوام اندازه نمونه. قبل از آموزش ، نمونه گیری تا زمانی که دسته پر از نمونه هایی باشد که دقت آن نه 0 و نه 1 است ، ادامه می یابد.
علاوه بر این ، با افزایش تعداد مراحل آموزشی ، مدل دقیق تر می شود ، بنابراین تعداد نمونه های فیلتر شده نیز افزایش می یابد. بنابراین ، حتی با نمونه گیری پویا ، سرعت تمرین به میزان قابل توجهی افزایش نمی یابد. در عوض ، کارآیی نمونه ها همگرایی مدل را تسریع می کند.
از دست دادن شیب سیاست در سطح توکن
در GRPO اصلی ، ضرر در سطح نمونه محاسبه می شود. با این حال ، این روش محاسبه ممکن است منجر به یادگیری ضعیف نشانه ها در نمونه های بسیار طولانی شود. به عنوان مثال:
از دست دادن توکن برای یک نمونه خروجی طولانی:
از دست دادن توکن برای یک نمونه خروجی کوتاه:
هنگام محاسبه کل ضرر L_ {طولانی} + L_ {کوتاه ، می فهمیم که آنها به طور متوسط هستند. با این حال ، از N_1> N_2 ، بدیهی است که L_ {طولانی} نیز آموخته نمی شود. علاوه بر این ، آزمایشات در DAPO نشان داده است که پس از طولانی بودن محتوا ، تولید بسیاری از نشانه های مزخرف آسان است ، بنابراین باید توجه بیشتری به آنها داده شود. بنابراین ، برای اینکه ضرر را مستقیماً برای هر نشانه دقیق کنید ، کل ضرر به شکل زیر تغییر می یابد:
شکل از دست دادن مثال فوق:
شکل دهی پاداش فراگیر
در طول آموزش مدل های بزرگ زبان (LLMS) ، الف max_token
معمولاً تنظیم می شود تا حداکثر طول تولید مدل را محدود کند. نمونه های فراتر از این طول کوتاه می شوند. با این حال ، اگر طراحی پاداش برای نمونه های کوتاه نادرست باشد ، ممکن است نویز پاداش را معرفی کند ، که می تواند به طور جدی در روند آموزش دخالت کند.
در روش های قبلی ، RL چنین نمونه های کوتاه شده را مجازات می کند. با این حال ، این روش ممکن است سر و صدایی را در حین آموزش معرفی کند زیرا یک پاسخ معقول ممکن است به دلیل طولانی بودن مجازات شود ، که می تواند به طور جدی در تولید مؤثر مدل دخالت کند. DAPO با فرمول زیر فاصله انتقال پنالتی را معرفی می کند:
کجا
- L_ {Cache} فاصله انتقال مجازات است.
- L_ {حداکثر حداکثر طول مجاز است.
- | y | طول واقعی متن است.
وقتی | y | + l_ {حافظه پنهان} ≤ l_ {حداکثر ، طول متن کمتر از حداکثر است max_token
و هیچ مجازاتی اعمال نمی شود. وقتی | y | + l_ {حافظه پنهان}> l_ {max} و | y |
بازتاب و عقب نشینی
در طی فرایند آموزش DAPO ، محققان همچنین توانایی بازتاب و بازگشت به عقب را پیدا کردند که در آن وجود نداشت مجموعه دادهبشر این با گزارش Deepseek R1 سازگار است. با این حال ، محققان هنوز علت اصلی را کشف نکرده اند ، اما این راه را برای بهینه سازی های آینده نشان می دهد.
استنباط
منتشر شده از طریق به سمت هوش مصنوعی