تکامل GRPO: DAPO


نویسنده (ها): باسکه

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

بهینه سازی سیاست نمونه گیری پویا (DAPO) در واقع نوعی الگوریتم بهینه سازی یادگیری تقویت است. برای درک کامل DAPO ، ما باید به تدریج آن را از PPO -> GRPO -> DAPO مرتب و توضیح دهیم.

بهینه سازی سیاست پروگزیمال (PPO)

هسته اصلی PPO محدود کردن تفاوت بین سیاست های جدید و قدیمی در هنگام به روزرسانی های خط مشی است و از سقوط آموزش به دلیل بروزرسانی بیش از حد بزرگ جلوگیری می کند. فرمول اصلی آن:

کجا

  • π_ {θ} احتمال خروجی مدل خط مشی جدید است.
  • π_ {θ_ {قدیمی}} احتمال نتیجه مدل سیاست قدیمی است.
  • π_ {θ}/π_ {θ_ {قدیمی}} نمونه برداری نسبت اهمیت است که عمدتاً تضمین می کند که توزیع مدلهای جدید و قدیمی تفاوت معنی داری ندارند.
  • ε پارامتر قطع برای نسبت اهمیت است ، که همچنین تغییر توزیع مدل را محدود می کند تا از تغییر بیش از حد یا خیلی کم جلوگیری شود.
  • \ tilde {a} _t تابع بهبود است ، که عمدتا از مقادیر مدل پاداش و مدل ارزش حاصل می شود.
  • R_L نمره مدل پاداش است.
  • V نمره مدل ارزش است.
شکل 1: صحت در مجموعه تست AIME و آنتروپی از احتمالات تولید شده مدل بازیگر در طی فرآیند آموزش RL ، قبل و بعد از استفاده از استراتژی کلیپ بالا. تصویر از [1]بشر

شکل 1 در بالا عملکرد مدل را مقایسه می کند (با استفاده از AIME ارزیابی شده است مجموعه داده) و تولید شده آنتروپی با و بدون پارامتر قطع. ما به وضوح می توانیم ببینیم که پس از افزودن پارامتر قطع ، عملکرد مدل و آنتروپی به میزان قابل توجهی بهبود می یابد.

بهینه سازی سیاست نسبی گروه (GRPO)

GRPO عمدتاً عملکرد ارزش را حذف می کند و مزیت را به صورت گروهی مرتبط می کند ، که آموزش مدل را به شدت سرعت می بخشد. فرمول به شرح زیر است:

تغییرات اصلی ایجاد شده عبارتند از:

  1. نمونه برداری از هر بار چندین بار برای تشکیل گروه ها و استفاده از مقادیر عادی پاداش گروه به عنوان یک مزیت.
  2. معرفی واگرایی KL به عنوان منظم.
  3. از آنجا که آموزش GRPO عمدتاً برای مشکلات استدلال ریاضی یا منطقی است ، مدل پاداش آن نیز مبتنی بر قانون است. به عنوان مثال:

کجا

  • y پاسخ استاندارد است.
  • \ hat {y} پاسخ پیش بینی شده است.

دپو

در صدر

از فرمول فوق ، به وضوح می توانیم ببینیم که برای پارامتر کلیپ ، یک کلیپ کم و کلیپ بالا اضافه می کنیم. این به این دلیل است که:

  • کلیپ بالا اکتشاف مدل را کنترل می کند و به مدل اجازه می دهد تا نشانه های بیشتری را کشف کند.
  • کلیپ کم تضمین می کند که احتمال یک نشانه به سرعت کاهش نمی یابد و پایداری نشانه های با احتمال زیاد را حفظ می کند.

در اینجا یک مثال آورده شده است: وقتی ε = 0.2 ، فرض کنید احتمال یک عمل π_ {θ_ {قدیمی}} (O_1 | q) = 0.01 است ، و احتمال عمل دیگر π_ {θ_ {قدیمی} (O_2 | q) = 0.9 است. از آنجا که مدل فقط هنگامی که π_ {θ} ≤π_ {θ_ {قدیمی}}} (1+ε) حداکثر احتمال به روز شده برای π_ {θ_ {قدیمی}} (O_1 | q) است (1+0.2) * 0.01 = 0.012 (1+0.012) ، و برای π_ {{{{{به روز می شود ( 0.9 = 1.08. این بدان معنی است که احتمال به روزرسانی نشانه های کم قابلیت بسیار پایین تر از نشانه های با قابلیت بالا است. علاوه بر این ، در آزمایشات DAPO ، محققان دریافتند که حداکثر احتمال خروجی نشانه های قطع شده π_ {θ_ {قدیمی}} (O_I | Q) است

شکل 2: حداکثر احتمالات قطع شده. تصویر از [1]بشر

برای رسیدگی به این مسئله ، DAPO قطع کم کم را پیشنهاد می کند. به طور خاص:

  • ε_ {کم}: برای محدود کردن کاهش احتمال نشانه های با احتمال زیاد استفاده می شود و از احتمال زیاد یک نشانه جلوگیری می کند. این مقدار را می توان کوچکتر کرد.
  • ε_ {بالا}: برای محدود کردن افزایش احتمال نشانه های کم قابلیت استفاده می شود و فضای اکتشافی بزرگتر را فراهم می کند. این مقدار را می توان بزرگتر کرد.

در dapo ، ε_ {کم}

  • هنگامی که (A> 0) ، مرز قطع در (1 + ε_ {High}) است. ε_ {بالا} بزرگتر از جلوگیری از کوتاه شدن نشانه های کوچک به راحتی جلوگیری می کند ، بنابراین به روزرسانی ها را امکان پذیر می کند.
  • چه زمانی (الف

نمونه گیری پویا

در الگوریتم های RL فعلی ، همان سریع باید نمونه برداری شود. اگر تمام نتایج نمونه برداری از میزان صحت (یعنی پاداش ها همه صحیح باشد) از 1 ، یا همه دارای میزان صحت (یعنی پاداش) 0 هستند ، آنگاه مزیت \ hat {a از این گروه فقط 0 است. وقتی \ hat {a 0 است ، هیچ به روزرسانی شیب ایجاد نمی شود و باعث کاهش کارآیی نمونه ها می شود. همانطور که در شکل 3 در زیر نشان داده شده است ، به عنوان مدل آموزش مدل ، تعداد نمونه های مؤثر در دسته به تدریج کاهش می یابد.

شکل 3: نسبت نمونه ها با دقت 1.

برای پرداختن به این موضوع ، DAPO نمونه گیری پویا را پیشنهاد می کند ، که گروه هایی را با دقت 1 یا 0 فیلتر می کند ، و اطمینان می دهد که همه نمونه ها در هر دسته مؤثر هستند شیب ضمن حفظ قوام اندازه نمونه. قبل از آموزش ، نمونه گیری تا زمانی که دسته پر از نمونه هایی باشد که دقت آن نه 0 و نه 1 است ، ادامه می یابد.

علاوه بر این ، با افزایش تعداد مراحل آموزشی ، مدل دقیق تر می شود ، بنابراین تعداد نمونه های فیلتر شده نیز افزایش می یابد. بنابراین ، حتی با نمونه گیری پویا ، سرعت تمرین به میزان قابل توجهی افزایش نمی یابد. در عوض ، کارآیی نمونه ها همگرایی مدل را تسریع می کند.

از دست دادن شیب سیاست در سطح توکن

در GRPO اصلی ، ضرر در سطح نمونه محاسبه می شود. با این حال ، این روش محاسبه ممکن است منجر به یادگیری ضعیف نشانه ها در نمونه های بسیار طولانی شود. به عنوان مثال:

از دست دادن توکن برای یک نمونه خروجی طولانی:

از دست دادن توکن برای یک نمونه خروجی کوتاه:

هنگام محاسبه کل ضرر L_ {طولانی} + L_ {کوتاه ، می فهمیم که آنها به طور متوسط ​​هستند. با این حال ، از N_1> N_2 ، بدیهی است که L_ {طولانی} نیز آموخته نمی شود. علاوه بر این ، آزمایشات در DAPO نشان داده است که پس از طولانی بودن محتوا ، تولید بسیاری از نشانه های مزخرف آسان است ، بنابراین باید توجه بیشتری به آنها داده شود. بنابراین ، برای اینکه ضرر را مستقیماً برای هر نشانه دقیق کنید ، کل ضرر به شکل زیر تغییر می یابد:

شکل از دست دادن مثال فوق:

شکل دهی پاداش فراگیر

در طول آموزش مدل های بزرگ زبان (LLMS) ، الف max_token معمولاً تنظیم می شود تا حداکثر طول تولید مدل را محدود کند. نمونه های فراتر از این طول کوتاه می شوند. با این حال ، اگر طراحی پاداش برای نمونه های کوتاه نادرست باشد ، ممکن است نویز پاداش را معرفی کند ، که می تواند به طور جدی در روند آموزش دخالت کند.

در روش های قبلی ، RL چنین نمونه های کوتاه شده را مجازات می کند. با این حال ، این روش ممکن است سر و صدایی را در حین آموزش معرفی کند زیرا یک پاسخ معقول ممکن است به دلیل طولانی بودن مجازات شود ، که می تواند به طور جدی در تولید مؤثر مدل دخالت کند. DAPO با فرمول زیر فاصله انتقال پنالتی را معرفی می کند:

کجا

  • L_ {Cache} فاصله انتقال مجازات است.
  • L_ {حداکثر حداکثر طول مجاز است.
  • | y | طول واقعی متن است.

وقتی | y | + l_ {حافظه پنهان} ≤ l_ {حداکثر ، طول متن کمتر از حداکثر است max_token و هیچ مجازاتی اعمال نمی شود. وقتی | y | + l_ {حافظه پنهان}> l_ {max} و | y |

شکل 4: پیشرفت آموزش قبل و بعد از استفاده از نمونه گیری پویا در یک تنظیم پایه. تصویر از [1]بشر

بازتاب و عقب نشینی

در طی فرایند آموزش DAPO ، محققان همچنین توانایی بازتاب و بازگشت به عقب را پیدا کردند که در آن وجود نداشت مجموعه دادهبشر این با گزارش Deepseek R1 سازگار است. با این حال ، محققان هنوز علت اصلی را کشف نکرده اند ، اما این راه را برای بهینه سازی های آینده نشان می دهد.

شکل 5: ظهور رفتار بازتابنده در یادگیری تقویت. تصویر از [1]بشر

استنباط

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/the-evolution-of-grpo-dapo

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *