نویسنده (ها): ابراهیم پیچکا
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
یک مقدمه ساده برای GRPO ، یک روش بهینه سازی سیاست کارآمد که برای آن استفاده می شود LLM آموزش استدلال
این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.
یادگیری تقویت (RL) به عنوان ابزاری قدرتمند برای تقویت ظاهر شده است مدل های بزرگ زبان (LLMS) پس از آموزش اولیه آنها ، به ویژه در کارهای استدلال ،. پیشرفت های اخیر Deepseek با Deepseek-Math [2] و Deepseek-r1 [3] مدل ها پتانسیل قابل توجه RL را در بهبود استدلال ریاضی و توانایی های حل مسئله LLM ها نشان داده اند.
این دستاوردها از طریق یک رویکرد RL نوآورانه به نام گروه بهینه سازی نسبی گروه (GRPO) امکان پذیر شد ، که به چالش های منحصر به فرد استفاده از RL در مدل های زبان می پردازد. در این پست ، ما به نحوه عملکرد GRPO و چرا نشان دهنده پیشرفت قابل توجهی در آموزش LLM است.
بهینه سازی سیاست پروگزیمال (PPO) [1] الگوریتم Go-to برای تنظیم دقیق RL مدل های زبان بوده است. در اصل ، PPO یک روش شیب خط مشی است که از قطع برای محدود کردن به روزرسانی های خط مشی استفاده می کند (شیب) ، جلوگیری از تغییر سیاست های بزرگ مخرب. عملکرد هدف PPO را می توان به صورت زیر نوشت:
GRPO – برای اولین بار در [2] – بر اساس بنیاد PPO ساخته می شود اما چندین نوآوری کلیدی را معرفی می کند که آن را برای مدلهای زبان کارآمدتر و مناسب تر می کند:
نیاز به یک شبکه ارزشی را از بین می برد ، از این رو نمونه برداری گروه استفاده از حافظه/محاسبات کمتر برای برآورد مزیت پایدارتر ، به روزرسانی محافظه کارانه تر … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی