نویسنده (ها): نهدی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
بهینه سازی بیش از حد یک مسئله شناخته شده در یادگیری تقویت (RL) ، از جمله RL از بازخورد انسانی (RLHF) است که مدلهایی مانند Chatgpt را قدرت می دهد و اکنون در مدل های استدلال در حال ظهور است. هر زمینه عطر و طعم خاص خود را از مشکل نشان می دهد و منجر به عواقب مختلف می شود.
بهینه سازی بیش از حد زمانی اتفاق می افتد که بهینه ساز قدرتمندتر از محیط یا عملکرد پاداش باشد که یادگیری آن را هدایت می کند. این از نقص یا شکاف در مجموعه آموزش بهره می برد و منجر به نتایج غیر منتظره یا نامطلوب می شود.
یکی از قابل توجه ترین نمونه های استفاده شده با استفاده از بهینه سازی هایپرپارامتر با RL مبتنی بر مدل برای بهینه سازی بیش از حد محیط های شبیه سازی استاندارد Mujoco که برای ارزیابی الگوریتم های RL عمیق استفاده می شود. نتیجه این بود که یک کارت ویزیت به حداکثر رساندن سرعت رو به جلو-با وجود هدف این بود که یاد بگیریم که چگونه اجرا شود. در GIF زیر نشان داده شده است.
بهینه سازی بیش از حد در RL کلاسیک منجر به عدم اعتماد به توانایی نمایندگان برای تعمیم در کارهای جدید شد و فشار قابل توجهی را بر طراحی پاداش دقیق وارد کرد.
بهینه سازی بیش از حد در RLHF باعث شد تا مدل ها به طور کامل لوبوتومیز شوند-تکرار نشانه های تصادفی و تولید مجلل. این فقط مربوط به طراحی ضعیف نیست که منجر به بازپرداخت بیش از حد شود. این نشانه این است که سیگنال بهینه سازی شده با هدف واقعی سوء استفاده می شود. در حالی که ممکن است هدف دقیقی را ندانیم ، می توانیم تشخیص دهیم که چه زمانی بهینه سازی بیش از حد اتفاق می افتد.
مدل جدید O3 Openai … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی