نویسنده (ها): شنگگانگ لی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
به روزرسانی مدل های فروش ARMA Legacy با یک اصلاح کننده باقیمانده PPO – بدون نیاز به بازپرداخت کامل
هنگامی که من یک مدل سری زمانی می سازم-می گویم ARMA که در مورد قیمت ها ، تبلیغات و پرچم های تعطیلات فصل گذشته آموزش داده شده است-برای پیش بینی فروش روزانه ، همه چیز در توطئه های اعتبار سنجی تیز به نظر می رسد.
چند ماه بعد ، تیم بازاریابی دفترچه بازی خود را می چرخاند ، رقبا برچسب ها را بریده و باقیمانده های یکبار نفتی از مرکز خارج می شوند. بسیاری از تیم های زنجیره تأمین ، داده های جدید را جمع می کنند ، از بین می روند و از طریق یک اتاق عقب کامل می شوند: انتخاب تاخیر تازه ، بازخوانی شبکه را انتخاب کنید ، خط لوله را دوباره مستقر کنید.
این چرخه بازسازی کند است ، پاسگاه های حاکمیتی را می شکند و دائماً آستانه هشدار را مجدداً تنظیم می کند. از همه بدتر ، هر راه اندازی مجدد ساختار برنده سخت را که قبلاً در آرما اصلی پخته شده است ، دور می کند.
بنابراین این مقاله یک سؤال ساده تر می پرسد: چرا هسته و پیچ قابل اعتماد را بر روی یک تونر یادگیری یادگیری تقویت نمی کنید؟ نماینده RL خطای پیش بینی دیروز را به همراه زمینه زنده مشاهده می کند (قیمت امروز ، پرچم تبلیغاتی ، قیمت رقیب ، هزینه بازاریابی) ، سپس با درصد متوسطی پایه را بالا یا پایین می کند – به یک ترموستات فکر کنید که هنگام برخورد یک جبهه سرد ، به پشت سر می دهد.
ما آن عامل را با بهینه سازی سیاست پروگزیمال (PPO) آموزش می دهیم. PPO هر تصحیح را به عنوان یک عمل مداوم ، به کاهش خطای نسبی پاداش می دهد و گام های سیاست کلیپ را به دست می آورد تا ترفند هرگز به طرز وحشیانه ای پرش نکند. با یادگیری آنلاین آن وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی