نویسنده (ها): ساروش
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
من معرفی کرده ام بیانیه مشکل اینجا که در آن ما در حال تلاش برای ساختن یک عامل قادر به بازی پینگ پنگ آتاری هستیم. قبل از خواندن این مقاله ، من با خواندن اطلاعات بیشتر ، دانش بنیادی را ایجاد می کنم تکنیک های شیب سیاست، این ادامه این تکنیک ها است !!
در تکنیک های شیب سیاست ما دیدیم که چگونه استفاده کنیم خط مقدماتی برای آموزش مدل سیاست. ما در آنجا فهمیدیم که پایه چیزی جز ارزشی نیست که به ما کمک می کند تصمیم بگیریم که آیا یک عمل یک عمل خوب است یا در یک حالت خاص در مقایسه با پایه قرار دارد!
اما در آنجا خط مقدم ثابت بود ، آیا می توانیم بهتر عمل کنیم؟ بنابراین محققان اگر به عنوان میانگین پاداش به دلیل اقدامات مختلف احتمالی در آن حالت ، به عنوان میانگین پاداش بگیریم؟
حالا ما قبلاً دیدیم در اینجا پاداش متوسط به دلیل اقدامات مختلف ممکن در آن حالت چیزی جز عملکرد ارزش نیست. از این رو محققان نتیجه گرفتند که می توانند از عملکرد ارزش استفاده کنند تا پایه باشد !!
شبکه ارزش (منتقد)
اکنون برای محاسبه عملکرد مقدار می توانیم از شبکه عصبی Value که قبلاً دیدیم استفاده کنیم در اینجا در مقاله یادگیری Q اما در آنجا نتوانستیم این شبکه را آموزش دهیم اما در اینجا ما وسیله ای برای آموزش این شبکه به شرح زیر داریم
اکنون این شبکه با استفاده از عملکرد ضرر زیر قابل آموزش است
اما اکنون چگونه می توانید این پاداش تخفیف را بدون سیاست محاسبه کنید؟ از این رو ما از خط مشی غیرقابل توصیف ارائه شده توسط شبکه خط مشی زیر در آن زمان برای محاسبه این ارزش پاداش تخفیف استفاده خواهیم کرد.
شبکه سیاست (بازیگر)
اکنون پس از عملکرد ارزش ، می توانیم از آن برای آموزش شبکه خط مشی ، خط مشی استفاده کنیم معماری شبکه به نظر می رسد همان چیزی که دیدیم در اینجا فقط در حال حاضر برای پایه ما از یک شبکه ارزشی استفاده خواهیم کرد.
اکنون می توانید از هر یک از الگوریتم های زیر برای آموزش این شبکه خط مشی استفاده کنید (تمام این الگوریتم ها مورد بحث و بررسی قرار گرفتند مقاله شیب سیاست)
الگوریتم منتقد بازیگر
مدل منتقد بازیگر ترکیبی
در بالا ما دو شبکه عصبی جداگانه را آموزش دادیم شبکه خط مشی (همچنین بازیگر نامیده می شود) وت شبکه ارزش (همچنین منتقد نیز نامیده می شود)بشر محققان بعداً تصور می كردند كه به جای آموزش دو شبکه جداگانه می توانیم هر دو این شبکه را در یكدیگر ترکیب كنیم زیرا این امر به كاهش محاسبات مكرر و همچنین افزایش دقت سیستم به دلیل وزنهای مشترک کمک می کند! از این رو شبکه ترکیبی جدید به شرح زیر است
به هزاران رهبر داده بپیوندید در خبرنامه AIبشر به بیش از 80،000 مشترک بپیوندید و با آخرین تحولات در هوش مصنوعی به روز باشید. از تحقیق گرفته تا پروژه ها و ایده ها. اگر در حال ساخت یک راه اندازی هوش مصنوعی، یک محصول مرتبط با هوش مصنوعی یا یک سرویس ، ما از شما دعوت می کنیم که در نظر بگیرید حامیبشر
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/actor-critic-deep-reinforcement-learning