کاوش و بهره برداری از مسیر مسابقه


نویسنده (ها): دنی لوولی

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

حل مسئله Sutton و Bartos Racetrack با استفاده از یادگیری تقویت.

این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.

(تصویر توسط نویسنده)

این پست شامل یک راه حل و گسترش برای مشکل مسابقه از فصل 5 یادگیری تقویت شده توسط ساتون و بارتو است. اگر می خواهید مشکل را بخوانید و خودتان آن را امتحان کنید ، می توانید آن را در نسخه آنلاین رایگان کتاب در اینجا پیدا کنید. تمام کد مورد نیاز برای تکرار نتایج در این پست را می توان در این مخزن GitHub یافت: https://github.com/loevlie/reinvelome_learning_tufts/tree/main/racetrack_monte_carlo.

مونت کارلو (MC) روشهای کنترل از نظر محاسباتی گران هستند زیرا به نمونه گیری گسترده متکی هستند. با این حال ، بر خلاف روش های برنامه نویسی پویا (DP) ، MC فرض نمی کند که عامل دارای دانش محیطی کاملی است و آن را در سناریوهای نامشخص یا پیچیده انعطاف پذیر تر می کند. با استفاده از روشهای MC ، نماینده قبل از به روزرسانی خط مشی ، یک قسمت کامل را به پایان می رساند. این از دیدگاه نظری سودمند است زیرا می توان مبلغ مورد انتظار پاداش های تخفیف در آینده را دقیقاً از پاداش های آینده واقعی ثبت شده در آن قسمت محاسبه کرد.

مشکل مسابقه از یادگیری تقویت شده توسط Sutton و Barto با ارائه پاداش ثابت -1 در هر مرحله از قسمت ، به خط پایان می رسد و باعث می شود که عامل در هر زمان که اجرا شود ، دوباره به همان آغاز پرش کند … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/exploring-and-exploiting-the-racetrack