درک یادگیری تقویت و سیستم های چند عامل: راهنمای مبتدی برای MARL (قسمت 1)

نویسنده (ها): آرتور کاکند

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

*عکس توسط گروه Hyundai Motor در Unsplash*

وقتی از داده های دارای برچسب یاد می گیریم ، آن را یادگیری تحت نظارت می نامیم. وقتی با گروه بندی موارد مشابه یاد می گیریم ، آن را خوشه بندی می نامیم. وقتی با مشاهده پاداش یا سود یاد می گیریم ، آن را یادگیری تقویت می نامیم.

به عبارت ساده ، یادگیری تقویت کننده فرایند کشف بهترین اقدامات یا استراتژی های مبتنی بر پاداش های مشاهده شده است. این نوع یادگیری به ویژه برای کارهای با تعداد زیادی از اقدامات ممکن مفید است. به عنوان مثال ، تصور کنید که یک بازی از مارها و نردبان ها بازی کنید – جایی که می توانید به سمت چپ ، راست ، بالا یا پایین حرکت کنید. ترکیبی خاص از حرکات ، مانند بالا → چپ → بالا → راست، ممکن است منجر به پیروزی در بازی شود. یادگیری تقویت کننده به یک عامل (تصمیم گیرنده) کمک می کند تا ترکیب های مختلف حرکت را کشف کند و یاد بگیرد که کدام یک از آنها به طور مداوم منجر به پیروزی می شود. در بعضی موارد ، چندین عامل می توانند با هم یاد بگیرند و در تعامل باشند. مثال خوب اتومبیل های خودمختار هستند که در همان جاده به اشتراک می گذارند. این به عنوان یادگیری تقویت کننده چند عامل (MARL) شناخته می شود.

کنترل خودمختار (AC) چیست؟
اکنون که وسایل نقلیه خودمختار را در بالا معرفی کردم ، به کنترل خودمختار شیرجه می شوم. AC به سیستم هایی اشاره دارد که تصمیمات غیر متمرکز می شوند. غیرمتمرکز در این مورد به این معنی است که مؤلفه های فردی مانند روبات یا وسایل نقلیه می توانند در محیط خود انتخاب مستقل انجام دهند. مارل در اینجا بسیار مفید است. به عنوان مثال ، در تدارکات ، ما می توانیم یک عامل نرم افزاری هوشمند را به یک ظرف ، وسیله نقلیه و یک مرکز ذخیره سازی وصل کنیم ، این سیستم چند عامل ما را ایجاد می کند که به موجب آن کانتینر می تواند به طور مستقل بهترین مرکز ذخیره سازی را به عنوان مقصد خود کشف کند ، می تواند علاوه بر این یک ارائه دهنده حمل و نقل مناسب را انتخاب کند که آن را به این تسهیلات شناسایی شده منتقل کند که به طور کامل کارآیی را به حداکثر می رساند. در این تصویر ساده ، این فقط یک ظرف است ، اکنون تصور کنید که اگر چندین ظروف بتوانند گروه بندی شوند و به طور کلی به همان شیوه منتقل شوند ، چقدر کارآمد خواهد بود. به طور مشابه ، ناوگان ربات های تحویل وظیفه برای رها کردن بسته ها برای اطمینان از کارآیی و جلوگیری از تأخیر ، نیاز به هماهنگی دارند. این جایی است که مارل بسیار مهم می شود زیرا این نوع تصمیم گیری استراتژیک را امکان پذیر می کند.

اکنون با نگاهی به اتومبیل های خودمختار ، در یک سناریوی دیگر ، ممکن است چندین اتومبیل خود رانندگی داشته باشد که باید یک جاده را به اشتراک بگذارند یا حتی فعالیت خود را در یک محل اتصال یا دور هماهنگ کنند. برای انجام این کار به صورت دستی ، ممکن است نیاز به ایجاد برنامه ای داشته باشد که تضمین کند تعداد خاصی از اتومبیل ها در حال عبور از یک محل اتصال خاص در یک زمان خاص برای جلوگیری از برخورد هستند. این بسیار دشوار و مقیاس پذیر نخواهد بود. برای مقابله با این چالش ، این اتومبیل های خودمختار باید برای جلوگیری از تصادفات و بهبود جریان ترافیک ، هماهنگی حرکات را بیاموزند. پیش بینی و پاسخ دادن به اقدامات یکدیگر ، تجربه رانندگی صاف تری را ایجاد می کند. همین تصویر در مورد ناوگان ربات های تحویل اعمال می شود.

یادگیری تقویت کننده تک عامل در مقابل چند عامل
اکنون که می فهمیم کنترل خودمختار چیست ، می توانیم عمیق تر به RL شیر دهیم و درک کنیم که چگونه ترکیب این دو به سیستم های کارآمد منجر می شود. اما اول ، ما باید درک کنیم که یادگیری تقویت برای یک عامل واحد چگونه کار می کند. چند مفهوم کلیدی وجود دارد که باید هنگام غواصی به RL درک کنید. اینها شامل ؛ “مأمورین” که تصمیم گیرندگان در “محیط” هستند ، محیطی که عامل در آن فعالیت می کند ، با استفاده از “اقدامات” کار می کند ، اقدامات گزینه های انتخابی که یک عامل می تواند انجام دهد که گاهی اوقات در شکل یک کشور تأثیر می گذارد ، “بیان می کند” وضعیت فعلی محیط زیست است. در حالی که نماینده همه اینها را پیمایش می کند ، بر اساس اقدامات انجام شده در حالت های خاص ، بازخورد دریافت می کند و این به “پاداش” معروف است.

یک الگوریتم محبوب که برای آموزش یک عامل واحد استفاده می شود q-learning الگوریتم این الگوریتم با کمک به نماینده کار می کند تا پاداش از انجام اقدامات مختلف در ایالات مختلف را تخمین بزند. یک عمل در این مورد می تواند یک قدم به جلو حرکت کند و دولت می تواند محیط فعلی فعلی پس از انجام عمل باشد. نماینده این وضعیت فعلی را مشاهده می کند و ممکن است پاداش دریافت کند. پس از بررسی چندین اقدامات و ایالات و مشاهده پاداش ، نماینده دانش خود را هر زمان که پاداش های جدیدی را مشاهده می کند ، به روز می کند و تخمین هایی را انجام می دهد که ترکیب دولت ها و اقدامات پاداش می گیرد. اینها نامیده می شوند ارزش و بعضی اوقات آنها تصمیمات بهینه را به دست می آورند. به عنوان مثال ، حرکات بالا → چپ → بالا → راست این که من قبلاً معرفی کردم ، تصمیمات بهینه یعنی ایالات و اقداماتی است که بالاترین مقدار Q را به همراه داشته است.

در اینجا نحوه کار Q-Learning قدم به قدم آورده شده است:

در جایی که دولت S ، و تخمین ارزش زوج دولت فعلی از A و S که توسط QT (S ، A) اهدا شده است ، T + 1 زمان ثابت را نشان می دهد ، γ عامل تخفیف است ، RT + 1 بازپرداخت است که عامل هنگام انجام عمل A در حالت S دریافت می کند و پارامتر α نرخ یادگیری است.

چالش در RL چند عامل
وقتی صحبت از چندین عامل به اشتراک گذاشتن یک محیط می شود ، همه چیز پیچیده تر می شود. این امر به این دلیل است که عوامل بر تصمیمات یکدیگر تأثیر می گذارند. محیط در این مورد دیگر ایستا نیست. بیایید بگوییم نماینده تحویل 1 موردی را برای تحویل در ایالت K برداشت و توانست پاداش بگیرد ، چه چیزی باعث می شود که عامل تحویل 2 از انتخاب آن مورد در یک حالت متفاوت در یک قسمت متفاوت جلوگیری کند؟ ایجاد محیط هر بار تغییر محیط.

علاوه بر این ، چندین تنظیم وجود دارد که در آن رویکردها به عنوان مثال در a متفاوت است تنظیم رقابتی، یک عامل ممکن است با پیش بینی حرکات خود بر خلاف یک ، مخالفان را پیشی بگیرد تنظیم تعاونی، جایی که مأمورین با هم کار می کنند تا یک پاداش مشترک را به حداکثر برسانند. این پیچیدگی به این معنی است که سیستم های چند عامل در مقایسه با RL تک عامل به استراتژی های پیشرفته تری نیاز دارند. این ما را به سوال بعدی ما می رساند. چگونه چندین عامل با هم یاد می گیرند؟

رویکردهای مختلفی برای یادگیری چند عامل وجود دارد: ما می توانیم به یک عامل اجازه دهیم که برای همه تصمیم گیری کند و این نماینده نقش یک هماهنگ کننده را به همه عوامل دیگر می دهد ، این به عنوان شناخته می شود یادگیری متمرکزبشر از طرف دیگر ، ما می توانیم به هر نماینده اجازه دهیم که به طور مستقل یاد بگیرند و عمل کنند و از مشاهده اقدامات یکدیگر یاد بگیرند و این به عنوان شناخته شده است یادگیری غیر متمرکز ، یا استفاده کنید آموزش متمرکز با اعدام غیر متمرکز رویکردی که نمایندگان در طول آموزش اطلاعات جهانی کسب می کنند اما هنگام استقرار مستقل عمل می کنند.

در طی این یادگیری ، نمایندگان می توانند با مبادله مستقیم پیام ها یا به طور ضمنی با استنباط اقدامات عامل دیگر بدون تبادل پیام مستقیم ، به صراحت هماهنگ شوند.

چه چیزی بعدی؟

اکنون که شما را با اصول اولیه سیستم های RL و چند عامل آشنا کرده ام ، باید به الگوریتم های مارل عمیق تر شیرجه بزنیم و به چگونگی تفاوت آنها نگاه کنیم. در قسمت 2 این مجموعه وبلاگ ، ما باید عناصر یادگیری Q مستقل برای مارل را در کنار رویکردهای مبتنی بر تیم کشف کنیم. با ما همراه باشید!

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/l/understanding-reinforcement-learning-and-multi-agent-systems-a-beginners-guide-to-marl-part-1