

روشهای راز زدایی گروه: تقویت، بستهبندی و انباشتگی توضیح داده شد
تصویر توسط ویرایشگر | ایدئوگرام
وحدت باعث قدرت می شود. این شعار معروف جوهر روشهای مجموعه را کاملاً به تصویر میکشد: یکی از قدرتمندترین رویکردهای یادگیری ماشین (ML) – با مجوز از شبکههای عصبی عمیق – برای رسیدگی مؤثر به مسائل پیچیده پیشبینی شده بر روی دادههای پیچیده، با ترکیب چندین مدل برای پرداختن به یک پیشبینیکننده. وظیفه این مقاله سه راه متداول برای ساخت مدلهای مجموعه را شرح میدهد: تقویت، بستهبندی و چیدن. بیایید شروع کنیم!
کوله بری
Bagging شامل آموزش چندین مدل به طور مستقل و موازی است. مدلها معمولاً از یک نوع هستند، به عنوان مثال، مجموعهای از درختهای تصمیم یا رگرسیورهای چند جملهای. تفاوت بین هر مدل در این است که هر کدام بر روی یک زیر مجموعه تصادفی از کل داده های آموزشی آموزش داده می شوند. پس از اینکه هر مدل یک پیشبینی را برمیگرداند، همه پیشبینیها در یک پیشبینی کلی جمع میشوند. چگونه؟ بستگی به نوع کار پیش بینی دارد:
- برای یک گروه کیسه ای از مدل های رگرسیون، پیش بینی های عددی میانگین می شوند.
- برای یک گروه کیسه ای از مدل های طبقه بندی، پیش بینی های کلاس با اکثریت آرا ترکیب می شوند.
در هر دو مورد، تجمیع پیشبینیهای مدل چندگانه، واریانس را کاهش میدهد و عملکرد کلی را در مقایسه با مدلهای مستقل ML بهبود میبخشد.
انتخاب تصادفی داده در بسته بندی می تواند مبتنی بر نمونه یا مبتنی بر ویژگی باشد:
- در بسته بندی مبتنی بر نمونه، مدلها بر روی زیر مجموعههای تصادفی نمونههای داده آموزش داده میشوند که معمولاً با جایگزینی از طریق فرآیندی به نام نمونهبرداری میشوند. بوت استرپینگ. نمونه برداری با جایگزینی به این معنی است که یک نمونه خاص در مجموعه داده می تواند به طور تصادفی برای هیچ، یک یا بیش از یک مدل از آموزش مدل هایی که بخشی از مجموعه خواهند شد انتخاب شود.
- در بسته بندی مبتنی بر ویژگی، هر مدل در مجموعه از یک زیرمجموعه تصادفی متفاوت از ویژگیها در دادههای آموزشی استفاده میکند و در نتیجه تنوع بین مدلها را معرفی میکند. این رویکرد به کاهش به اصطلاح کمک می کند نفرین ابعاد: مشکلی که هنگام آموزش مدلهای ML بر روی مجموعههای داده با تعداد بسیار زیاد ویژگیها پیدا میشود که منجر به از دست دادن کارایی میشود. بیش از حد (مدل بیش از حد از داده ها یاد می گیرد و آنها را به خاطر می سپارد و توانایی تعمیم به داده های آینده را از دست می دهد) و غیره.
تصادفی بودن در دو فرآیند انتخابی که در بالا توضیح داده شد به روش مجموعه کمک میکند تا در مورد “منطقههای” مختلف دادهها به طور جامعتری بیاموزد در حالی که از برازش بیش از حد اجتناب میکند و در نهایت سیستم را قویتر میکند.


تصویر سازی یک گروه کیسه کشی
تصویر توسط نویسنده
جنگل های تصادفی نمونهای پرکاربرد از روش بستهبندی هستند که هم تصادفی بودن نمونه و هم سطح ویژگی را با هم ترکیب میکنند. همانطور که از نام آن پیداست، یک جنگل تصادفی چندین درخت تصمیم میسازد که هر کدام بر روی نمونهای از دادهها و زیرمجموعهای تصادفی از ویژگیها در هر درخت آموزش داده شدهاند. این نمونه برداری دوگانه باعث ارتقای تنوع در بین درختان و کاهش همبستگی بین مدل ها می شود.
تقویت
بر خلاف گروه های کیسه ای که در آن چندین مدل به صورت موازی آموزش داده می شوند و پیش بینی های فردی آنها جمع می شود. تقویت رویکرد متوالی را اتخاذ می کند. در تقویت گروه ها، چندین مدل از همان نوع یکی پس از دیگری آموزش می بینند، هر کدام اصلاح محسوس ترین خطاها ساخته شده توسط مدل قبلی همانطور که خطاها به تدریج توسط چندین مدل یکی پس از دیگری رفع می شوند، مجموعه در نهایت یک راه حل کلی قوی تر تولید می کند که در برابر الگوهای پیچیده در داده ها دقیق تر و قوی تر است.


تصویر یک گروه تقویت کننده
تصویر توسط نویسنده
XGBoost (افزایش گرادیان شدید) یک نمونه محبوب از یک گروه مبتنی بر تقویت است. XGBoost مدلها را بهطور متوالی میسازد و به شدت بر اصلاح خطاها در هر مرحله تمرکز میکند و به دلیل کارایی، سرعت و عملکرد بالا در وظایف یادگیری ماشین رقابتی شناخته شده است. اگرچه به شدت محدود به درختهای تصمیم نیست، XGBoost شبیه جنگلهای تصادفی است زیرا طوری طراحی شده است که بهخوبی روی مجموعههای درخت تصمیم کار کند.
انباشته شدن
یک رویکرد کمی پیچیده تر است انباشته شدن، که اغلب ترکیب می شود انواع مدل های مختلف (مانند طبقهبندیکنندههای درخت تصمیم، طبقهبندیکنندههای رگرسیون لجستیک، و شبکههای عصبی در کنار هم)، که به طور جداگانه بر روی همان داده ها. نکته: هر نوع مدل معمولاً الگوهای موجود در داده ها را به طور متفاوتی ثبت می کند. علاوه بر این، به جای تجمیع پیشبینیهای فردی، انباشته کردن یک گام فراتر میرود: پیشبینیهای فردی به عنوان ورودیهای یک مدل ML مرحله نهایی استفاده میشوند، به نام متا مدل، که یاد میگیرد پیشبینیهای مدلهای پایه را وزن و ترکیب کند، گویی نمونههای دادهای هستند. در مجموع، ترکیب نقاط قوت مهارت های استنتاج هر مدل خاص منجر به تصمیم نهایی دقیق تری می شود.


تصویری از یک گروه انباشته
تصویر توسط نویسنده
تعمیم انباشته یک رویکرد انباشته رایج است که در آن متا مدل اغلب یک مدل رگرسیون خطی یا لجستیک ساده است.
بسته بندی
روشهای مجموعهای مانند تقویت، بستهبندی و انباشته کردن، از نقاط قوت ترکیب چند مدل ML برای افزایش دقت و استحکام پیشبینی استفاده میکنند. ویژگیهای منحصربهفرد هر رویکرد به شما کمک میکند تا با چالشهای پیچیده دادهای با موفقیت بیشتری مقابله کنید و نقاط ضعف احتمالی مدل فردی را به نقاط قوت جمعی تبدیل کنید.