روش‌های راز زدایی گروه: تقویت، بسته‌بندی و انباشتگی توضیح داده شد

روش‌های راز زدایی گروه: تقویت، بسته‌بندی و انباشتگی توضیح داده شد
تصویر توسط ویرایشگر | ایدئوگرام

وحدت باعث قدرت می شود. این شعار معروف جوهر روش‌های مجموعه را کاملاً به تصویر می‌کشد: یکی از قدرتمندترین رویکردهای یادگیری ماشین (ML) – با مجوز از شبکه‌های عصبی عمیق – برای رسیدگی مؤثر به مسائل پیچیده پیش‌بینی شده بر روی داده‌های پیچیده، با ترکیب چندین مدل برای پرداختن به یک پیش‌بینی‌کننده. وظیفه این مقاله سه راه متداول برای ساخت مدل‌های مجموعه را شرح می‌دهد: تقویت، بسته‌بندی و چیدن. بیایید شروع کنیم!

کوله بری

Bagging شامل آموزش چندین مدل به طور مستقل و موازی است. مدل‌ها معمولاً از یک نوع هستند، به عنوان مثال، مجموعه‌ای از درخت‌های تصمیم یا رگرسیورهای چند جمله‌ای. تفاوت بین هر مدل در این است که هر کدام بر روی یک زیر مجموعه تصادفی از کل داده های آموزشی آموزش داده می شوند. پس از اینکه هر مدل یک پیش‌بینی را برمی‌گرداند، همه پیش‌بینی‌ها در یک پیش‌بینی کلی جمع می‌شوند. چگونه؟ بستگی به نوع کار پیش بینی دارد:

برای یک گروه کیسه ای از مدل های رگرسیون، پیش بینی های عددی میانگین می شوند.
برای یک گروه کیسه ای از مدل های طبقه بندی، پیش بینی های کلاس با اکثریت آرا ترکیب می شوند.

در هر دو مورد، تجمیع پیش‌بینی‌های مدل چندگانه، واریانس را کاهش می‌دهد و عملکرد کلی را در مقایسه با مدل‌های مستقل ML بهبود می‌بخشد.

انتخاب تصادفی داده در بسته بندی می تواند مبتنی بر نمونه یا مبتنی بر ویژگی باشد:

در بسته بندی مبتنی بر نمونه، مدل‌ها بر روی زیر مجموعه‌های تصادفی نمونه‌های داده آموزش داده می‌شوند که معمولاً با جایگزینی از طریق فرآیندی به نام نمونه‌برداری می‌شوند. بوت استرپینگ. نمونه برداری با جایگزینی به این معنی است که یک نمونه خاص در مجموعه داده می تواند به طور تصادفی برای هیچ، یک یا بیش از یک مدل از آموزش مدل هایی که بخشی از مجموعه خواهند شد انتخاب شود.
در بسته بندی مبتنی بر ویژگی، هر مدل در مجموعه از یک زیرمجموعه تصادفی متفاوت از ویژگی‌ها در داده‌های آموزشی استفاده می‌کند و در نتیجه تنوع بین مدل‌ها را معرفی می‌کند. این رویکرد به کاهش به اصطلاح کمک می کند نفرین ابعاد: مشکلی که هنگام آموزش مدل‌های ML بر روی مجموعه‌های داده با تعداد بسیار زیاد ویژگی‌ها پیدا می‌شود که منجر به از دست دادن کارایی می‌شود. بیش از حد (مدل بیش از حد از داده ها یاد می گیرد و آنها را به خاطر می سپارد و توانایی تعمیم به داده های آینده را از دست می دهد) و غیره.

تصادفی بودن در دو فرآیند انتخابی که در بالا توضیح داده شد به روش مجموعه کمک می‌کند تا در مورد “منطقه‌های” مختلف داده‌ها به طور جامع‌تری بیاموزد در حالی که از برازش بیش از حد اجتناب می‌کند و در نهایت سیستم را قوی‌تر می‌کند.

تصویر سازی یک گروه کیسه کشی
تصویر توسط نویسنده

جنگل های تصادفی نمونه‌ای پرکاربرد از روش بسته‌بندی هستند که هم تصادفی بودن نمونه و هم سطح ویژگی را با هم ترکیب می‌کنند. همانطور که از نام آن پیداست، یک جنگل تصادفی چندین درخت تصمیم می‌سازد که هر کدام بر روی نمونه‌ای از داده‌ها و زیرمجموعه‌ای تصادفی از ویژگی‌ها در هر درخت آموزش داده شده‌اند. این نمونه برداری دوگانه باعث ارتقای تنوع در بین درختان و کاهش همبستگی بین مدل ها می شود.

تقویت

بر خلاف گروه های کیسه ای که در آن چندین مدل به صورت موازی آموزش داده می شوند و پیش بینی های فردی آنها جمع می شود. تقویت رویکرد متوالی را اتخاذ می کند. در تقویت گروه ها، چندین مدل از همان نوع یکی پس از دیگری آموزش می بینند، هر کدام اصلاح محسوس ترین خطاها ساخته شده توسط مدل قبلی همانطور که خطاها به تدریج توسط چندین مدل یکی پس از دیگری رفع می شوند، مجموعه در نهایت یک راه حل کلی قوی تر تولید می کند که در برابر الگوهای پیچیده در داده ها دقیق تر و قوی تر است.

تصویر یک گروه تقویت کننده
تصویر توسط نویسنده

XGBoost (افزایش گرادیان شدید) یک نمونه محبوب از یک گروه مبتنی بر تقویت است. XGBoost مدل‌ها را به‌طور متوالی می‌سازد و به شدت بر اصلاح خطاها در هر مرحله تمرکز می‌کند و به دلیل کارایی، سرعت و عملکرد بالا در وظایف یادگیری ماشین رقابتی شناخته شده است. اگرچه به شدت محدود به درخت‌های تصمیم نیست، XGBoost شبیه جنگل‌های تصادفی است زیرا طوری طراحی شده است که به‌خوبی روی مجموعه‌های درخت تصمیم کار کند.

انباشته شدن

یک رویکرد کمی پیچیده تر است انباشته شدن، که اغلب ترکیب می شود انواع مدل های مختلف (مانند طبقه‌بندی‌کننده‌های درخت تصمیم، طبقه‌بندی‌کننده‌های رگرسیون لجستیک، و شبکه‌های عصبی در کنار هم)، که به طور جداگانه بر روی همان داده ها. نکته: هر نوع مدل معمولاً الگوهای موجود در داده ها را به طور متفاوتی ثبت می کند. علاوه بر این، به جای تجمیع پیش‌بینی‌های فردی، انباشته کردن یک گام فراتر می‌رود: پیش‌بینی‌های فردی به عنوان ورودی‌های یک مدل ML مرحله نهایی استفاده می‌شوند، به نام متا مدل، که یاد می‌گیرد پیش‌بینی‌های مدل‌های پایه را وزن و ترکیب کند، گویی نمونه‌های داده‌ای هستند. در مجموع، ترکیب نقاط قوت مهارت های استنتاج هر مدل خاص منجر به تصمیم نهایی دقیق تری می شود.

تصویری از یک گروه انباشته
تصویر توسط نویسنده

تعمیم انباشته یک رویکرد انباشته رایج است که در آن متا مدل اغلب یک مدل رگرسیون خطی یا لجستیک ساده است.

بسته بندی

روش‌های مجموعه‌ای مانند تقویت، بسته‌بندی و انباشته کردن، از نقاط قوت ترکیب چند مدل ML برای افزایش دقت و استحکام پیش‌بینی استفاده می‌کنند. ویژگی‌های منحصربه‌فرد هر رویکرد به شما کمک می‌کند تا با چالش‌های پیچیده داده‌ای با موفقیت بیشتری مقابله کنید و نقاط ضعف احتمالی مدل فردی را به نقاط قوت جمعی تبدیل کنید.

منبع: machinelearningmastery.com