نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی


نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینینکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی

نکاتی برای انتخاب ویژگی موثر در یادگیری ماشینی
تصویر نویسنده | ایجاد شده در Canva

هنگام آموزش یک مدل یادگیری ماشینی، ممکن است گاهی اوقات با مجموعه داده هایی با تعداد زیادی ویژگی کار کنید. با این حال، تنها یک زیرمجموعه کوچک از این ویژگی‌ها در واقع برای مدل برای پیش‌بینی مهم هستند. به همین دلیل است که برای شناسایی این ویژگی های مفید به انتخاب ویژگی نیاز دارید.

این مقاله نکات مفیدی برای انتخاب ویژگی را پوشش می دهد. ما به تکنیک های انتخاب ویژگی به طور عمیق نگاه نمی کنیم. اما ما نکات ساده و در عین حال موثری را برای درک مرتبط‌ترین ویژگی‌ها در مجموعه داده شما پوشش خواهیم داد. ما با هیچ مجموعه داده خاصی کار نخواهیم کرد. اما می‌توانید آن‌ها را روی یک مجموعه داده نمونه انتخابی امتحان کنید.

بیایید شروع کنیم.

1. اطلاعات را درک کنید

احتمالا از خواندن این نکته خسته شده اید. اما هیچ راهی برای نزدیک شدن به هر مشکلی بهتر از درک مشکلی که سعی در حل آن دارید و داده هایی که با آنها کار می کنید وجود ندارد.

بنابراین درک داده های شما اولین و مهمترین مرحله در انتخاب ویژگی است. این شامل کاوش مجموعه داده برای درک بهتر توزیع متغیرها، درک روابط بین ویژگی ها، شناسایی ناهنجاری های بالقوه و ویژگی های مرتبط است.

وظایف کلیدی در کاوش داده ها شامل بررسی مقادیر از دست رفته، ارزیابی انواع داده ها، و تولید آمار خلاصه برای ویژگی های عددی است.

این قطعه کد مجموعه داده را بارگیری می کند، خلاصه ای از انواع داده ها و مقادیر غیر تهی را ارائه می دهد، آمار توصیفی اولیه را برای ستون های عددی تولید می کند و مقادیر از دست رفته را بررسی می کند.

این مراحل به شما کمک می‌کند تا در مورد ویژگی‌های موجود در داده‌های خود و مشکلات بالقوه کیفیت داده‌ها که باید قبل از انتخاب ویژگی به آنها رسیدگی کنید، بیشتر بدانید.

2. ویژگی های نامربوط را حذف کنید

مجموعه داده شما ممکن است دارای تعداد زیادی ویژگی باشد. اما همه آنها به قدرت پیش بینی مدل شما کمک نمی کنند.

چنین ویژگی‌های نامربوطی می‌توانند نویز را اضافه کنند و پیچیدگی مدل را افزایش دهند، بدون اینکه کارایی زیادی داشته باشند. حذف چنین ویژگی هایی قبل از آموزش مدل ضروری است. و اگر مجموعه داده را با جزئیات درک کرده و بررسی کرده باشید، این باید ساده باشد.

برای مثال، می‌توانید زیرمجموعه‌ای از ویژگی‌های نامربوط مانند زیر را حذف کنید:

در کد خود، «feature1»، «feature2» و «feature3» را با نام واقعی ویژگی‌های نامربوطی که می‌خواهید حذف کنید، جایگزین کنید.

این مرحله با حذف اطلاعات غیر ضروری، مجموعه داده را ساده می کند، که می تواند عملکرد و تفسیرپذیری مدل را بهبود بخشد.

3. از ماتریس همبستگی برای شناسایی ویژگی های اضافی استفاده کنید

گاهی اوقات شما ویژگی هایی خواهید داشت که به شدت مرتبط هستند. یک ماتریس همبستگی ضرایب همبستگی بین جفت ویژگی را نشان می دهد.

ویژگی های بسیار همبسته اغلب می توانند اضافی باشند و اطلاعات مشابهی را به مدل ارائه دهند. در چنین مواردی، می‌توانید یکی از ویژگی‌های مرتبط را حذف کنید.

در اینجا کد شناسایی جفت ویژگی های بسیار همبسته در مجموعه داده آمده است:

اساساً، هدف کد بالا شناسایی جفت‌هایی از ویژگی‌های با همبستگی بالا – آنهایی که دارای مقدار همبستگی مطلق بیشتر از 0.8 هستند – به استثنای خود همبستگی‌ها است. این جفت‌های ویژگی بسیار مرتبط برای تجزیه و تحلیل بیشتر در فهرستی ذخیره می‌شوند. سپس می‌توانید ویژگی‌هایی را که می‌خواهید برای مراحل بعدی حفظ کنید، مرور و انتخاب کنید.

4. از آزمون های آماری استفاده کنید

می توانید از آزمون های آماری برای کمک به تعیین اهمیت ویژگی ها نسبت به متغیر هدف استفاده کنید. و برای انجام این کار، می توانید از قابلیت های scikit-learn استفاده کنید feature_selection ماژول

قطعه زیر از آزمون کای دو برای ارزیابی اهمیت هر ویژگی نسبت به متغیر هدف استفاده می کند. و KBest را انتخاب کنید این روش برای انتخاب ویژگی های برتر با بالاترین امتیاز استفاده می شود.

انجام این کار مجموعه ویژگی را به مرتبط ترین متغیرها کاهش می دهد که می تواند عملکرد مدل را به طور قابل توجهی بهبود بخشد.

5. از حذف ویژگی بازگشتی (RFE) استفاده کنید

حذف ویژگی بازگشتی (RFE) یک تکنیک انتخاب ویژگی است که به صورت بازگشتی کم اهمیت ترین ویژگی ها را حذف می کند و مدل را با ویژگی های باقی مانده می سازد. این کار تا رسیدن به تعداد مشخص شده از ویژگی ها ادامه می یابد.

در اینجا نحوه استفاده از RFE برای یافتن پنج ویژگی مرتبط هنگام ساخت یک مدل رگرسیون لجستیک آورده شده است.

بنابراین، می‌توانید از RFE برای انتخاب مهم‌ترین ویژگی‌ها با حذف بازگشتی کم‌اهمیت‌ها استفاده کنید.

بسته بندی

انتخاب ویژگی موثر در ساخت مدل‌های یادگیری ماشینی قوی مهم است. برای جمع‌بندی: باید داده‌های خود را درک کنید، ویژگی‌های نامربوط را حذف کنید، ویژگی‌های اضافی را با استفاده از همبستگی شناسایی کنید، آزمایش‌های آماری را اعمال کنید و در صورت نیاز از حذف ویژگی‌های بازگشتی (RFE) برای عملکرد مدل خود استفاده کنید.

انتخاب ویژگی مبارک! و اگر به دنبال نکاتی در مورد مهندسی ویژگی هستید، بخوانید نکاتی برای مهندسی ویژگی موثر در یادگیری ماشین.

بالا پریا سیبالا پریا سی

درباره بالا پریا سی

Bala Priya C یک توسعه دهنده و نویسنده فنی از هند است. او دوست دارد در تقاطع ریاضی، برنامه نویسی، علم داده و تولید محتوا کار کند. زمینه های مورد علاقه و تخصص او شامل DevOps، علم داده و پردازش زبان طبیعی است. او از خواندن، نوشتن، کدنویسی و قهوه لذت می برد! در حال حاضر، او در حال کار بر روی یادگیری و به اشتراک گذاری دانش خود با جامعه توسعه دهندگان با نوشتن آموزش ها، راهنماهای نحوه انجام، نظرات و موارد دیگر است. Bala همچنین مروری بر منابع جذاب و آموزش های کدنویسی ایجاد می کند.



منبع: machinelearningmastery.com

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *