مدیریت متغیرهای مختلط در مهندسی ویژگی: راهنمای عملی با کد


نویسنده(ها): سورادیپ پال

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

دختری که به صفحه‌ای حاوی متغیرهای مختلط نگاه می‌کند. منبع: تصویر تولید شده توسط Dall-E

تصور کنید که روی یک پروژه داده کاملاً جدید کار می کنید، نوعی که دستان شما را از هیجان تکان می دهد. همه چیز عالی به نظر می رسد، و سپس به یک مانع برخورد می کنید: متغیرهای مخلوط. بله، آن ویژگی های عجیب و غریب که هم شامل اعداد و هم کاراکتر است. چه سلولی با چیزی شبیه “A1” باشد یا ستونی که سرسختانه هم رشته ها و هم اعداد صحیح را در خود نگه می دارد، متغیرهای مختلط می توانند یک سردرد واقعی باشند.

اما نگران نباشید! در این وبلاگ، ما به دو سناریو معمولی که ممکن است هنگام برخورد با داده های مختلط با آنها مواجه شوید، می پردازیم و نحوه رفع آنها را با مثال های کد عملی توضیح می دهیم. آماده است؟ بیایید شروع کنیم!

این را تصویر کنید: شما در حال تجزیه و تحلیل یک مجموعه داده برای یک فروشگاه خرده فروشی یکی از ستون ها حاوی کدهای سهام است – مانند “A1″، “B3” و “C7”. این کدها فقط تصادفی نیستند. آنها حاوی اطلاعات ارزشمندی هستند، مانند نوع محصول (“A”، “B”، “C”) و یک شماره نسخه (1، 3، 7). اما از آنجایی که آنها در یک سلول با هم فشرده شده‌اند، مدل یادگیری ماشینی شما احتمالاً اگر مستقیماً از آنها استفاده کنید، مناسب خواهد بود. چه باید کرد؟

شما باید این ارزش ها را به معنی دار آنها تقسیم کنید… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/handling-mixed-variables-in-feature-engineering-a-practical-guide-with-code

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *