تشخیص بیرونی برای علم داده: تکنیک ها و ابزارهای عملی توضیح داده شده است


نویسنده(های): سورادیپ پال

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

تصور کنید که به یک بزرگ نگاه می کنید مجموعه داده پر از خرید مشتری ناگهان متوجه خریدی می شوید که 10 برابر میانگین ارزش است! نادیده گرفتن این وسوسه انگیز است، اما این عدد فرد می تواند یک اشتباه در ورود داده باشد یا نشان دهنده یک رویداد منحصر به فرد باشد. این ناهنجاری همان چیزی است که ما آن را دورافتاده می نامیم – نقطه داده ای که با الگوی عمومی مطابقت ندارد.

موارد پرت می توانند تحلیل ها را تحریف کنند، روندها را در جهت اشتباه بکشانند و به نتیجه گیری های نادرست منجر شوند. اما نکته اینجاست: پرت ها همچنین می توانند بینش های ارزشمندی مانند کشف تقلب یا شناسایی روندهای پنهان ارائه دهند. در این وبلاگ، روش‌های مختلف برای شناسایی موارد دور از دسترس، درک زمان نگهداری یا حذف آن‌ها و پوشش تکنیک‌های درمان موثر آنها را بررسی خواهیم کرد.

تشخیص بیرونی توضیح داده شده است

قبل از اینکه به موضوع اصلی تشخیص نقاط پرت بپردازیم، بیایید انواع را تجزیه کنیم:

اینها زمانی رخ می دهند که شما با یک متغیر سر و کار دارید. به عنوان مثال، اگر قد بازیکنان بسکتبال را تجزیه و تحلیل می کنید و یک بازیکن به طور قابل توجهی از بقیه بلندتر است، این یک عدد پرت تک متغیره است.

در مثال زیر، از امتیازهای Z برای تشخیص نقاط پرت در یک متغیر تک استفاده می‌کنیم مجموعه داده. امتیاز Z نشان می دهد که یک نقطه داده از میانگین چند انحراف استاندارد دارد.

وارد کردن numpy به عنوان… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/outlier-detection-for-data-science-practical-techniques-and-tools-explained