تکنیک‌های تشخیص ناهنجاری در مجموعه داده‌های مقیاس بزرگ


تکنیک‌های تشخیص ناهنجاری در مجموعه داده‌های مقیاس بزرگتکنیک‌های تشخیص ناهنجاری در مجموعه داده‌های مقیاس بزرگ

تکنیک‌های تشخیص ناهنجاری در مجموعه داده‌های مقیاس بزرگ
تصویر توسط ویرایشگر | میانه سفر

تشخیص ناهنجاری به معنای یافتن الگوهایی در داده ها است که با نرمال متفاوت است. این الگوهای غیرمعمول، ناهنجاری یا پرت نامیده می شوند. در مجموعه داده های بزرگ، یافتن ناهنجاری ها سخت تر است. داده ها بزرگ هستند و الگوها می توانند پیچیده باشند. روش‌های معمولی ممکن است خوب کار نکنند زیرا داده‌های زیادی برای بررسی وجود دارد. برای یافتن سریع و آسان این الگوهای نادر به تکنیک های خاصی نیاز است. این روش ها در بسیاری از زمینه ها مانند بانکداری، مراقبت های بهداشتی و امنیت کمک می کنند.

بیایید نگاهی مختصر به تکنیک‌های تشخیص ناهنجاری برای استفاده در مجموعه داده‌های مقیاس بزرگ داشته باشیم. این بدون زواید خواهد بود، و مستقیماً به این نکته توجه کنید تا بتوانید مواد اضافی را در جایی که مناسب می دانید دنبال کنید.

انواع ناهنجاری ها

ناهنجاری ها را می توان بر اساس ماهیت و زمینه آنها به انواع مختلفی طبقه بندی کرد.

  • ناهنجاری های نقطه ای: یک نقطه داده واحد که با نقاط دیگر متفاوت است. به عنوان مثال، افزایش ناگهانی دما در طول یک روز عادی. اینها اغلب ساده ترین نوع برای شناسایی هستند.
  • ناهنجاری های متنی: نقطه داده ای که طبیعی به نظر می رسد اما در یک موقعیت خاص غیرعادی است. برای مثال، دمای بالا ممکن است در تابستان طبیعی باشد اما در زمستان غیرعادی باشد. ناهنجاری های متنی با در نظر گرفتن شرایط خاصی که در آن داده ها رخ می دهد، شناسایی می شوند.
  • ناهنجاری های جمعی: گروهی از نقاط داده که با هم یک الگوی غیر معمول را تشکیل می دهند. برای مثال، چندین تراکنش غیرمنتظره که نزدیک به هم اتفاق می‌افتند، ممکن است نشانه تقلب باشد. این ناهنجاری ها با مشاهده الگوها در گروه های داده شناسایی می شوند.

اندازه گیری های آماری

معیارهای آماری با تجزیه و تحلیل توزیع داده ها و انحراف از مقادیر مورد انتظار، ناهنجاری ها را تشخیص می دهند.

تجزیه و تحلیل امتیاز Z

تجزیه و تحلیل Z-Score به یافتن نقاط داده یا ناهنجاری های غیرعادی کمک می کند. فاصله یک نقطه از میانگین داده ها را اندازه می گیرد. برای پیدا کردن Z-Score، نقطه داده را بگیرید و میانگین را از آن کم کنید. سپس آن عدد را بر انحراف معیار تقسیم کنید. تجزیه و تحلیل Z-Score با داده های توزیع شده معمولی بهترین کار را دارد.

تست گرابز

آزمون گرابس برای شناسایی نقاط پرت در یک مجموعه داده استفاده می شود. بر روی شدیدترین نقاط داده، اعم از بالا یا پایین، تمرکز می کند. آزمون این مقدار شدید را با بقیه داده ها مقایسه می کند. برای انجام تست گرابز، ابتدا Z-Score را برای نقطه افراطی محاسبه می کنید. سپس، بررسی می کنید که آیا این Z-Score از یک آستانه خاص بالاتر است یا خیر. اگر چنین باشد، نقطه به عنوان نقطه پرت علامت گذاری می شود.

تست Chi-Square

تست Chi-Square به یافتن ناهنجاری ها در داده های طبقه بندی شده کمک می کند. آنچه را که در داده های خود مشاهده می کنید با آنچه انتظار دارید ببینید مقایسه می کند. برای انجام تست ابتدا فرکانس های هر دسته را می شمارید. سپس، فرکانس های مورد انتظار را بر اساس یک فرضیه محاسبه می کنید. این تست برای تشخیص الگوهای غیر معمول در داده های طبقه بندی شده مفید است.

تکنیک های یادگیری ماشین

روش‌های یادگیری ماشینی می‌توانند با یادگیری الگوهای داده‌ها به شناسایی ناهنجاری‌ها کمک کنند.

جنگل انزوا

این روش با انتخاب تصادفی ویژگی ها و تقسیم مقادیر در داده ها، ناهنجاری ها را جدا می کند. درخت های تصادفی زیادی ایجاد می کند که هر کدام نقاط را به روش های مختلفی جدا می کنند. نقاطی که به سرعت در شکاف های کمتری جدا می شوند، احتمالاً ناهنجاری هستند. این روش برای مجموعه داده های بزرگ کارآمد است. از نیاز به مقایسه مستقیم هر نقطه داده جلوگیری می کند.

SVM یک کلاس

این تکنیک با یادگیری یک مرز در اطراف نقاط داده معمولی کار می کند. سعی می‌کند ابر صفحه‌ای را پیدا کند که داده‌های عادی را از نقاط پرت جدا کند. هر چیزی که خارج از این مرز باشد به عنوان یک ناهنجاری علامت گذاری می شود. این تکنیک به ویژه زمانی مفید است که ناهنجاری ها در مقایسه با داده های عادی نادر باشند.

روش‌های مبتنی بر مجاورت

روش‌های مبتنی بر مجاورت، ناهنجاری‌ها را بر اساس فاصله آنها از سایر نقاط داده پیدا می‌کنند:

k-نزدیک‌ترین همسایه‌ها (k-NN)

روش k-Nearest Neighbors به ​​شناسایی ناهنجاری ها بر اساس فاصله کمک می کند. به فواصل بین یک نقطه داده و k نزدیکترین همسایه آن نگاه می کند. اگر یک نقطه داده از همسایگان خود دور باشد، یک ناهنجاری در نظر گرفته می شود. این روش ساده و قابل درک است. با این حال، می‌تواند با مجموعه داده‌های بزرگ کند شود، زیرا باید فاصله‌ها را برای بسیاری از نقاط محاسبه کند.

عامل دورافتاده محلی (LOF)

LOF میزان جداسازی یک نقطه داده را نسبت به همسایگانش اندازه می‌گیرد. چگالی یک نقطه داده را با چگالی همسایگان آن مقایسه می کند. نقاطی که چگالی بسیار کمتری نسبت به همسایگان خود دارند به عنوان ناهنجاری علامت گذاری می شوند. LOF در تشخیص ناهنجاری هایی که در مناطق محلی داده ها رخ می دهد موثر است.

روش های یادگیری عمیق

روش های یادگیری عمیق برای مجموعه داده های پیچیده مفید هستند:

رمزگذارهای خودکار

آنها نوعی شبکه عصبی هستند که برای تشخیص ناهنجاری با یادگیری فشرده سازی و بازسازی داده ها استفاده می شوند. شبکه یاد می گیرد که داده ها را به شکلی با ابعاد پایین تر رمزگذاری کند. سپس، می تواند آن را به اندازه اصلی تغییر دهد. ناهنجاری ها با میزان ضعیفی که داده ها با این بازسازی مطابقت دارند شناسایی می شوند. اگر خطای بازسازی زیاد باشد، نقطه داده یک ناهنجاری در نظر گرفته می شود.

شبکه های متخاصم مولد (GAN)

GAN ها از یک مولد و یک تفکیک کننده تشکیل شده اند. مولد داده های مصنوعی ایجاد می کند و تشخیص دهنده بررسی می کند که آیا داده ها واقعی هستند یا جعلی. ناهنجاری ها با میزان خوبی که مولد می تواند داده هایی مشابه داده های واقعی تولید کند، شناسایی می شوند. اگر مولد برای ایجاد داده های واقعی تلاش کند، نشان دهنده ناهنجاری است.

شبکه های عصبی مکرر (RNN)

RNN ها برای تجزیه و تحلیل داده های سری زمانی و تشخیص ناهنجاری ها در طول زمان استفاده می شوند. RNN ها الگوها و وابستگی ها را در داده های متوالی یاد می گیرند. آنها می توانند با شناسایی انحرافات قابل توجه از الگوهای مورد انتظار، ناهنجاری ها را مشخص کنند. این روش برای مجموعه داده هایی که نقاط داده مرتب شده و دارای روابط زمانی هستند مفید است.

کاربردهای تشخیص ناهنجاری

تشخیص ناهنجاری به طور گسترده در حوزه های مختلف برای شناسایی الگوهای غیر معمول استفاده می شود. برخی از کاربردهای رایج عبارتند از:

  • تشخیص تقلب: در بانکداری و مالی، تشخیص ناهنجاری ها به شناسایی فعالیت های متقلبانه کمک می کند. برای مثال، تراکنش‌های غیرمعمول روی کارت اعتباری می‌تواند به عنوان تقلب بالقوه علامت‌گذاری شود. او به جلوگیری از ضررهای مالی و محافظت از حساب ها کمک می کند.
  • امنیت شبکه: تشخیص ناهنجاری به یافتن فعالیت های عجیب در ترافیک شبکه کمک می کند. به عنوان مثال، اگر یک شبکه داده های بسیار بیشتری از حد معمول دریافت کند، ممکن است به این معنی باشد که یک حمله سایبری در حال وقوع است. شناسایی این ناهنجاری ها به جلوگیری از نقض امنیت کمک می کند.
  • تولید: در تولید، تشخیص ناهنجاری می تواند عیوب محصولات را شناسایی کند. به عنوان مثال، اگر ماشینی شروع به تولید اقلام خارج از مشخصات معمولی کند، می تواند علامت نقص باشد. تشخیص زودهنگام به حفظ کیفیت محصول و کاهش ضایعات کمک می کند.
  • مراقبت های بهداشتی: تشخیص ناهنجاری برای یافتن الگوهای غیرعادی در داده های پزشکی استفاده می شود. برای مثال، تغییرات ناگهانی در شرایط حیاتی بیمار ممکن است نشان دهنده یک مشکل پزشکی باشد. این به پزشکان کمک می کند تا به مشکلات سلامتی بالقوه سریع پاسخ دهند.

بهترین روش ها برای پیاده سازی تشخیص ناهنجاری

در اینجا چند نکته برای استفاده از تشخیص ناهنجاری آورده شده است:

  1. اطلاعات خود را درک کنید: قبل از شروع، داده های خود را به خوبی درک کنید. الگوها و رفتار عادی آن را بیاموزید. این به شما کمک می کند تا راه های مناسب برای یافتن ناهنجاری ها را انتخاب کنید.
  2. روش مناسب را انتخاب کنید: روش های مختلف برای انواع داده های مختلف بهتر عمل می کنند. از روش های آماری ساده برای داده های پایه و یادگیری عمیق برای داده های پیچیده استفاده کنید. آنچه را که با داده های شما بیشتر مطابقت دارد انتخاب کنید.
  3. داده های خود را پاک کنید: قبل از تجزیه و تحلیل داده های خود مطمئن شوید که آن ها تمیز هستند. نویز و اطلاعات نامربوط را حذف کنید. تمیز کردن به بهبود میزان تشخیص ناهنجاری ها کمک می کند.
  4. تنظیم پارامترها: بسیاری از تکنیک ها تنظیماتی دارند که نیاز به تنظیم دارند. این تنظیمات را برای مطابقت با داده ها و اهداف خود تغییر دهید. تنظیم دقیق به شما کمک می کند تا ناهنجاری ها را با دقت بیشتری تشخیص دهید.
  5. به طور منظم نظارت و به روز رسانی کنید: به طور منظم بررسی کنید که سیستم تشخیص ناهنجاری شما چقدر خوب کار می کند. در صورت نیاز آن را به روز کنید تا از تغییرات داده ها مطلع شوید. بررسی‌های مداوم مطمئن می‌شود که اثربخش باقی می‌ماند.

نتیجه گیری

در نتیجه، تشخیص ناهنجاری برای یافتن الگوهای غیر معمول در مجموعه داده‌های بزرگ مهم است. در بسیاری از زمینه ها مانند امور مالی، مراقبت های بهداشتی و امنیت مفید است. روش های مختلفی برای تشخیص ناهنجاری ها وجود دارد، از جمله روش های آماری، یادگیری ماشینی و یادگیری عمیق. هر روش نقاط قوت خود را دارد و با انواع مختلف داده ها به خوبی کار می کند.



منبع: machinelearningmastery.com

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *