نویسنده(ها): سورادیپ پال
در ابتدا منتشر شد به سمت هوش مصنوعی.
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
تصور کنید در حال آماده شدن برای پختن یک کیک هستید، اما برخی از مواد روی هم انباشته شده اند و برخی دیگر به سختی قاشق را پر می کنند. بدون صاف کردن نسبت ها، کیک شما ممکن است به یک فاجعه تبدیل شود! این قیاس برای یادگیری ماشینی مدل ها هم اگر شما مجموعه داده مقیاس ها و توزیع های بسیار متفاوتی دارد، مانند مخلوط کردن مواد نامتعادل است – مدل شما عملکرد خوبی نخواهد داشت.
در علم داده، فرآیند هموارسازی این “مواد تشکیل دهنده” عادی سازی نامیده می شود. تبدیلهایی مانند Log، Reciprocal و Power Transforms که در مورد آنها بحث خواهیم کرد، به شما کمک میکنند مجموعه داده قابل کنترل تر، متعادل تر و آماده تر یادگیری ماشینی مدل هایی برای هضم
در این وبلاگ، ما بررسی خواهیم کرد که چرا تبدیلها ضروری هستند، چگونه بررسی کنیم که آیا دادههای شما عادی شدهاند، و در نهایت، چگونه تأثیر این تبدیلها را با کتابخانههای Python مانند QQPlot و distplot تجسم کنیم.
بنابراین، چرا در وهله اول به دردسر تغییر داده های خود بپردازید؟ پاسخ کوتاه: برای بهبود دقت و کارایی مدل های یادگیری ماشین شما. اما بیایید کمی عمیق تر کاوش کنیم.
در بسیاری از سناریوهای دنیای واقعی، داده ها به طور کامل توزیع نمی شوند. برای مثال، دادههای درآمد به شدت دارای انحراف راست هستند، به طوری که بسیاری از افراد مبالغ متوسطی دریافت میکنند و تعداد کمی… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی