5 تکنیک اساسی یادگیری ماشین برای تسلط بر پیش پردازش داده های شما


نویسنده(های): جوزف رابینسون، Ph.D.

در ابتدا منتشر شد به سمت هوش مصنوعی.

راهنمای جامع علم داده برای پیش پردازش برای موفقیت: از داده های گم شده تا نامتعادل مجموعه داده ها

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

تقریباً در هر سازمانی، وضعیت کیفیت اطلاعات در همان سطح پایین است

– اولسون، کیفیت داده

داده ها همه جا هست! علاوه بر این، در قلب بسیاری از مشکلات دنیای واقعی قرار دارد. به عنوان دانشمندان داده و یادگیری ماشینی مهندسان، ما بیشتر وقت خود را صرف کار با داده ها می کنیم. مهم این است که به آن مسلط باشیم! تصویر هدر توسط نویسنده ایجاد شده است.

در یادگیری ماشینی، مسیر از داده های خام به یک مدل به خوبی تنظیم شده با تکنیک های پیش پردازش هموار شده است که راه موفقیت را تعیین می کند. دانشمندان داده و مهندسان یادگیری ماشین زمان قابل توجهی را صرف آماده سازی داده ها می کنند، زیرا داده های تمیز، با ساختار و مهندسی شده منجر به عملکرد و بینش بهتر مدل می شود.

همه ما آن را شنیده ایم:

زباله داخل، زباله بیرون!

این وبلاگ به بررسی پنج تکنیک مهم پیش‌پردازش می‌پردازد که هر دانشمند داده باید بر آنها مسلط باشد: مدیریت داده‌های از دست رفته، مقیاس‌بندی و عادی‌سازی، رمزگذاری داده‌های طبقه‌بندی، مهندسی ویژگی‌ها، و برخورد با داده‌های نامتعادل. هر موضوعی برای تبدیل مجموعه داده‌های آشفته و واقعی به چیزی که الگوریتم‌های یادگیری ماشین شما واقعاً می‌توانند از آن بیاموزند، حیاتی است.

این راهنمای جامع همه چیزهایی را که باید در مورد پیش پردازش داده ها بدانید، اعم از تمیز کردن مجموعه داده، مقیاس بندی ویژگی های شما، رمزگذاری متغیرهای طبقه بندی یا مبارزه با عدم تعادل، پوشش می دهد. وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/5-essential-machine-learning-techniques-to-master-your-data-preprocessing