نویسنده(های): جوزف رابینسون، Ph.D.
در ابتدا منتشر شد به سمت هوش مصنوعی.
راهنمای جامع علم داده برای پیش پردازش برای موفقیت: از داده های گم شده تا نامتعادل مجموعه داده ها
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
تقریباً در هر سازمانی، وضعیت کیفیت اطلاعات در همان سطح پایین است
– اولسون، کیفیت داده
در یادگیری ماشینی، مسیر از داده های خام به یک مدل به خوبی تنظیم شده با تکنیک های پیش پردازش هموار شده است که راه موفقیت را تعیین می کند. دانشمندان داده و مهندسان یادگیری ماشین زمان قابل توجهی را صرف آماده سازی داده ها می کنند، زیرا داده های تمیز، با ساختار و مهندسی شده منجر به عملکرد و بینش بهتر مدل می شود.
همه ما آن را شنیده ایم:
زباله داخل، زباله بیرون!
این وبلاگ به بررسی پنج تکنیک مهم پیشپردازش میپردازد که هر دانشمند داده باید بر آنها مسلط باشد: مدیریت دادههای از دست رفته، مقیاسبندی و عادیسازی، رمزگذاری دادههای طبقهبندی، مهندسی ویژگیها، و برخورد با دادههای نامتعادل. هر موضوعی برای تبدیل مجموعه دادههای آشفته و واقعی به چیزی که الگوریتمهای یادگیری ماشین شما واقعاً میتوانند از آن بیاموزند، حیاتی است.
این راهنمای جامع همه چیزهایی را که باید در مورد پیش پردازش داده ها بدانید، اعم از تمیز کردن مجموعه داده، مقیاس بندی ویژگی های شما، رمزگذاری متغیرهای طبقه بندی یا مبارزه با عدم تعادل، پوشش می دهد. وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی