رمزگذاری داده های طبقه بندی شده: راهنمای گام به گام


نویسنده(ها): سورادیپ پال

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

تصور کنید در حال پختن یک کیک هستید، اما به جای شکر، آرد و تخم مرغ، کلماتی مانند “وانیل”، “شکلات” و “توت فرنگی” روی میز خود دارید. هر چقدر که می خواهید شروع کنید، یک مشکل وجود دارد – دستور غذای شما فقط می تواند از اندازه گیری های عددی پیروی کند، نه کلمات. این دقیقاً همان چیزی است که شما سعی می کنید داده های طبقه بندی شده را به یک مدل یادگیری ماشینی وارد کنید. مدل برای کار جادوی خود به اعداد نیاز دارد، نه رشته های متن.

تصویر تولید شده توسط Dall-E

در این آموزش عملی، ما راز رمزگذاری داده های طبقه بندی شده را کشف می کنیم تا مدل های شما بتوانند به راحتی آن را پردازش کنند. ما انواع داده‌های طبقه‌بندی را تجزیه می‌کنیم، درباره زمان و چرایی استفاده از هر روش کدگذاری بحث می‌کنیم، و به نمونه‌های کد پایتون می‌پردازیم که دقیقاً نحوه دریافت آن را نشان می‌دهد. شغل انجام شد.

قبل از اینکه تبدیل داده ها را شروع کنیم، اجازه دهید تعاریف خود را مستقیم بیان کنیم. در دنیای داده ها، شما به طور کلی دو نوع دارید: عددی و دسته بندی. یادگیری ماشینی مدل ها به راحتی می توانند اعداد را درک کنند – جای تعجب نیست! اما وقتی صحبت از کلمات یا برچسب‌ها می‌شود، باید آن‌ها را به اعداد تبدیل کنیم تا به مدل‌هایمان در درک داده‌ها کمک کنیم.

داده های ترتیبی: داده های معمولی مانند لیست رتبه بندی مورد علاقه شما در Netflix هستند… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/encoding-categorical-data-a-step-by-step-guide