از ویژگی‌ها تا عملکرد: ساخت مدل‌های پیش‌بینی قوی

مهندسی ویژگی و آموزش مدل، هسته اصلی تبدیل داده های خام به قدرت پیش بینی، پل زدن اکتشاف اولیه و بینش نهایی را تشکیل می دهد. این راهنما به بررسی تکنیک هایی برای شناسایی متغیرهای مهم، ایجاد ویژگی های جدید و انتخاب الگوریتم های مناسب می پردازد. همچنین تکنیک‌های پیش‌پردازش ضروری مانند مدیریت داده‌های از دست رفته و رمزگذاری متغیرهای طبقه‌بندی را پوشش خواهیم داد. این رویکردها برای کاربردهای مختلف، از پیش‌بینی روندها تا طبقه‌بندی داده‌ها، اعمال می‌شوند. با تقویت این مهارت ها، پروژه های علم داده خود را بهبود می بخشید و بینش های ارزشمند را از داده های خود باز می کنید.

بیایید شروع کنیم.

از ویژگی‌ها تا عملکرد: ساخت مدل‌های پیش‌بینی قوی
عکس توسط وان سان ییپ. برخی از حقوق محفوظ است.

انتخاب ویژگی و مهندسی

انتخاب ویژگی و مهندسی مراحل حیاتی هستند که می توانند به طور قابل توجهی بر عملکرد مدل شما تأثیر بگذارند. این فرآیندها مجموعه داده شما را به با ارزش ترین اجزای پروژه شما اصلاح می کند.

شناسایی ویژگی های مهم: همه ویژگی های مجموعه داده شما به یک اندازه برای مدل شما مفید نیستند. تکنیک هایی مانند تجزیه و تحلیل همبستگی، اطلاعات متقابل و اهمیت ویژگی از مدل های مبتنی بر درخت می تواند به شناسایی مرتبط ترین ویژگی ها کمک کند. پست ما”استفاده استراتژیک از انتخابگر متوالی ویژگی برای پیش بینی قیمت مسکن” راهنمای نحوه شناسایی پیش بینی ترین ویژگی عددی از یک مجموعه داده را ارائه می دهد. همچنین نمونه‌ای از مهندسی ویژگی را نشان می‌دهد و اینکه چگونه ترکیب دو ویژگی می‌تواند گاهی به یک پیش‌بینی‌کننده منفرد بهتر منجر شود.
استفاده از طرز فکر نسبت سیگنال به نویز: روی ویژگی هایی تمرکز کنید که سیگنال پیش بینی قوی به شما می دهد و در عین حال نویز را به حداقل می رساند. بسیاری از ویژگی‌های نامربوط می‌تواند منجر به بیش از حد برازش شود، جایی که مدل شما در داده‌های آموزشی عملکرد خوبی دارد اما در داده‌های جدید و دیده نشده ضعیف عمل می‌کند. راهنمای ما در مورد “جستجوی نقطه شیرین در یک رگرسیون خطی” می تواند به شما کمک کند ترکیب کارآمدی از ویژگی هایی را پیدا کنید که سیگنال های پیش بینی قوی ارائه می دهند. بیشتر همیشه بهتر نیست زیرا معرفی ویژگی‌های نامربوط به مدل ممکن است مدل را گیج کند و بنابراین، مدل ممکن است قبل از اینکه بتواند تأیید کند که این ویژگی مفید نیست به داده‌های بیشتری نیاز دارد.
برخورد با چند خطی: هنگامی که ویژگی ها به شدت مرتبط هستند، می تواند برای برخی از مدل ها مشکل ایجاد کند. تکنیک هایی مانند VIF (ضریب تورم واریانس) می تواند به شناسایی و رسیدگی به چند خطی بودن کمک کند. برای اطلاعات بیشتر در این مورد، پست ما را ببینید “تشخیص و غلبه بر چند خطی کامل در مجموعه داده های بزرگ“.

آماده سازی داده ها برای آموزش مدل

قبل از آموزش مدل خود، باید داده های خود را به درستی آماده کنید:

مقیاس بندی و عادی سازی: بسیاری از مدل‌ها زمانی که ویژگی‌ها در مقیاس مشابه هستند، عملکرد بهتری دارند، زیرا این امر مانع از تأثیر نامتناسب متغیرهای خاص بر نتایج می‌شود. برای این منظور می توان از تکنیک هایی مانند StandardScaler یا MinMaxScaler استفاده کرد. ما این را به طور عمیق در “مقیاس‌پذیری تا موفقیت: پیاده‌سازی و بهینه‌سازی مدل‌های مجازات‌شده“.
وارد کردن داده های از دست رفته: اگر داده های از دست رفته دارید، باید تصمیم بگیرید که چگونه آن را مدیریت کنید. گزینه‌ها عبارتند از imputation (پر کردن مقادیر از دست رفته) یا استفاده از مدل‌هایی که می‌توانند مستقیماً داده‌های از دست رفته را مدیریت کنند. پست ما”پر کردن شکاف ها: راهنمای مقایسه ای برای تکنیک های انتساب در یادگیری ماشین” راهنمایی در مورد این موضوع ارائه می دهد.
مدیریت متغیرهای طبقه بندی شده: متغیرهای دسته‌بندی اغلب باید قبل از استفاده در بسیاری از مدل‌ها کدگذاری شوند. یکی از تکنیک‌های رایج رمزگذاری یک‌طرفه است که ما در این مقاله بررسی کردیم.One Hot Encoding: درک “Hot” در داده ها“. اگر دسته‌های ما ترتیب معنی‌داری دارند، می‌توانیم استفاده از رمزگذاری ترتیبی را نیز مطالعه کنیم، که در آن برجسته می‌کنیم. این پست.

انتخاب مدل خود

انتخاب مدل به نوع مشکل و ویژگی های داده شما بستگی دارد:

مبانی رگرسیون خطی: برای روابط ساده بین ویژگی ها و متغیرهای هدف، رگرسیون خطی می تواند نقطه شروع خوبی باشد.
تکنیک های رگرسیون پیشرفته: برای روابط پیچیده تر، می توانید رگرسیون چند جمله ای یا مدل های غیر خطی دیگر را در نظر بگیرید. ببینید “گرفتن منحنی ها: مدل سازی پیشرفته با رگرسیون چند جمله ای” برای جزئیات بیشتر
مدل های درختی: درختان تصمیم و انواع مجموعه آنها می توانند روابط و تعاملات غیرخطی پیچیده بین ویژگی ها را ثبت کنند. ما اینها را در “انشعاب: کاوش مدل های مبتنی بر درخت برای رگرسیون“.
روش های مجموعه: تکنیک های گروه اغلب با ترکیب چندین مدل عملکرد پیش بینی را افزایش می دهند. روش‌های کیسه‌زنی مانند جنگل‌های تصادفی می‌تواند ثبات را بهبود بخشد و بیش از حد برازش را کاهش دهد. “از تک درختان تا جنگل ها: افزایش پیش بینی املاک و مستغلات با گروه ها” پرش عملکرد بین یک درخت تصمیم ساده و Bagging را نشان می دهد. الگوریتم‌های تقویت، به ویژه Gradient Boosting، می‌توانند دقت را بیشتر کنند. پست ما”Boosting Over Bagging: افزایش دقت پیش بینی با رگرسیورهای تقویت کننده گرادیان” یکی از سناریوها را نشان می‌دهد که در آن تکنیک‌های تقویت بهتر از کیسه‌بندی عمل می‌کنند.

ارزیابی عملکرد مدل

هنگامی که مدل شما آموزش داده شد، ارزیابی دقیق عملکرد آن بسیار مهم است:

تقسیم‌بندی‌های تست قطار و اعتبارسنجی متقابل: برای ارزیابی صحیح مدل خود، باید آن را روی داده هایی که در طول آموزش ندیده است آزمایش کنید. این معمولاً از طریق تقسیم‌بندی آزمون قطار یا اعتبارسنجی متقابل انجام می‌شود. ما این را در “از Train-Test تا Cross Validation: پیشبرد ارزیابی مدل شما“. اعتبار سنجی متقاطع K-fold می تواند تخمین قوی تری از عملکرد مدل نسبت به یک تقسیم آزمایشی قطار ارائه دهد.
معیارهای کلیدی عملکرد: انتخاب معیارهای مناسب برای ارزیابی دقیق عملکرد مدل شما ضروری است. انتخاب معیارها بستگی به این دارد که آیا شما به یک مشکل رگرسیون یا طبقه بندی رسیدگی می کنید. برای مشکلات رگرسیون، معیارهای رایج عبارتند از میانگین مربعات خطا (MSE)، ریشه میانگین مربعات خطا (RMSE)، میانگین خطای مطلق (MAE) و مربع R (R²). برای مشکلات طبقه بندی، معیارهای پرکاربرد عبارتند از دقت، دقت، یادآوری، امتیاز F1 و AUC ROC.
منحنی های یادگیری: ترسیم امتیازهای آموزشی و اعتبار سنجی در برابر اندازه مجموعه آموزشی می تواند به تشخیص اضافه برازش یا عدم تناسب کمک کند. این منحنی ها نشان می دهند که چگونه عملکرد مدل با افزایش مقدار داده های آموزشی تغییر می کند. اگر امتیاز آموزش بسیار بالاتر از امتیاز اعتبار سنجی باشد، به خصوص با داده های بیشتر، نشان دهنده تطبیق بیش از حد است. برعکس، اگر هر دو امتیاز پایین و نزدیک به هم باشند، ممکن است نشان دهنده عدم تناسب باشد. منحنی های یادگیری به تشخیص اینکه آیا مدل شما بیش از حد مناسب است یا نه، یا از داده های بیشتری بهره می برد، کمک می کند.

نتیجه گیری

فرآیند انتخاب ویژگی، آماده سازی داده ها، آموزش مدل و ارزیابی هسته اصلی هر پروژه علم داده است. با دنبال کردن این مراحل و استفاده از تکنیک هایی که در مورد آنها بحث کردیم، به خوبی در راه ساختن مدل های موثر و روشنگری خواهید بود.

به یاد داشته باشید، سفر از ویژگی ها به عملکرد اغلب تکراری است. از مرور مجدد مراحل قبلی، اصلاح رویکرد خود و آزمایش تکنیک های مختلف در حین کار برای عملکرد بهینه مدل تردید نکنید. با تمرین و پشتکار، مهارت‌هایی را برای استخراج بینش معنی‌دار از مجموعه داده‌های پیچیده ایجاد می‌کنید و تصمیمات مبتنی بر داده را در طیف گسترده‌ای از برنامه‌ها هدایت می‌کنید.

با راهنمای مبتدیان برای علم داده شروع کنید!

طرز فکر موفقیت در پروژه های علم داده را بیاموزید

… با استفاده از حداقل ریاضی و آمار، مهارت خود را از طریق مثال های کوتاه در پایتون به دست آورید

در کتاب الکترونیکی جدید من نحوه انجام این کار را کشف کنید:
راهنمای مبتدیان برای علم داده

فراهم می کند آموزش های خودآموز با همه کد کار در پایتون تا شما را از یک تازه کار به یک متخصص تبدیل کند. به شما نشان می دهد که چگونه یافتن نقاط پرت، تایید نرمال بودن داده ها، یافتن ویژگی های مرتبط، کنترل چولگی، بررسی فرضیه هاو خیلی بیشتر…همه برای حمایت از شما در ایجاد یک روایت از یک مجموعه داده.

سفر علم داده خود را با تمرینات عملی شروع کنید

ببینید چه چیزی در داخل است

درباره وینود چوگانی

من در هند به دنیا آمدم و در ژاپن پرورش یافتم، من یک بچه فرهنگ سوم با دیدگاهی جهانی هستم. سفر آکادمیک من در دانشگاه دوک شامل رشته اقتصاد بود، با افتخار به فی بتا کاپا در سال سوم راه یافتم. در طول سال‌ها، تجربیات حرفه‌ای متنوعی به‌دست آوردم، یک دهه را صرف پیمایش در بخش پیچیده درآمد ثابت وال استریت کردم، و به دنبال آن یک سرمایه‌گذاری جهانی توزیع را در خیابان اصلی رهبری کردم. در حال حاضر، من اشتیاق خود به علم داده، یادگیری ماشین و هوش مصنوعی را به عنوان یک مربی در آکادمی علوم داده شهر نیویورک هدایت می کنم. من برای فرصتی برای برانگیختن کنجکاوی و به اشتراک گذاشتن دانش، چه از طریق جلسات آموزش زنده یا تعاملات عمیق یک به یک، ارزش قائل هستم. با پایه‌ای در امور مالی/کارآفرینی و غوطه‌ور شدن فعلی‌ام در حوزه داده، با احساس هدف و اطمینان به آینده نزدیک می‌شوم. من کاوش بیشتر، یادگیری مستمر، و فرصتی برای مشارکت معنادار در زمینه های همیشه در حال تحول علم داده و یادگیری ماشین، به ویژه در اینجا در MLM را پیش بینی می کنم.

منبع: machinelearningmastery.com