5 معیار رگرسیون که مهم هستند: آماده سازی مصاحبه ML در لحظه آخر


نویسنده(های): Raghu Teja Manchala

در ابتدا منتشر شد به سمت هوش مصنوعی.

کوتاه و مختصر: معیارهای رگرسیون مورد درخواست در مصاحبه ها.

منبع: تصویر توسط سام نگوین در آوادا

در چند سال گذشته، من مصاحبه‌های متعددی داشته‌ام، از سناریو گرفته تا دور فنی. وقتی صحبت از آن می شود یادگیری ماشینی در مدل‌های رگرسیون، مصاحبه‌کنندگان معمولاً بر پنج معیار عملکرد کلیدی تمرکز می‌کنند که بیشتر توسط دانشمندان داده در زمان واقعی استفاده می‌شود.

در این مقاله، من هر یک از این معیارهای کلیدی را به صورت مختصر و مختصر، با استفاده از مثال‌های واقعی برای درک آسان آنها توضیح داده‌ام. این به شما کمک می کند این مفاهیم را در سناریوهای دنیای واقعی به کار ببرید و به سوالات مصاحبه به طور دقیق پاسخ دهید و انتظارات مصاحبه کننده را برآورده کنید.

مقدمه

معیارهای عملکرد مدل جزء حیاتی هستند یادگیری ماشینی چرخه زندگی که پس از آموزش مدل می آید.

  • ارزیابی عملکرد مدل
  • اندازه گیری دقت مدل بر روی داده های جدید و دیده نشده پیش بینی می کند.
  • بینشی در مورد نقاط قوت و ضعف مدل ارائه دهید.
  • به مقایسه مدل های مختلف برای انتخاب بهترین کمک کنید.
منبع: تصویر نویسنده

معیارهای رگرسیون

1. میانگین مربعات خطا (MSE):

میانگین مجذور اختلاف بین مقادیر پیش بینی شده و واقعی.

  • میزان انحراف پیش‌بینی‌های مدل از مقادیر واقعی را اندازه‌گیری می‌کند.
منبع: تصویر نویسنده

👉 برای جریمه کردن بیشتر خطاهای بزرگ مفید است.
👉 MSE کوچکتر = پیش بینی های بهتر.

مثال: پیش بینی قیمت سهام

2. ریشه میانگین مربعات خطا (RMSE):

جذر میانگین مجذور اختلاف بین مقادیر پیش بینی شده و واقعی.

  • میزان انحراف پیش‌بینی‌های مدل از مقادیر واقعی را اندازه‌گیری می‌کند که در واحدهای مشابه متغیر هدف بیان می‌شوند.
منبع: تصویر نویسنده

👉 برای ارزیابی عملکرد مدل در همان واحدهای هدف مفید است.
👉 RMSE کوچکتر = پیش بینی های بهتر.
👉 تفسیر و توضیح آسان.

مثال: پیش بینی ارتفاع گیاه
اگر RMSE 3 سانتی متر باشد، به این معنی است که میانگین اختلاف بین ارتفاع پیش بینی شده و واقعی گیاه حدود 3 سانتی متر است.

3. میانگین خطای مطلق (MAE):

میانگین تفاوت مطلق بین مقادیر پیش بینی شده و واقعی.

  • بدون در نظر گرفتن مثبت یا منفی بودن خطاها، میزان انحراف پیش‌بینی‌های مدل از مقادیر واقعی را اندازه‌گیری می‌کند.
منبع: تصویر نویسنده

👉 برای تعیین میانگین خطا در واحدهای مشابه متغیر هدف مفید است.
👈 حساسیت کمتری نسبت به موارد پرت.
👉 MAE کوچکتر = پیش بینی های بهتر.

مثال: پیش بینی قیمت مسکن

4. امتیاز مربع R (R2):

همچنین به آن “ضریب تعیین” می گویند که نسبت واریانس یا اطلاعات را در متغیر هدف اندازه گیری می کند که می تواند توسط مدل توضیح داده شود.

  • این نشان می دهد که چقدر پیش بینی های مدل با داده های واقعی مطابقت دارد.
منبع: تصویر نویسنده

👉 عملکرد کلی مدل را با مقادیری از 0 تا 1 ارزیابی می کند.
👉 R2 بالاتر = پیش بینی های بهتر.

مثال: پیش بینی قیمت مسکن
هنگام پیش‌بینی قیمت مسکن، اگر امتیاز R2 0.85 باشد، به این معنی است که مدل 85 درصد از واریانس یا اطلاعات قیمت مسکن را توضیح می‌دهد.

مشکل R2:
👉 این را در نظر نمی گیرد همبستگی بین ویژگی های وابسته (هدف) و مستقل (ورودی).
👉 افزودن ویژگی‌های ورودی بیشتر به‌طور کورکورانه مقدار R2 را افزایش می‌دهد و باعث می‌شود که مدل بهتر از آنچه که واقعاً انجام می‌دهد به نظر برسد.
👉 مدل رگرسیون سعی می کند ضرایب را به گونه ای اختصاص دهد که مجموع مجذور باقیمانده ها (ss_res) همیشه کاهش یابد.

5. امتیاز R-Squared Adjusted (R2 تنظیم شده):

  • این یک نسخه اصلاح شده از امتیاز R2 است که تعداد ویژگی های ورودی مورد استفاده برای پیش بینی متغیر هدف را در نظر می گیرد.
  • این کمک می کند تا مشخص شود که آیا افزودن ویژگی های ورودی جدید به مدل واقعاً تناسب آن را بهبود می بخشد یا خیر.
منبع: تصویر نویسنده

→ R2: امتیاز R-Squared تعیین شده توسط مدل.
→ N: تعداد کل نقاط داده.
→ P: تعداد ویژگی های ورودی.

👉 مدل را برای افزودن ویژگی هایی که با متغیر هدف مرتبط نیستند جریمه می کند.
👉 R2 با تنظیم بالاتر = پیش بینی های بهتر.

منبع: تصویر نویسنده

مثال: پیش بینی قیمت مسکن

توجه: اگر اضافه کردن یک ویژگی جدید باعث افزایش Adjusted R2 شود، به این معنی است که این ویژگی مدل را بهبود می بخشد در غیر این صورت ویژگی ارزش زیادی اضافه نمی کند (یک ویژگی غیر ضروری).

نتیجه گیری:

پنج معیار رگرسیون که در بالا مورد بحث قرار گرفت، از رایج‌ترین مواردی هستند که در برنامه‌های کاربردی دنیای واقعی استفاده می‌شوند. درک این معیارها و انتخاب موارد مناسب بر اساس مشکل خاص کسب و کار و ویژگی های داده برای ارزیابی موثر مدل های رگرسیون بسیار مهم است.

برای یک دانشمند داده، این معیارها بخش مهمی از مدل‌های ساختمانی هستند و اغلب در کارهای روزانه ظاهر می‌شوند. در نتیجه، آنها معمولاً در مصاحبه ها مورد بحث قرار می گیرند.

ممنون که خواندید. امیدوارم این به آماده سازی مصاحبه شما کمک کند شغل نقش هر گونه سوال یا بازخوردی را در نظر بگیرید.

اگر مقاله را دوست دارید و می خواهید از من حمایت کنید، مطمئن شوید:

📰 دنبالم کن و مطالب بیشتری را در من کاوش کنید پروفایل متوسط

👏 50 کف زدن بدهید تا این داستان به مخاطبان بیشتری برسد.

🔔 با من در ارتباط باشید لینکدین

با آرزوی یک سفر آموزشی شاد و موفق! 🤝 بیایید با هم رشد کنیم!

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/the-5-regression-metrics-that-matter-last-minute-ml-interview-prep-3