تفسیر و برقراری ارتباط نتایج علم داده


به عنوان دانشمندان داده، ما اغلب زمان و تلاش قابل توجهی را برای آماده سازی داده ها، توسعه مدل و بهینه سازی سرمایه گذاری می کنیم. با این حال، ارزش واقعی کار ما زمانی آشکار می شود که بتوانیم یافته های خود را به طور مؤثر تفسیر کنیم و آنها را به ذینفعان منتقل کنیم. این فرآیند نه تنها شامل درک جنبه‌های فنی مدل‌های ما می‌شود، بلکه شامل ترجمه تحلیل‌های پیچیده به روایت‌های واضح و تاثیرگذار نیز می‌شود.

این راهنما سه حوزه کلیدی زیر را در جریان کار علم داده بررسی می کند:

  1. درک خروجی مدل
  2. انجام آزمون های فرضیه
  3. ساختن روایت های داده

با توسعه مهارت‌ها در این زمینه‌ها، برای تبدیل تحلیل‌های پیچیده به بینش‌هایی که هم با مخاطبان فنی و هم برای مخاطبان غیرفنی طنین‌انداز می‌شود، مجهزتر خواهید شد.

بیایید شروع کنیم.

تفسیر و برقراری ارتباط نتایج علم داده
عکس توسط آندره آ سانچز. برخی از حقوق محفوظ است.

درک خروجی مدل

اولین قدم برای به دست آوردن بینش معنادار از پروژه خود این است که به طور کامل بفهمید مدل شما چه چیزی به شما می گوید. بسته به مدلی که اجرا می کنید، می توانید انواع مختلفی از اطلاعات را استخراج کنید.

تفسیر ضرایب در مدل های خطی

برای مدل های خطی، ضرایب بینش مستقیمی را در مورد رابطه بین ویژگی ها و متغیر هدف ارائه می دهند. پست ما”تفسیر ضرایب در مدل های رگرسیون خطی” این موضوع را به طور عمیق بررسی می کند، اما در اینجا چند نکته کلیدی وجود دارد:

  • تفسیر پایه: در یک رگرسیون خطی ساده، ضریب نشان دهنده تغییر متغیر هدف برای تغییر یک واحدی در ویژگی است. به عنوان مثال، در یک مدل پیش‌بینی قیمت خانه با استفاده از مجموعه داده مسکن ایمز، ضریب 110.52 برای ‘GrLivArea’ (منطقه مسکونی بالای زمین) به این معنی است که به طور متوسط، افزایش 1 فوت مربعی با افزایش 110.52 دلاری در پیش‌بینی‌شده مطابقت دارد. قیمت مسکن با فرض ثابت ماندن سایر عوامل.
  • جهت رابطه: علامت ضریب (مثبت یا منفی) نشان می دهد که آیا ویژگی با متغیر هدف رابطه مثبت یا منفی دارد.
  • متغیرهای طبقه بندی شده: برای ویژگی های طبقه بندی شده مانند “همسایگی”، ضرایب نسبت به یک دسته مرجع تفسیر می شوند. به عنوان مثال، اگر “MeadowV” محله مرجع باشد، ضرایب برای سایر محله ها نشان دهنده حق بیمه یا تخفیف قیمت در مقایسه با “MeadowV” است.

اهمیت ویژگی در مدل های مبتنی بر درخت

همانطور که در «کاوش در LightGBMاکثر روش‌های مبتنی بر درخت، از جمله جنگل‌های تصادفی، ماشین‌های تقویت گرادیان، و LightGBM، راهی برای محاسبه اهمیت ویژگی ارائه می‌دهند. این اندازه گیری نشان می دهد که هر ویژگی در ساخت درخت های تصمیم مدل چقدر مفید یا ارزشمند بوده است.

جنبه های کلیدی اهمیت ویژگی:

  1. محاسبه: معمولاً بر اساس میزان کمک هر ویژگی به کاهش ناخالصی در همه درختان.
  2. اهمیت نسبی: معمولاً برای مقایسه آسان به 1 یا 100٪ نرمال می شود. با عادی سازی اهمیت ویژگی، می‌توانیم به راحتی سهم ویژگی‌های مختلف را مقایسه کرده و آن‌هایی را که برای تصمیم‌گیری اهمیت دارند، اولویت‌بندی کنیم.
  3. تغییرات مدل: الگوریتم های مختلف ممکن است تغییرات جزئی در روش های محاسبه داشته باشند.
  4. تجسم: اغلب با استفاده از نمودارهای نواری یا نقشه های حرارتی ویژگی های برتر نمایش داده می شود.

در مثال LightGBM با مجموعه داده مسکن ایمز، “GrLivArea” و “LotArea” به عنوان مهمترین ویژگی ها ظاهر شدند که نقش اندازه ملک را در پیش بینی قیمت خانه برجسته می کنند. با انتقال مؤثر اهمیت ویژگی، بینش روشنی در مورد آنچه که پیش‌بینی‌های مدل شما را هدایت می‌کند، به سهامداران ارائه می‌دهید و قابلیت تفسیر و قابل اعتماد بودن را افزایش می‌دهد.

انجام آزمون های فرضیه

آزمون فرضیه یک روش آماری است که برای استنباط در مورد پارامترهای جمعیت بر اساس داده های نمونه استفاده می شود. در زمینه مجموعه داده مسکن ایمز، می‌تواند به ما کمک کند به سؤالاتی مانند «آیا وجود تهویه مطبوع تأثیر قابل‌توجهی بر قیمت خانه‌ها دارد؟» پاسخ دهیم.

اجزای کلیدی:

  1. فرضیه صفر (H0): فرض پیش‌فرض، اغلب بیانگر عدم تأثیر یا عدم تفاوت است.
  2. فرضیه جایگزین (H1): ادعایی که می خواهید با مدرک آن را تایید کنید.
  3. سطح اهمیت (α): آستانه برای تعیین معنی داری آماری، معمولاً 0.05 تعیین می شود.
  4. P-value: احتمال به دست آوردن نتایج حداقل به اندازه نتایج مشاهده شده، با فرض صحت فرضیه صفر.

برای استخراج اطلاعات معنی دار می توان از تکنیک های آماری مختلفی استفاده کرد:

  1. تست های تی: همانطور که در ” نشان داده شده استفرضیات تست در املاک و مستغلاتآزمون t می تواند تعیین کند که آیا ویژگی های خاص به طور قابل توجهی بر قیمت خانه تأثیر می گذارد یا خیر.
  2. فواصل اطمینان: برای تعیین کمیت عدم قطعیت در تخمین‌هایمان، می‌توانیم فواصل اطمینان را محاسبه کنیم که طیفی از مقادیر قابل قبول را ارائه می‌کند، مانند آنچه در “بینش استنباطی“.
  3. تست های مجذور کای: این تست‌ها می‌توانند روابط بین متغیرهای طبقه‌بندی را نشان دهند، مانند ارتباط بین کیفیت بیرونی خانه و وجود یک گاراژ، همانطور که در ” نشان داده شده است.گاراژ یا نه؟“.

با استفاده از این تکنیک‌های آزمون فرضیه و تفسیر نتایج، می‌توانید داده‌های خام و خروجی‌های مدل را به یک روایت قانع‌کننده تبدیل کنید. ترفند در اینجا این است که یافته های خود را در چارچوب وسیع تری از یافته های خود قرار دهید تا بتوان آنها را به بینش های عملی تبدیل کرد.

ساختن روایت های داده

در حالی که هیچ مدلی کامل نیست، ما راه هایی را برای استخراج اطلاعات معنادار از تجزیه و تحلیل خود از مجموعه داده مسکن ایمز نشان داده ایم. کلید علم داده تاثیرگذار نه تنها در خود تجزیه و تحلیل، بلکه در نحوه انتقال یافته های خود نهفته است. ایجاد یک روایت داده قانع کننده، نتایج آماری پیچیده را به بینش های عملی تبدیل می کند که با ذینفعان طنین انداز می شود.

چارچوب بندی یافته های خود

  1. با تصویر بزرگ شروع کنید: روایت خود را با تنظیم زمینه بازار مسکن ایمز آغاز کنید. به عنوان مثال: “تحلیل ما از مجموعه داده مسکن ایمز فاکتورهای کلیدی را نشان می دهد که قیمت خانه را در آیووا افزایش می دهد و بینش های ارزشمندی را برای صاحبان خانه، خریداران و متخصصان املاک ارائه می دهد.”
  2. اطلاعات کلیدی را برجسته کنید: مهمترین یافته های خود را از قبل ارائه دهید. به عنوان مثال: “ما تشخیص داده ایم که اندازه منطقه نشیمن، کیفیت کلی خانه و محله سه عامل اصلی تاثیرگذار بر قیمت خانه در ایمز هستند.”
  3. با داده ها داستان بگویید: یافته های آماری خود را در یک روایت منسجم ببافید. به عنوان مثال: «داستان قیمت خانه در ایمز در درجه اول داستان فضا و کیفیت است. مدل ما نشان می دهد که به ازای هر فوت مربع اضافی از منطقه زندگی، قیمت خانه به طور متوسط ​​110 دلار افزایش می یابد. در همین حال، خانه‌هایی که از نظر کیفیت کلی «عالی» هستند، در مقایسه با خانه‌هایی که به عنوان «عادلانه» رتبه‌بندی شده‌اند، بیش از 100000 دلار حق بیمه دارند.
  4. ایجاد تجسم داده های موثر: پست ما،آشکار شدن داستان های داده: از نگاه اول تا تجزیه و تحلیل عمیقمجموعه وسیعی از تصاویر را که می‌توان بر اساس داده‌هایی که در اختیار دارند از آنها استفاده کرد، ترسیم می‌کند. نوع نمودار مناسب را برای داده ها و پیام خود انتخاب کنید و مطمئن شوید که تفسیر واضح و آسان است.

نتایج شما باید یک داستان منسجم را بیان کند. با تصویر بزرگ شروع کنید، سپس به جزئیات بپردازید. ارائه خود را برای مخاطبان خود تنظیم کنید. برای مخاطبان فنی، روی روش‌شناسی و نتایج دقیق تمرکز کنید. برای مخاطبان غیر فنی، بر یافته های کلیدی و پیامدهای عملی آنها تأکید کنید.

نتیجه گیری پروژه و مراحل بعدی

همانطور که پروژه خود را به پایان می رسانید:

  1. در مورد بهبودهای بالقوه و کار آینده بحث کنید. چه سوالاتی بی پاسخ مانده است؟ چگونه می توان مدل شما را تقویت کرد؟
  2. به فرآیند علم داده و درس های آموخته شده فکر کنید. چی خوب شد؟ دفعه بعد چه کاری متفاوت انجام می دهید؟
  3. پیامدهای گسترده تری از یافته های خود را در نظر بگیرید. چگونه ممکن است بینش شما بر تصمیمات دنیای واقعی تأثیر بگذارد؟ آیا توصیه های خط مشی یا استراتژی های تجاری که از تحلیل شما بیرون می آید وجود دارد؟
  4. پس از ارائه یافته‌های خود، جمع‌آوری بازخورد از ذینفعان می‌تواند به اصلاح رویکرد شما و کشف مناطق اضافی برای اکتشاف کمک کند.

به یاد داشته باشید، علم داده اغلب یک فرآیند تکراری است. با به دست آوردن بینش های جدید، از مرور مجدد مراحل قبلی نترسید. این راهنما تکنیک هایی را در مورد مراحل حیاتی تفسیر نتایج و انتقال بینش به شما ارائه کرده است. با درک خروجی‌های مدل، انجام آزمون‌های فرضیه، و ایجاد روایت‌های داده قانع‌کننده، به خوبی مجهز می‌شوید تا پروژه‌های مختلفی را انجام دهید و نتایج معناداری ارائه دهید.

همانطور که به سفر علم داده خود ادامه می دهید، مهارت های خود را هم در تجزیه و تحلیل و هم در ارتباطات تقویت کنید. توانایی شما در استخراج بینش های معنادار و ارائه موثر آنها، شما را در این زمینه به سرعت در حال تحول متمایز می کند.

با راهنمای مبتدیان برای علم داده شروع کنید!

راهنمای مبتدیان برای علم دادهراهنمای مبتدیان برای علم داده

طرز فکر موفقیت در پروژه های علم داده را بیاموزید

… با استفاده از حداقل ریاضی و آمار، مهارت خود را از طریق مثال های کوتاه در پایتون به دست آورید

در کتاب الکترونیکی جدید من نحوه انجام این کار را کشف کنید:
راهنمای مبتدیان برای علم داده

فراهم می کند آموزش های خودآموز با همه کد کار در پایتون تا شما را از یک تازه کار به یک متخصص تبدیل کند. به شما نشان می دهد که چگونه یافتن نقاط پرت، تایید نرمال بودن داده ها، یافتن ویژگی های مرتبط، کنترل چولگی، بررسی فرضیه هاو خیلی بیشتر…همه برای حمایت از شما در ایجاد یک روایت از یک مجموعه داده.

سفر علم داده خود را با تمرینات عملی شروع کنید

ببینید چه چیزی در داخل است

وینود چوگانیوینود چوگانی

درباره وینود چوگانی

من در هند به دنیا آمدم و در ژاپن پرورش یافتم، من یک بچه فرهنگ سوم با دیدگاهی جهانی هستم. سفر آکادمیک من در دانشگاه دوک شامل رشته اقتصاد بود، با افتخار به فی بتا کاپا در سال سوم راه یافتم. در طول سال‌ها، تجربیات حرفه‌ای متنوعی به‌دست آوردم، یک دهه را صرف پیمایش در بخش پیچیده درآمد ثابت وال استریت کردم، و به دنبال آن یک سرمایه‌گذاری جهانی توزیع را در خیابان اصلی رهبری کردم. در حال حاضر، من اشتیاق خود به علم داده، یادگیری ماشین و هوش مصنوعی را به عنوان یک مربی در آکادمی علوم داده شهر نیویورک هدایت می کنم. من برای فرصت برانگیختن کنجکاوی و به اشتراک گذاشتن دانش، چه از طریق جلسات آموزش زنده یا تعاملات عمیق 1 به 1، ارزش قائل هستم. با پایه‌ای در امور مالی/کارآفرینی و غوطه‌ور شدن فعلی‌ام در قلمرو داده، با احساس هدف و اطمینان به آینده نزدیک می‌شوم. من کاوش بیشتر، یادگیری مستمر، و فرصتی برای مشارکت معنادار در زمینه های همیشه در حال تحول علم داده و یادگیری ماشین، به ویژه در اینجا در MLM را پیش بینی می کنم.



منبع: machinelearningmastery.com