قسمت 02 ماژول 01 | به سمت هوش مصنوعی


نویسنده(های): سودیپ

در ابتدا منتشر شد به سمت هوش مصنوعی.

حالا بیایید در مورد آن بیاموزیم همبستگی. همبستگی اندازه گیری آماری است که قدرت و جهت رابطه بین دو متغیر را نشان می دهد.

در یک مجموعه داده، مقادیر می توانند نشان دهند:

  1. همبستگی مثبت: با افزایش یک متغیر، متغیر دیگر نیز افزایش می یابد.
  2. همبستگی منفی: با افزایش یک متغیر، متغیر دیگر کاهش می یابد.
  3. بدون همبستگی: هیچ رابطه ظاهری بین دو متغیر وجود ندارد.
ساخته شده با Whimsical

کوواریانس

کوواریانس یک معیار آماری است که میزان تغییر دو متغیر تصادفی را با هم نشان می دهد. این به توصیف رابطه بین متغیرها کمک می کند و می تواند:

  • مثبت: زمانی که هر دو متغیر با هم تمایل به افزایش یا کاهش دارند.
  • منفی: زمانی که یک متغیر با کاهش دیگری افزایش می یابد.
  • صفر: زمانی که هیچ رابطه خطی بین متغیرها وجود نداشته باشد.

کجا:

  • x_i و y_i نقاط داده جداگانه متغیرهای X و Y هستند.
  • x‾ y‾ مقادیر میانگین X و Y هستند.
  • n تعداد کل مشاهدات است.

توجه داشته باشید: اگر فرمول از 1/m​ استفاده کند، که در آن m=n−1، به آن اشاره می‌شود تصحیح بسل، که برای محاسبه کوواریانس نمونه استفاده می شود تا هنگام تخمین کوواریانس جامعه از سوگیری جلوگیری شود.

محدودیت های کوواریانس
یکی از مسائل مربوط به کوواریانس این است که مقدار آن نرمال نیست. اگر دامنه x یا y را افزایش دهیم، کوواریانس نیز افزایش می یابد و تفسیر قدرت رابطه به تنهایی دشوار می شود.

راه حل: عادی سازی
برای پرداختن به این موضوع، کوواریانس را با تقسیم آن بر حاصل ضرب انحراف استاندارد x و y نرمال می کنیم. این به ما می دهد ضریب همبستگی، که یک اندازه گیری بدون بعد است که بین 1- و 1 قرار دارد

کجا:

  • σ_x و σ_y به ترتیب انحراف معیار x و y هستند.
  • ضریب همبستگی مقایسه روابط را در بین موارد مختلف آسان تر می کند مجموعه داده ها، صرف نظر از مقیاس آنها.

این به عنوان همبستگی پیرسون شناخته می شود و به صورت r نشان داده می شود.
ویژگی های همبستگی پیرسون:

  • r = 1: همبستگی مثبت کامل (متغیرها با هم افزایش می یابند).
  • r = -1: همبستگی منفی کامل (یک متغیر با کاهش دیگری افزایش می یابد).
  • r = 0: عدم همبستگی خطی بین متغیرها.

هنوز مشکل هنوز حل نشده است….

در نمودار بالا متوجه برخی موارد هستیم موارد پرت (نقاط در ربع چهارم). این نقاط پرت می توانند به طور قابل توجهی بر محاسبه ضریب همبستگی پیرسون r تأثیر بگذارند و منجر به نتایج نادرست شوند. به عنوان مثال، وجود این نقاط پرت ممکن است باعث شود r کمتر از 0 باشد، حتی زمانی که رابطه بین اکثر نقاط داده خلاف این را نشان دهد.

راه حل:
برای رسیدگی به این موضوع باید معرفی کنیم همبستگی رتبه، که نسبت به موارد پرت قوی تر است. روش های همبستگی رتبه ای، مانند ضریب همبستگی رتبه اسپیرمن، به جای مقادیر واقعی آنها به رتبه بندی نسبی نقاط داده تکیه کنید. این باعث می‌شود حساسیت کمتری نسبت به مقادیر افراطی داشته باشند و از نمایش دقیق‌تری از رابطه اساسی اطمینان حاصل شود.

معادله ضریب همبستگی رتبه اسپیرمن:

معادله ضریب همبستگی رتبه اسپیرمن به صورت زیر است:

کجا:

  • ρ = ضریب همبستگی رتبه اسپیرمن
  • d_i = تفاوت در رتبه‌ها برای هر جفت مقدار
  • n = تعداد نقاط داده

این فرمول همبستگی مبتنی بر رتبه را محاسبه می کند. حالا به این توجه کنید همبستگی رتبه اسپیرمن در اصل الف است همبستگی پیرسون از رتبه بندی شده است مقادیر، به جای داده های خام. این باعث می شود زمانی که رابطه بین متغیرها خطی نیست یا زمانی که داده های پرت وجود دارد، روش مفیدی باشد.

برای دانستن بیشتر در مورد نحوه عملکرد این در مسائل عددی این را بررسی کنید: https://www.geeksforgeeks.org/spearmans-rank-correlation/

آزمایش تصادفی

الف آزمایش تصادفی هر فعالیت یا فرآیندی است که ما انجام می دهیم که در آن نمی توان نتیجه را دقیقاً از قبل پیش بینی کرد. با این حال، ما همه نتایج ممکن را می دانیم و هر نتیجه ای شانس وقوع دارد. حتی اگر یک آزمایش را چندین بار در شرایط یکسان انجام دهیم، ممکن است هر بار نتیجه متفاوت باشد.

مثال: نمرات دانش آموزان در یک کلاس

تصور کنید در حال انجام یک آزمایش تصادفی هستید که در آن از هر دانش آموز در کلاس می خواهید یک آزمایش را انتخاب کند عدد تصادفی بین 1 تا 100، که نشان دهنده «نمره آزمون آزمایشی» آنهاست. این چیزی است که اتفاق می افتد:

  1. فرآیند (آزمایش): درخواست از دانش آموزان برای انتخاب یک عدد.
  2. نتیجه نامشخص: شما نمی توانید پیش بینی کنید که هر دانش آموز چه عددی را انتخاب می کند. یک دانش آموز ممکن است 85، دیگری 60، دیگری 45 و غیره را انتخاب کند.
  3. نتایج احتمالی: اعدادی که می توانند انتخاب کنند بین 1 تا 100 (همه نمرات آزمون ممکن) است.
  4. شانس یا احتمال: هر عدد احتمال انتخاب شدن دارد. به عنوان مثال، اگر دانش آموزان به طور کاملا تصادفی انتخاب کنند، همه اعداد شانس مساوی دارند.

حتی اگر فرآیند (آزمایش) پرسیدن از دانش‌آموزان را در شرایط یکسان تکرار کردید، اعدادی که انتخاب می‌کنند می‌تواند هر بار متفاوت باشد. این باعث می شود که یک آزمایش تصادفی

خلاصه: درک همبستگی، کوواریانس، و آزمایش های تصادفی

در این مقاله، مفاهیم پایه همبستگی، کوواریانس و آزمایش‌های تصادفی را بررسی کردیم:

همبستگی:

  • قدرت و جهت رابطه بین دو متغیر را اندازه گیری می کند.

انواع:

  • مثبت: متغیرها با هم افزایش می یابند.
  • منفی: یک متغیر با کاهش دیگری افزایش می یابد.
  • بدون همبستگی: بدون رابطه ظاهری.

کوواریانس:

  • توضیح می دهد که چگونه دو متغیر با هم تغییر می کنند.

انواع:

  • مثبت: متغیرها با هم افزایش یا کاهش می یابند.
  • منفی: یک متغیر با کاهش دیگری افزایش می یابد.
  • صفر: هیچ رابطه ای وجود ندارد.
  • محدودیت: کوواریانس نرمال نیست و تفسیر آن را دشوار می کند.

عادی سازی از طریق همبستگی پیرسون:

  • تقسیم کوواریانس بر حاصل ضرب انحراف معیار متغیرها ضریب همبستگی (rrr) را به دست می دهد.

خواص:

  • r=1r = 1r=1: همبستگی مثبت کامل.
  • r=−1r = -1r=−1: همبستگی منفی کامل.
  • r=0r = 0r=0: بدون همبستگی خطی.

پرداختن به موارد پرت با همبستگی رتبه:

  • نقاط پرت می توانند همبستگی پیرسون را تحریف کنند.
  • راه حل: همبستگی رتبه اسپیرمن، همبستگی را بر اساس رتبه‌های نسبی نقاط داده محاسبه می‌کند و آن را نسبت به نقاط پرت قوی می‌کند.

آزمایش های تصادفی:

  • فرآیندهایی با نتایج نامشخص اما احتمالات شناخته شده.
  • مثال: دانش آموزان در حال چیدن اعداد تصادفی به عنوان نمرات آزمون آزمایشی

در مقاله بعدی، عمیق تر به آن خواهیم پرداخت آزمایش های تصادفی، کاوش در برآورد جمعیت، آن انواع، و بینش های آماری بیشتر. با ما همراه باشید 🙂

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/data-analysis/part-02-module-01

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *