تجزیه و تحلیل آماری پایه با NumPy


تجزیه و تحلیل آماری پایه با NumPy

تجزیه و تحلیل آماری پایه با NumPy

مقدمه

تجزیه و تحلیل آماری در علم داده مهم است. به ما کمک می کند داده ها را بهتر درک کنیم. NumPy یک کتابخانه کلیدی پایتون برای عملیات عددی است. این فرآیند را ساده و سرعت می بخشد. در این مقاله، چندین توابع برای تجزیه و تحلیل آماری پایه ارائه شده توسط NumPy را بررسی خواهیم کرد.

NumPy یک کتابخانه پایتون برای محاسبات عددی است. به کار روی آرایه ها و توابع ریاضی کمک می کند. محاسبات را سریعتر و آسان تر می کند. NumPy برای تجزیه و تحلیل داده ها و کار علمی در پایتون ضروری است.

برای شروع، ابتدا باید NumPy را برای انجام تجزیه و تحلیل آماری وارد کنید.

طبق قرارداد، ما استفاده می کنیم np به عنوان نام مستعار برای NumPy. این امر فراخوانی توابع آن را آسان تر می کند.

حال بیایید نگاهی به چندین تابع آماری کلیدی برای تجزیه و تحلیل آماری پایه در NumPy بیندازیم.

میانگین

میانگین معیار گرایش مرکزی است. مجموع همه مقادیر تقسیم بر تعداد مقادیر موجود است. ما استفاده می کنیم میانگین () تابع برای محاسبه میانگین

نحو: np.mean(data)

میانگین

میانگین اغلب به جای میانگین استفاده می شود. مجموع همه مقادیر تقسیم بر تعداد مقادیر موجود است. استفاده می کنیم متوسط ​​() تابع محاسبه میانگین این تابع مفید است زیرا امکان گنجاندن وزن ها را برای محاسبه میانگین وزنی فراهم می کند.

نحو: np.average(data)، np.average(data, weights=weights)

میانه

میانه مقدار میانی در یک مجموعه داده مرتب شده است. زمانی که مجموعه داده دارای تعداد فرد باشد، میانه مقدار میانی است. زمانی که مجموعه داده دارای تعداد زوج باشد، میانه میانگین دو مقدار میانی است. ما استفاده می کنیم میانه () تابع محاسبه میانه

نحو: np.median(data)

واریانس

واریانس میزان پراکندگی اعداد از میانگین را اندازه می گیرد. این نشان می دهد که مقادیر در یک مجموعه داده چقدر با میانگین متفاوت است. واریانس بالاتر به معنای گسترش بیشتر است. ما استفاده می کنیم var() تابع برای محاسبه واریانس

نحو: np.var(data)

انحراف معیار

انحراف معیار نشان می دهد که اعداد چقدر از میانگین متفاوت هستند. جذر واریانس است. انحراف استاندارد بالاتر به معنای گسترش بیشتر است. درک آن آسان تر است زیرا از واحدهای مشابه داده استفاده می کند. ما استفاده می کنیم std() تابع برای محاسبه انحراف استاندارد.

نحو: np.std(data)

حداقل و حداکثر

توابع حداقل و حداکثر به ترتیب به شناسایی کوچکترین و بزرگترین مقادیر در یک مجموعه داده کمک می کنند. ما استفاده می کنیم دقیقه () و حداکثر () توابع برای محاسبه این مقادیر.

نحو: np.min(data)، np.max(data)

صدک ها

صدک ها نشان می دهند که یک مقدار در یک مجموعه داده کجا قرار دارد. به عنوان مثال، صدک 25 مقداری است که 25٪ از داده ها زیر آن قرار می گیرند. درصدها به ما کمک می کنند تا توزیع داده ها را درک کنیم. ما استفاده می کنیم صدک () تابع برای محاسبه صدک

نحو: np.percentile(data, percentile_value)

ضریب همبستگی

ضریب همبستگی نشان می دهد که چگونه دو متغیر به صورت خطی با هم ارتباط دارند. از -1 تا 1 متغیر است. مقدار 1 به معنای رابطه مثبت است. مقدار -1 به معنای رابطه منفی است. مقدار 0 به معنای عدم وجود رابطه خطی است. ما استفاده می کنیم corrcoef() تابعی برای محاسبه ضریب همبستگی

نحو: correlation_matrix = np.corrcoef(data1, data2)، correlation_coefficient = correlation_matrix[0, 1]

محدوده (اوج به اوج)

محدوده (Peak-to-Peak) گسترش داده ها را اندازه گیری می کند. این تفاوت بین بالاترین و کمترین مقدار است. این به ما کمک می کند تا ببینیم داده ها چقدر گسترده هستند. ما استفاده می کنیم ptp() تابع از برای محاسبه محدوده.

نحو: range = np.ptp(data)

نتیجه گیری

NumPy به تجزیه و تحلیل آماری اولیه کمک می کند. برای آمارهای پیچیده تر، می توان از کتابخانه های دیگری مانند SciPy استفاده کرد. دانستن این اصول به بهبود تجزیه و تحلیل داده ها کمک می کند.

در مورد آمار برای یادگیری ماشین اطلاعات بگیرید!

روش های آماری برای یادگیری ماشینروش های آماری برای یادگیری ماشین

درک کاری از آمار را توسعه دهید

با نوشتن خطوط کد در پایتون

در کتاب الکترونیکی جدید من نحوه انجام این کار را کشف کنید:
روش های آماری برای یادگیری ماشین

فراهم می کند آموزش های خودآموز در موضوعاتی مانند:
آزمون فرضیه، همبستگی، آمار ناپارامتریک، نمونه گیری مجدد، و خیلی بیشتر…

نحوه تبدیل داده ها به دانش را کشف کنید

از دانشگاهیان بگذرید. فقط نتایج

ببینید چه چیزی در داخل است



منبع: machinelearningmastery.com

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *