تجزیه و تحلیل آماری پایه با NumPy

مقدمه

تجزیه و تحلیل آماری در علم داده مهم است. به ما کمک می کند داده ها را بهتر درک کنیم. NumPy یک کتابخانه کلیدی پایتون برای عملیات عددی است. این فرآیند را ساده و سرعت می بخشد. در این مقاله، چندین توابع برای تجزیه و تحلیل آماری پایه ارائه شده توسط NumPy را بررسی خواهیم کرد.

NumPy یک کتابخانه پایتون برای محاسبات عددی است. به کار روی آرایه ها و توابع ریاضی کمک می کند. محاسبات را سریعتر و آسان تر می کند. NumPy برای تجزیه و تحلیل داده ها و کار علمی در پایتون ضروری است.

برای شروع، ابتدا باید NumPy را برای انجام تجزیه و تحلیل آماری وارد کنید.

طبق قرارداد، ما استفاده می کنیم np به عنوان نام مستعار برای NumPy. این امر فراخوانی توابع آن را آسان تر می کند.

حال بیایید نگاهی به چندین تابع آماری کلیدی برای تجزیه و تحلیل آماری پایه در NumPy بیندازیم.

میانگین

میانگین معیار گرایش مرکزی است. مجموع همه مقادیر تقسیم بر تعداد مقادیر موجود است. ما استفاده می کنیم میانگین () تابع برای محاسبه میانگین

نحو: np.mean(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه میانگین = np.mean(data) # چاپ نتیجه چاپ (f”Mean: {mean}”) # میانگین: 3.0

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# میانگین را محاسبه کنید

معنی = np.معنی(داده ها)

# نتیجه را چاپ کنید

چاپ کنید(f“میانگین: {mean}”)

# میانگین: 3.0

میانگین

میانگین اغلب به جای میانگین استفاده می شود. مجموع همه مقادیر تقسیم بر تعداد مقادیر موجود است. استفاده می کنیم متوسط () تابع محاسبه میانگین این تابع مفید است زیرا امکان گنجاندن وزن ها را برای محاسبه میانگین وزنی فراهم می کند.

نحو: np.average(data)، np.average(data, weights=weights)

# داده نمونه = np.array([1, 2, 3, 4, 5]) وزن = np.array([1, 2, 3, 4, 5]) # محاسبه میانگین وزنی = np.average(data) # محاسبه میانگین وزنی weighted_average = np.average(data, weights=weights) # چاپ نتایج print(f”Average: {Average}”) print(f”Weighted میانگین: {weighted_average}”) # Average: 3.0 # Weighted Average: 3.66666666666666665

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

وزنه ها = np.آرایه([1, 2, 3, 4, 5])

# میانگین را محاسبه کنید

متوسط = np.متوسط(داده ها)

# میانگین وزنی را محاسبه کنید

وزنی_میانگین = np.متوسط(داده ها، وزنه ها=وزنه ها)

# نتایج را چاپ کنید

چاپ کنید(f“میانگین: {متوسط}”)

چاپ کنید(f“میانگین وزنی: {weighted_average}”)

# میانگین: 3.0

# میانگین وزنی: 3.66666666666666665

میانه

میانه مقدار میانی در یک مجموعه داده مرتب شده است. زمانی که مجموعه داده دارای تعداد فرد باشد، میانه مقدار میانی است. زمانی که مجموعه داده دارای تعداد زوج باشد، میانه میانگین دو مقدار میانی است. ما استفاده می کنیم میانه () تابع محاسبه میانه

نحو: np.median(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه میانه = np.median(data) # چاپ نتیجه چاپ (f”Median: {median}”) # Median: 3.0

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# میانه را محاسبه کنید

میانه = np.میانه(داده ها)

# نتیجه را چاپ کنید

چاپ کنید(f“میانگین: {میانگین}”)

# میانه: 3.0

واریانس

واریانس میزان پراکندگی اعداد از میانگین را اندازه می گیرد. این نشان می دهد که مقادیر در یک مجموعه داده چقدر با میانگین متفاوت است. واریانس بالاتر به معنای گسترش بیشتر است. ما استفاده می کنیم var() تابع برای محاسبه واریانس

نحو: np.var(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه واریانس واریانس = np.var(data) # چاپ نتیجه چاپ (f”Variance: {variance}”) # Variance: 2.0

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# واریانس را محاسبه کنید

واریانس = np.var(داده ها)

# نتیجه را چاپ کنید

چاپ کنید(f“Variance: {variance}”)

# واریانس: 2.0

انحراف معیار

انحراف معیار نشان می دهد که اعداد چقدر از میانگین متفاوت هستند. جذر واریانس است. انحراف استاندارد بالاتر به معنای گسترش بیشتر است. درک آن آسان تر است زیرا از واحدهای مشابه داده استفاده می کند. ما استفاده می کنیم std() تابع برای محاسبه انحراف استاندارد.

نحو: np.std(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه انحراف استاندارد std_dev = np.std(داده) # چاپ نتیجه چاپ (f”انحراف استاندارد: {std_dev}”) # انحراف استاندارد: 1.4142135623730951

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# انحراف معیار را محاسبه کنید

std_dev = np.std(داده ها)

# نتیجه را چاپ کنید

چاپ کنید(f“انحراف استاندارد: {std_dev}”)

# انحراف استاندارد: 1.4142135623730951

حداقل و حداکثر

توابع حداقل و حداکثر به ترتیب به شناسایی کوچکترین و بزرگترین مقادیر در یک مجموعه داده کمک می کنند. ما استفاده می کنیم دقیقه () و حداکثر () توابع برای محاسبه این مقادیر.

نحو: np.min(data)، np.max(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه حداقل و حداکثر حداقل = np.min(داده) حداکثر = np.max(داده) # چاپ نتایج چاپ(f”حداقل: {حداقل}”) print(f”حداکثر: {حداکثر}”) # حداقل: 1 # حداکثر: 5

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# حداقل و حداکثر را محاسبه کنید

حداقل = np.دقیقه(داده ها)

حداکثر = np.حداکثر(داده ها)

# نتایج را چاپ کنید

چاپ کنید(f“حداقل: {حداقل}”)

چاپ کنید(f“حداکثر: {حداکثر}”)

# حداقل: 1

# حداکثر: 5

صدک ها

صدک ها نشان می دهند که یک مقدار در یک مجموعه داده کجا قرار دارد. به عنوان مثال، صدک 25 مقداری است که 25٪ از داده ها زیر آن قرار می گیرند. درصدها به ما کمک می کنند تا توزیع داده ها را درک کنیم. ما استفاده می کنیم صدک () تابع برای محاسبه صدک

نحو: np.percentile(data, percentile_value)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # صدک 25 و 75 را محاسبه کنید = np.percentile(data, [25, 75]) # چاپ نتایج چاپ (f”25th Percentile: {percentiles[0]}”) print(f”75th Percentile: {percentiles[1]}”) # صدک 25: 2.0 # صدک 75: 4.0

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# صدک 25 و 75 را محاسبه کنید

صدک ها = np.صدک(داده ها، [25, 75])

# نتایج را چاپ کنید

چاپ کنید(f«صدک 25: {درصد[0]}”)

چاپ کنید(f«صدک 75: {درصد[1]}”)

صدک # 25: 2.0

صدک # 75: 4.0

ضریب همبستگی

ضریب همبستگی نشان می دهد که چگونه دو متغیر به صورت خطی با هم ارتباط دارند. از -1 تا 1 متغیر است. مقدار 1 به معنای رابطه مثبت است. مقدار -1 به معنای رابطه منفی است. مقدار 0 به معنای عدم وجود رابطه خطی است. ما استفاده می کنیم corrcoef() تابعی برای محاسبه ضریب همبستگی

نحو: correlation_matrix = np.corrcoef(data1, data2)، correlation_coefficient = correlation_matrix[0, 1]

# داده نمونه 1 = np.array([1, 2, 3, 4, 5]) data2 = np.array([5, 4, 3, 2, 1]) # محاسبه ضریب همبستگی ماتریس correlation_matrix = np.corrcoef(data1, data2) # استخراج ضریب همبستگی بین data1 و data2 همبستگی_ضریب = همبستگی_ماتریس[0, 1]print(f”ضریب همبستگی: {ضریب_همبستگی}”) # ضریب همبستگی: -1.0

# داده های نمونه

داده 1 = np.آرایه([1, 2, 3, 4, 5])

داده 2 = np.آرایه([5, 4, 3, 2, 1])

# ماتریس ضریب همبستگی را محاسبه کنید

همبستگی_ماتریس = np.تصحیح(داده 1، داده 2)

# ضریب همبستگی بین data1 و data2 را استخراج کنید

همبستگی_ضریب = همبستگی_ماتریس[0, 1]

چاپ کنید(f“ضریب همبستگی: {ضریب_همبستگی}”)

# ضریب همبستگی: -1.0

محدوده (اوج به اوج)

محدوده (Peak-to-Peak) گسترش داده ها را اندازه گیری می کند. این تفاوت بین بالاترین و کمترین مقدار است. این به ما کمک می کند تا ببینیم داده ها چقدر گسترده هستند. ما استفاده می کنیم ptp() تابع از برای محاسبه محدوده.

نحو: range = np.ptp(data)

# داده نمونه = np.array([1, 2, 3, 4, 5]) # محاسبه محدوده محدوده = np.ptp(data) # چاپ نتیجه چاپ (f”Range: {range}”) # Range: 4

# داده های نمونه

داده ها = np.آرایه([1, 2, 3, 4, 5])

# محدوده را محاسبه کنید

محدوده = np.ptp(داده ها)

# نتیجه را چاپ کنید

چاپ کنید(f“محدوده: {range}”)

# برد: 4

نتیجه گیری

NumPy به تجزیه و تحلیل آماری اولیه کمک می کند. برای آمارهای پیچیده تر، می توان از کتابخانه های دیگری مانند SciPy استفاده کرد. دانستن این اصول به بهبود تجزیه و تحلیل داده ها کمک می کند.

در مورد آمار برای یادگیری ماشین اطلاعات بگیرید!

درک کاری از آمار را توسعه دهید

با نوشتن خطوط کد در پایتون

در کتاب الکترونیکی جدید من نحوه انجام این کار را کشف کنید:
روش های آماری برای یادگیری ماشین

فراهم می کند آموزش های خودآموز در موضوعاتی مانند:
آزمون فرضیه، همبستگی، آمار ناپارامتریک، نمونه گیری مجدد، و خیلی بیشتر…

نحوه تبدیل داده ها به دانش را کشف کنید

از دانشگاهیان بگذرید. فقط نتایج

ببینید چه چیزی در داخل است

منبع: machinelearningmastery.com