ماژول 1 قسمت -01 بلوک ساختمان تجزیه و تحلیل داده ها


نویسنده(ها): سودیپ

در ابتدا منتشر شد به سمت هوش مصنوعی.

ایجاد شده توسط من با استفاده از canva

اگر می‌پرسید این ماژول 1 چیست و موارد مرتبط با آن چیست، لطفاً به این مراجعه کنید: تجزیه و تحلیل داده چیست؟

بنابراین همه چیز با آمار شروع می شود

در سطح بالا، آمار مجموعه ای از روش هایی است که به ما در تجزیه و تحلیل، خلاصه و تفسیر داده ها کمک می کند. برای شیرجه رفتن در آمار، ابتدا باید بفهمیم که چیست داده ها است و انواع مختلف آن

داده ها

داده ها مجموعه ای از حقایق، اعداد، کلمات یا مشاهداتی هستند که می توانند برای یادگیری در مورد چیزی مورد استفاده قرار گیرند. داده ها را می توان به روش های مختلف نشان داد و می تواند برای اهداف مختلفی استفاده شود.

داده ها را می توان به طور عمده به 3 نوع تقسیم کرد

ساخته شده با غریب

حالا بیایید در مورد آن بیاموزیم انواع آمار

به طور کلی دو نوع آمار وجود دارد

1) آمار توصیفی
تعریف رسمی: آمار توصیفی روش هایی هستند که برای خلاصه و توصیف ویژگی های اصلی a مجموعه داده
به طور خلاصه روش های زیادی دارد که به جمع بندی داده ها کمک می کند، خوب روش هایی مانند میانگین، حالت، متوسط ​​را دارد.

2) استقرایی/ آمار استنباطی
تعریف رسمی: آمار استنباطی شامل نتیجه گیری یا استنباط در مورد یک جمعیت بر اساس داده های جمع آوری شده از نمونه ای از آن جامعه است.
آمار استنباطی خلاصه همه چیز در مورد درک “چرا” و “چگونه” پشت الگوهای داده ای است که مشاهده می کنیم.

شرایط

جمعیت: به کل داده ها جمعیت می گویند.
سپس به بخشی از جمعیت چه می گویند؟ …🤔 خب اسمش هست نمونه ها و همچنین به عنوان شناخته شده است مشاهده، تاپل، ماتریس ویژگی.
پاداش: ویژگی ها به عنوان ویژگی ها شناخته می شوند

متغیرها

متغیرها عمدتاً دو نوع هستند:

ساخته شده با Whimsical

یک مثال برای متغیر اسمی به شرح زیر است:
رنگ خودروها در پارکینگ (قرمز، آبی، سیاه، سفید).
انواع روش های پرداخت مورد استفاده در فروشگاه (نقد، کارت اعتباری، کارت نقدی، پرداخت موبایلی).

یک مثال برای متغیر Ordered به شرح زیر است:
مقاطع تحصیلی (دبیرستان، کارشناسی، کارشناسی ارشد، دکتری)
رتبه بندی رضایت مشتری (بسیار ناراضی، ناراضی، خنثی، راضی، بسیار راضی)
سایز تیشرت (XS، S، M، L، XL)

بیایید بیشتر روی آمار توصیفی تمرکز کنیم…

ساخته شده با غریب

معیار گرایش مرکزی چیست؟
چیز زیادی نیست، اساسا شامل روش هایی مانند حالت متوسط

1. میانگین

  • تعریف: مقدار متوسط.
  • فرمول: میانگین = (مجموع همه مقادیر) / (تعداد مقادیر).
  • مثال: میانگین سنی دانش آموزان در یک کلاس.

2. میانه

  • تعریف: مقدار وسط وقتی داده ها مرتب می شوند.
  • نکته: برای اندازه های یکنواخت مجموعه داده ها، میانگین دو مقدار وسط را بگیرید.
  • مثال: حقوق و دستمزد متوسط ​​در یک شرکت می تواند تصور بهتری از درآمد کارمندان در صورت وجود موارد پرت داشته باشد.

3. حالت

  • تعریف: متداول ترین مقدار در یک مجموعه داده.
  • مثال: محبوب ترین محصول فروخته شده در یک فروشگاه اینترنتی.

اما چیست اندازه گیری پراکندگی
اندازه گیری پراکندگی یک مقدار آماری است که نشان می دهد مجموعه ای از داده ها در اطراف یک مقدار مرکزی چقدر گسترده است. می تواند به شما کمک کند تعیین کنید که آیا داده ها کشیده شده اند یا با هم فشرده شده اند
چند نمونه هستند
محدوده: به عنوان تفاوت بین بزرگترین و کوچکترین مقدار در توزیع تعریف می شود.

انحراف میانگین: این میانگین حسابی تفاوت بین مقادیر و میانگین آنها است.

انحراف معیار: این جذر میانگین حسابی مجذور انحرافات اندازه گیری شده از میانگین است.

واریانس: به عنوان میانگین انحراف مربع از میانگین مجموعه داده‌های داده شده تعریف می‌شود.

انحراف چارک: به عنوان نیمی از تفاوت بین چارک سوم و ربع اول در یک مجموعه داده معین تعریف می شود.

محدوده بین چارکی: تفاوت بین چارک بالا (Q3) و پایین (Q1) را محدوده بین چارکی می گویند. فرمول آن به صورت Q3 – Q1 ارائه شده است.

به طور خلاصه، آنچه در این پست مورد بحث قرار گرفتیم، بلوک های ساختمانی اساسی تجزیه و تحلیل داده ها است، به ویژه:

مبانی آمار و دو شاخه اصلی آن:

  • آمار توصیفی: روش های خلاصه سازی داده ها.
  • آمار استنباطی: نتیجه گیری در مورد جمعیت ها بر اساس داده های نمونه.

اصطلاحات پایه در تجزیه و تحلیل داده ها:

  • جمعیت: مجموعه داده کامل.
  • نمونه ها: زیر مجموعه های جمعیت.
  • ویژگی ها (که صفات نیز نامیده می شود): ویژگی هایی که ما اندازه گیری می کنیم.

طبقه بندی متغیرها:

  • متغیرهای عددی.
  • متغیرهای طبقه بندی شده،

که شامل:

  • داده های اسمی (به عنوان مثال، رنگ ها، روش های پرداخت).
  • داده های ترتیبی (به عنوان مثال، سطوح تحصیلات، رتبه بندی رضایت).

اقدامات آماری مهم:

  1. اقدامات گرایش مرکزی:
  • میانگین: میانگین
  • میانه: مقدار وسط
  • حالت: بیشترین مقدار.

2. اقدامات پراکندگی:

  • محدوده: تفاوت بین بزرگترین و کوچکترین مقادیر.
  • میانگین انحراف: میانگین تفاوت ها از میانگین.
  • انحراف معیار: جذر میانگین مجذور اختلاف با میانگین.
  • واریانس: میانگین اختلاف مجذور از میانگین.
  • انحراف چارک: نصف اختلاف ربع سوم و اول.
  • محدوده بین چارکی: تفاوت بین چارک بالا (Q3) و پایین (Q1).

برای این پست تمام شد! با ما همراه باشید قسمت 2، به زودی در 3 تا 5 روز آینده. 😉

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/data-science/module-1-part-01-building-block-of-data-analytics