10 الگوریتم یادگیری ماشین که با استفاده از قیاس های دنیای واقعی توضیح داده شده اند

وقتی در دبیرستان بودم و مسائل پیچیده ریاضی را مطالعه می کردم، همیشه به این فکر می کردم که چرا آنها را مطالعه می کنیم یا چرا مفید هستند. من قادر به درک و استفاده از آنها در دنیای واقعی نبودم. از آنجایی که یادگیری ماشین نیز یک موضوع پرطرفدار است که بسیاری از مردم می‌خواهند آن را بررسی کنند، ریاضیات پیچیده و انتزاع در پشت الگوریتم‌های یادگیری ماشین، درک و یادگیری استفاده از آن را برای مبتدیان دشوار می‌کند.

اینجاست که یادگیری مشابه وارد بازی می شود. این به شما امکان می دهد قیاس های دنیای واقعی را با مفاهیم پیچیده مرتبط کنید که به شما کمک می کند کنجکاو بمانید و خلاقانه فکر کنید. وقتی واقعاً این الگوریتم‌ها را برای حل مسائل دنیای واقعی بعداً به کار می‌برید، واقعاً کمک می‌کند. با انگیزه گرفتن از این رویکرد، 10 الگوریتم رایج یادگیری ماشین را با مرتبط کردن آنها با قیاس های دنیای واقعی توضیح خواهم داد، بنابراین بیایید شروع کنیم.

1. رگرسیون خطی

رگرسیون خطی یک الگوریتم یادگیری ماشینی نظارت شده است که سعی می‌کند بهترین خط مستقیم را بین ویژگی‌های شما و متغیر هدف شما قرار دهد تا تفاوت بین مقدار واقعی و مقدار پیش‌بینی‌شده تا حد امکان حداقل باشد.

مقایسه: فرض کنید شما یک باغبان هستید و می خواهید آزمایش کنید که چه مقدار کود ایده آلی است که باید به گیاه بدهید تا رشد آن را افزایش دهید. بنابراین برای این منظور، مقدار کود (ویژگی/متغیر مستقل) را ثبت می‌کنید و همچنین رشد گیاه مربوطه (متغیر وابسته یا هدف) را برای یک ماه اندازه‌گیری می‌کنید. حالا شما اطلاعات را در اختیار دارید و آن را روی نمودار پراکنده رسم می کنید و سعی می کنید بهترین خط مستقیمی را که از این نقاط می گذرد به گونه ای مشخص کنید که انحراف همه نقاط از خط حداقل باشد. هنگامی که این خط را دارید، می توانید رشد گیاه آینده را بر اساس میزان کود مصرفی پیش بینی کنید.

2. رگرسیون لجستیک

این تا حدودی شبیه به رگرسیون خطی و یک مسئله یادگیری نظارت شده است، اما رگرسیون خطی متغیر هدف پیوسته را پیش‌بینی می‌کند در حالی که رگرسیون لجستیک برای مسائل طبقه‌بندی دودویی استفاده می‌شود، جایی که احتمال یک نتیجه باینری مانند احتمال بله یا خیر، درست یا نادرست را پیش‌بینی می‌کند. .

مقایسه: به عنوان مثال، اگر شما استعدادهای آمریکایی را تماشا کنید، می دانیم که تنها 2 انتخاب وجود دارد: یا نامزد برای دور بعدی انتخاب می شود یا خیر. بنابراین، شما عوامل مختلفی مانند عملکرد فعلی، تجربیات گذشته آنها را در نظر می گیرید که آیا این یک اقدام منحصر به فرد است یا نه، و بر این اساس تصمیم می گیرید که داوطلب چقدر توانایی دارد تا در دور بعدی موفق شود. بر این اساس، یا دکمه قرمز (رد) یا سبز (پذیرفتن) را فشار دهید.

3. درخت تصمیم

درخت تصمیم یک الگوریتم یادگیری نظارت شده است که به صورت بازگشتی داده های شما را بر اساس مقادیر ویژگی به زیر مجموعه ها تقسیم می کند. هر تقسیم بر روی گره در واقع تصمیمی است که جهت پیمایش را تعیین می کند و به پیش بینی کمک می کند.

مقایسه: آیا تا به حال آن بازی “20 سوال” را با دوست خود بازی کرده اید؟ درخت های تصمیم دقیقاً اینگونه عمل می کنند. اجازه دهید آنچه را که در این بازی اتفاق می افتد به اشتراک بگذارم. بنابراین، دوست شما به چیزی فکر می کند که شما باید حدس بزنید و تنها کاری که می توانید انجام دهید این است که از آنها سؤالات بله/خیر بپرسید تا پاسخ های ممکن را محدود کنید. هر پاسخ به شما در تصمیم گیری کمک می کند و تا زمانی که پاسخ صحیح را حدس بزنید گزینه ها را حذف می کند.

4. الگوریتم جنگل تصادفی

جنگل تصادفی یک تکنیک یادگیری گروهی است که از درخت های تصمیم گیری متعددی استفاده می کند که بر روی بخش های مختلف داده آموزش دیده اند. سپس پیش‌بینی‌های هر درخت را ترکیب می‌کند تا تصمیم نهایی را بگیرد.

مقایسه: کمیته ای متشکل از سرمایه گذاران و صاحبان سهام در یک تجارت را در نظر بگیرید که باید در مورد یک معامله جدید تصمیم بگیرند. هر کس فرآیند فکری و تجربیات خود را دارد. هر کدام بر اساس تحلیل خود، قضاوت خود را ارائه می دهند. در نهایت تمام قضاوت ها با هم ترکیب می شوند تا تصمیم نهایی گرفته شود.

5. ماشین بردار پشتیبانی (SVM)

SVM یک الگوریتم یادگیری ماشینی نظارت شده است که کلاس ها را با استفاده از یک خط مستقیم (هایپرپلن) به گونه ای تقسیم می کند که فاصله بین آنها حداکثر باشد. وقتی یک نقطه داده جدید وارد می شود، تشخیص اینکه به کدام گروه/کلاس تعلق دارد آسان تر است.

مقایسه: اگر اهل ورزش باشید، رقابت بین هواداران 2 تیم مقابل را در زمین درک خواهید کرد. بنابراین، سعی کنید تا حد امکان این 2 گروه را با بستن یک روبان قرمز جدا کنید، و زمانی که فرد جدیدی به آن ملحق می شود، بر اساس ویژگی هایی مانند پیراهنی که پوشیده است یا تیمی که طرفدار آن است، ممکن است ارائه دهید. چیدمان صندلی بر این اساس

6. الگوریتم ساده بیز

این یک الگوریتم یادگیری ماشینی نظارت شده بر اساس قضیه بیز است و فرض می کند که ویژگی ها مستقل هستند. احتمال هر کلاس را با در نظر گرفتن برخی اطلاعات قبلی محاسبه می کند و سپس کلاسی که بیشترین احتمال را دارد انتخاب می شود. این عمدتا برای مشکلات طبقه بندی استفاده می شود.

مقایسه: همه ما از ایمیل های اسپم آگاه هستیم، درست است؟ بنابراین اساساً، فیلتر به دنبال برخی از کلمات رایج مانند «رایگان»، «تخفیف»، «زمان محدود» یا «اینجا کلیک کنید» بدون در نظر گرفتن زمینه‌ای که این کلمات در آن ظاهر می‌شوند، می‌گردد. اگرچه این ممکن است برخی موارد را به اشتباه طبقه بندی کند، اما در زمان پردازش هزاران ایمیل باعث صرفه جویی در زمان می شود. این کلمات هرزنامه را به عنوان ویژگی های مستقل برای تعیین احتمال اسپم بودن یا نبودن یک ایمیل در نظر می گیرد.

7. الگوریتم K-Nearest Neighbors (KNN).

KNN یک الگوریتم یادگیری تحت نظارت است که فرض می‌کند نقاط داده مشابه در فضای ویژگی به یکدیگر نزدیک‌تر هستند (دقیقاً مانند دوستان نزدیکی که در کلاس کنار هم می‌نشینند). در مورد برچسب یک نقطه داده ناشناخته با استفاده از K نزدیکترین همسایه شناخته شده خود پیش بینی می کند، جایی که این یک فراپارامتر است و تعداد همسایگان رای دهنده را نشان می دهد.

مقایسه: فرض کنید می خواهید چند رستوران جدید را امتحان کنید و چند گزینه داشته باشید. بنابراین از دوستان خود (همسایگان در KNN) توصیه می کنید. هر یک از آنها مکان مورد علاقه خود را که بازدید کرده اند توصیه می کنند، و مکانی که اکثریت رای را کسب می کند همان جایی است که شما برای بازدید نهایی می کنید.

8. K-به معنی

K-means یک الگوریتم یادگیری بدون نظارت است که نقاط داده را بر اساس موقعیت آنها به خوشه های منحصر به فرد اختصاص می دهد. با مقداردهی اولیه تصادفی مرکزها و محاسبه فاصله هر نقطه از این مرکزها شروع می شود. سپس هر نقطه به خوشه نزدیکترین مرکز اختصاص داده می شود. نقاط داده جدید در هر خوشه برای یافتن مرکزهای جدید به طور میانگین محاسبه می شوند. این فرآیند تا زمانی تکرار می شود که مرکزها دیگر تغییر نکنند، به این معنی که نقاط داده کاملاً در خوشه ها طبقه بندی شده اند.

مقایسه: در نظر بگیرید که شما بخشی از یک جامعه کتابخوانی هستید و آنها باید 3 گروه از مثلاً 18 دانش آموز ایجاد کنند. در ابتدا آنها را به صورت تصادفی در 3 گروه 6 نفره قرار می دهند. سپس در تکرار دوم، آنها بر اساس علایق خود که از یک فرم جمع آوری شده اند، دوباره تخصیص می دهند. سپس پس از تعامل آنها، تغییراتی را ایجاد می کنند، مگر اینکه گروه های نهایی با افرادی ایجاد شوند که منافع همسویی دارند.

9. تجزیه و تحلیل اجزای اصلی

PCA یک الگوریتم یادگیری بدون نظارت است. این یک تکنیک کاهش ابعاد است که اجزای اصلی (مهم) داده‌ها را شناسایی می‌کند و آن‌ها را به فضایی با ابعاد پایین‌تر نگاشت می‌کند و تجزیه و تحلیل آن را آسان‌تر می‌کند.

مقایسه: بیشتر ما به جایی سفر کرده‌ایم و می‌دانم که جمع کردن وسایل برایمان دردسرساز است. فرض کنید فقط یک چمدان داریم، پس چه کنیم؟ ابتدا آن را با موارد مهم پر می کنیم و سپس سعی می کنیم راهی برای فشرده سازی موارد کم اهمیت یا حذف آنها از کیف خود پیدا کنیم. این دقیقاً نحوه عملکرد PCA است که ویژگی های مهم را شناسایی می کند و موارد کمتر مرتبط را فشرده یا حذف می کند.

10. افزایش گرادیان

این یک الگوریتم یادگیری گروهی است که چندین مدل ضعیف را برای ایجاد یک مدل قوی ترکیب می کند. در جایی که هر مدل سعی می کند خطاهای مدل قبلی را بهبود بخشد و عملکرد کلی را افزایش دهد، به صورت تکراری کار می کند.

مقایسه: آیا تا به حال پیش آمده که در ابتدا با موضوعی دست و پنجه نرم می کردید اما به تدریج پیشرفت کردید؟ رویکرد کلی معمولاً در آن موقعیت چیست؟ شما در آزمون شرکت می کنید، نمرات را دریافت می کنید و سپس روی کاستی های خود یا موضوعاتی که درک ندارید کار می کنید. این فرآیند به تدریج عملکرد کلی شما را در آن موضوع بهبود می بخشد.

این من را به پایان مقاله ام می رساند. من واقعاً از توضیح این مفاهیم با استفاده از قیاس لذت می برم و امیدوارم که آنها را به اندازه من مفید بیابید. اگر از این روش لذت بردید یا پیشنهاداتی برای موضوعات دیگر دارید، در نظرات به من اطلاع دهید!

منبع: machinelearningmastery.com