
5 پروژه یادگیری ماشینی در دنیای واقعی که می توانید این آخر هفته بسازید
تصویر نویسنده | ایجاد شده در Canva
ساختن پروژه های یادگیری ماشینی با استفاده از مجموعه داده های دنیای واقعی، راهی موثر برای به کارگیری آنچه آموخته اید است. کار با مجموعه داده های دنیای واقعی به شما کمک می کند تا اطلاعات زیادی در مورد تمیز کردن و تجزیه و تحلیل داده های آشفته، مدیریت عدم تعادل کلاس و موارد دیگر بیاموزید. اما برای ساختن مدلهای یادگیری ماشینی واقعاً مفید، مهم است که فراتر از آموزش و ارزیابی مدلها برویم و در صورت نیاز API و داشبورد بسازیم.
در این راهنما، ما پنج پروژه یادگیری ماشینی را که میتوانید در آخر هفته (به معنای واقعی کلمه!) با استفاده از مجموعه دادههای در دسترس عموم بسازید، بیان میکنیم. برای هر پروژه پیشنهاد می کنیم:
- مجموعه داده مورد استفاده
- هدف پروژه
- مناطق تمرکز (بنابراین می توانید مفاهیم را یاد بگیرید یا در صورت لزوم دوباره مرور کنید)
- وظایفی که هنگام ساخت مدل باید روی آنها تمرکز کرد
بیایید درست شیرجه بزنیم!
1. پیش بینی قیمت خانه با استفاده از مجموعه داده مسکن Ames
شروع کوچک و ساده همیشه آسان است. پیشبینی قیمت مسکن بر اساس ویژگیهای ورودی یکی از مبتدیترین پروژههایی است که بر رگرسیون تمرکز دارد.
هدف: ساخت یک مدل رگرسیون برای پیش بینی قیمت مسکن بر اساس ویژگی های ورودی مختلف.
مجموعه داده: مجموعه داده مسکن ایمز
حوزه های تمرکز: رگرسیون خطی، مهندسی ویژگی و انتخاب، ارزیابی مدل های رگرسیون
تمرکز کنید:
- EDA کامل برای درک داده ها
- درج مقادیر گمشده
- مدیریت ویژگی های طبقه بندی و مقیاس بندی ویژگی های عددی در صورت نیاز
- مهندسی ویژگی در ستون های عددی
- ارزیابی مدل با استفاده از معیارهای رگرسیون مانند RMSE (ریشه میانگین مربعات خطا)
هنگامی که یک مدل کار می کنید، می توانید از Flask یا FastAPI برای ایجاد یک API استفاده کنید، جایی که کاربران می توانند جزئیات ویژگی ها را وارد کرده و پیش بینی قیمت را دریافت کنند.
2. تحلیل احساسات توییت ها
تجزیه و تحلیل احساسات توسط مشاغل برای نظارت بر بازخورد مشتریان استفاده می شود. شما می توانید با کار بر روی پروژه ای برای تجزیه و تحلیل احساسات توییت ها، تحلیل احساسات را شروع کنید.
هدف: یک مدل تحلیل احساسات بسازید که می تواند توییت ها را بر اساس محتوایشان به عنوان مثبت، منفی یا خنثی طبقه بندی کند.
مجموعه داده: مجموعه داده های تحلیل احساسات توییتر
حوزه های تمرکز: مبانی پردازش زبان طبیعی (NLP)، پیش پردازش متن، طبقه بندی متن
تمرکز کنید:
- پیش پردازش متن
- مهندسی ویژگی: از امتیازات TF-IDF (Term Frequency-Inverse Document Frequency) یا جاسازی کلمه برای تبدیل داده های متنی به ویژگی های عددی استفاده کنید.
- آموزش یک مدل طبقه بندی و ارزیابی عملکرد آن در طبقه بندی احساسات
همچنین سعی کنید یک API بسازید که به کاربران امکان می دهد یک توییت یا لیستی از توییت ها را وارد کنند و یک پیش بینی احساسات را در زمان واقعی دریافت کنند.
3. تقسیم بندی مشتری با استفاده از مجموعه داده خرده فروشی آنلاین
تقسیمبندی مشتری به کسبوکارها کمک میکند تا استراتژیهای بازاریابی را برای گروههای مختلف مشتریان بر اساس رفتارشان تنظیم کنند. شما روی استفاده از تکنیکهای خوشهبندی برای گروهبندی مشتریان برای هدفگیری بهتر بخشهای خاص مشتری تمرکز خواهید کرد.
هدف: مشتریان را بر اساس الگوهای خرید و رفتارشان به گروه های مجزا تقسیم کنید.
مجموعه داده: مجموعه داده خرده فروشی آنلاین
حوزه های تمرکز: یادگیری بدون نظارت، تکنیک های خوشه بندی (K-Means، DBSCAN)، مهندسی ویژگی، تجزیه و تحلیل RFM
تمرکز کنید:
- پیش پردازش مجموعه داده
- ایجاد ویژگی های معنادار مانند تازگی، فرکانس، ارزش پولی – امتیازات RFM – از ویژگی های موجود
- استفاده از تکنیک هایی مانند K-Means یا DBSCAN برای تقسیم بندی مشتریان بر اساس امتیازات RFM
- استفاده از معیارهایی مانند امتیاز شبح برای ارزیابی کیفیت خوشه بندی
- تجسم بخش های مشتری با استفاده از نمودارهای دو بعدی برای درک توزیع مشتریان در بخش های مختلف
همچنین سعی کنید با استفاده از Streamlit یا Plotly Dash یک داشبورد تعاملی بسازید تا بخشهای مشتری را تجسم کنید و معیارهای کلیدی مانند درآمد به بخش، ارزش طول عمر مشتری (CLV) و ریسک ریزش را بررسی کنید.
4. پیشبینی ریزش مشتری در مجموعه دادههای ریزش مشتری Telco
پیشبینی ریزش مشتری برای مشاغلی که به مدلهای اشتراک متکی هستند ضروری است. پروژههای پیشبینی ریزش شامل ساخت یک مدل طبقهبندی برای شناسایی مشتریانی است که احتمالاً آنها را ترک میکنند، که میتواند به شرکتها در طراحی استراتژیهای حفظ بهتر کمک کند.
هدف: یک مدل طبقه بندی برای پیش بینی ریزش مشتری بر اساس ویژگی های مختلف مانند جمعیت شناسی مشتری، اطلاعات قرارداد و داده های استفاده بسازید.
مجموعه داده: مجموعه داده های Churn مشتری Telco
حوزه های تمرکز: طبقه بندی، مدیریت داده های نامتعادل، مهندسی ویژگی و انتخاب
تمرکز کنید:
- انجام EDA و پیش پردازش داده ها
- مهندسی ویژگی برای ایجاد متغیرهای نماینده جدید
- بررسی و رسیدگی به عدم تعادل کلاس
- آموزش مدل طبقه بندی با استفاده از الگوریتم های مناسب و ارزیابی مدل
همچنین میتوانید داشبوردی برای تجسم پیشبینیهای ریزش و تجزیه و تحلیل عوامل خطر بر اساس نوع قرارداد، استفاده از خدمات و سایر متغیرهای کلیدی بسازید.
5. سیستم توصیه فیلم با استفاده از مجموعه داده MovieLens
سیستمهای توصیهکننده در بسیاری از صنایع – بهویژه در پلتفرمهای پخش جریانی و تجارت الکترونیک – استفاده میشوند، زیرا با پیشنهاد محصولات یا محتوا بر اساس ترجیحات کاربر، به شخصیسازی تجربه کاربر کمک میکنند.
هدف: سیستم توصیهای بسازید که فیلمها را بر اساس سابقه و اولویتهای تماشای گذشته به کاربران پیشنهاد میکند.
مجموعه داده: مجموعه داده MovieLens
حوزه های تمرکز: تکنیک های فیلتر مشارکتی، فاکتورسازی ماتریس (SVD)، فیلتر مبتنی بر محتوا
تمرکز کنید:
- پیش پردازش داده ها
- استفاده از تکنیکهای فیلتر مشارکتی – فیلتر مشارکتی کاربر-مورد و فاکتورسازی ماتریس
- بررسی فیلترینگ مبتنی بر محتوا
- ارزیابی مدل برای ارزیابی کیفیت توصیه
یک API ایجاد کنید که در آن کاربران بتوانند تنظیمات برگزیده فیلم خود را وارد کرده و پیشنهادات فیلم را دریافت کنند. سیستم توصیه را در پلتفرم های ابری مستقر کنید و از طریق یک برنامه وب به آن دسترسی داشته باشید.
بسته بندی
همانطور که روی پروژه ها کار می کنید، خواهید دید که یاد می گیرید کار با مجموعه داده های دنیای واقعی اغلب چالش برانگیز است. اما در طول مسیر چیزهای زیادی یاد خواهید گرفت و درک خواهید کرد که چگونه از یادگیری ماشینی برای حل مشکلات دنیای واقعی که مهم هستند استفاده کنید.
با فراتر رفتن از مدلهای موجود در محیطهای نوتبوک Jupyter با ساختن با API و داشبورد، تجربه یادگیری ماشینی کاربردی و سرتاسری به دست خواهید آورد که مفید است.
پس منتظر چی هستی؟ چند فنجان قهوه بگیرید و شروع به کدنویسی کنید!