5 پروژه یادگیری ماشینی در دنیای واقعی که می توانید این آخر هفته بسازید

5 پروژه یادگیری ماشینی در دنیای واقعی که می توانید این آخر هفته بسازید
تصویر نویسنده | ایجاد شده در Canva

ساختن پروژه های یادگیری ماشینی با استفاده از مجموعه داده های دنیای واقعی، راهی موثر برای به کارگیری آنچه آموخته اید است. کار با مجموعه داده های دنیای واقعی به شما کمک می کند تا اطلاعات زیادی در مورد تمیز کردن و تجزیه و تحلیل داده های آشفته، مدیریت عدم تعادل کلاس و موارد دیگر بیاموزید. اما برای ساختن مدل‌های یادگیری ماشینی واقعاً مفید، مهم است که فراتر از آموزش و ارزیابی مدل‌ها برویم و در صورت نیاز API و داشبورد بسازیم.

در این راهنما، ما پنج پروژه یادگیری ماشینی را که می‌توانید در آخر هفته (به معنای واقعی کلمه!) با استفاده از مجموعه داده‌های در دسترس عموم بسازید، بیان می‌کنیم. برای هر پروژه پیشنهاد می کنیم:

مجموعه داده مورد استفاده
هدف پروژه
مناطق تمرکز (بنابراین می توانید مفاهیم را یاد بگیرید یا در صورت لزوم دوباره مرور کنید)
وظایفی که هنگام ساخت مدل باید روی آنها تمرکز کرد

بیایید درست شیرجه بزنیم!

1. پیش بینی قیمت خانه با استفاده از مجموعه داده مسکن Ames

شروع کوچک و ساده همیشه آسان است. پیش‌بینی قیمت مسکن بر اساس ویژگی‌های ورودی یکی از مبتدی‌ترین پروژه‌هایی است که بر رگرسیون تمرکز دارد.

هدف: ساخت یک مدل رگرسیون برای پیش بینی قیمت مسکن بر اساس ویژگی های ورودی مختلف.

مجموعه داده: مجموعه داده مسکن ایمز

حوزه های تمرکز: رگرسیون خطی، مهندسی ویژگی و انتخاب، ارزیابی مدل های رگرسیون

تمرکز کنید:

EDA کامل برای درک داده ها
درج مقادیر گمشده
مدیریت ویژگی های طبقه بندی و مقیاس بندی ویژگی های عددی در صورت نیاز
مهندسی ویژگی در ستون های عددی
ارزیابی مدل با استفاده از معیارهای رگرسیون مانند RMSE (ریشه میانگین مربعات خطا)

هنگامی که یک مدل کار می کنید، می توانید از Flask یا FastAPI برای ایجاد یک API استفاده کنید، جایی که کاربران می توانند جزئیات ویژگی ها را وارد کرده و پیش بینی قیمت را دریافت کنند.

2. تحلیل احساسات توییت ها

تجزیه و تحلیل احساسات توسط مشاغل برای نظارت بر بازخورد مشتریان استفاده می شود. شما می توانید با کار بر روی پروژه ای برای تجزیه و تحلیل احساسات توییت ها، تحلیل احساسات را شروع کنید.

هدف: یک مدل تحلیل احساسات بسازید که می تواند توییت ها را بر اساس محتوایشان به عنوان مثبت، منفی یا خنثی طبقه بندی کند.

مجموعه داده: مجموعه داده های تحلیل احساسات توییتر

حوزه های تمرکز: مبانی پردازش زبان طبیعی (NLP)، پیش پردازش متن، طبقه بندی متن

تمرکز کنید:

پیش پردازش متن
مهندسی ویژگی: از امتیازات TF-IDF (Term Frequency-Inverse Document Frequency) یا جاسازی کلمه برای تبدیل داده های متنی به ویژگی های عددی استفاده کنید.
آموزش یک مدل طبقه بندی و ارزیابی عملکرد آن در طبقه بندی احساسات

همچنین سعی کنید یک API بسازید که به کاربران امکان می دهد یک توییت یا لیستی از توییت ها را وارد کنند و یک پیش بینی احساسات را در زمان واقعی دریافت کنند.

3. تقسیم بندی مشتری با استفاده از مجموعه داده خرده فروشی آنلاین

تقسیم‌بندی مشتری به کسب‌وکارها کمک می‌کند تا استراتژی‌های بازاریابی را برای گروه‌های مختلف مشتریان بر اساس رفتارشان تنظیم کنند. شما روی استفاده از تکنیک‌های خوشه‌بندی برای گروه‌بندی مشتریان برای هدف‌گیری بهتر بخش‌های خاص مشتری تمرکز خواهید کرد.

هدف: مشتریان را بر اساس الگوهای خرید و رفتارشان به گروه های مجزا تقسیم کنید.

مجموعه داده: مجموعه داده خرده فروشی آنلاین

حوزه های تمرکز: یادگیری بدون نظارت، تکنیک های خوشه بندی (K-Means، DBSCAN)، مهندسی ویژگی، تجزیه و تحلیل RFM

تمرکز کنید:

پیش پردازش مجموعه داده
ایجاد ویژگی های معنادار مانند تازگی، فرکانس، ارزش پولی – امتیازات RFM – از ویژگی های موجود
استفاده از تکنیک هایی مانند K-Means یا DBSCAN برای تقسیم بندی مشتریان بر اساس امتیازات RFM
استفاده از معیارهایی مانند امتیاز شبح برای ارزیابی کیفیت خوشه بندی
تجسم بخش های مشتری با استفاده از نمودارهای دو بعدی برای درک توزیع مشتریان در بخش های مختلف

همچنین سعی کنید با استفاده از Streamlit یا Plotly Dash یک داشبورد تعاملی بسازید تا بخش‌های مشتری را تجسم کنید و معیارهای کلیدی مانند درآمد به بخش، ارزش طول عمر مشتری (CLV) و ریسک ریزش را بررسی کنید.

4. پیش‌بینی ریزش مشتری در مجموعه داده‌های ریزش مشتری Telco

پیش‌بینی ریزش مشتری برای مشاغلی که به مدل‌های اشتراک متکی هستند ضروری است. پروژه‌های پیش‌بینی ریزش شامل ساخت یک مدل طبقه‌بندی برای شناسایی مشتریانی است که احتمالاً آنها را ترک می‌کنند، که می‌تواند به شرکت‌ها در طراحی استراتژی‌های حفظ بهتر کمک کند.

هدف: یک مدل طبقه بندی برای پیش بینی ریزش مشتری بر اساس ویژگی های مختلف مانند جمعیت شناسی مشتری، اطلاعات قرارداد و داده های استفاده بسازید.

مجموعه داده: مجموعه داده های Churn مشتری Telco

حوزه های تمرکز: طبقه بندی، مدیریت داده های نامتعادل، مهندسی ویژگی و انتخاب

تمرکز کنید:

انجام EDA و پیش پردازش داده ها
مهندسی ویژگی برای ایجاد متغیرهای نماینده جدید
بررسی و رسیدگی به عدم تعادل کلاس
آموزش مدل طبقه بندی با استفاده از الگوریتم های مناسب و ارزیابی مدل

همچنین می‌توانید داشبوردی برای تجسم پیش‌بینی‌های ریزش و تجزیه و تحلیل عوامل خطر بر اساس نوع قرارداد، استفاده از خدمات و سایر متغیرهای کلیدی بسازید.

5. سیستم توصیه فیلم با استفاده از مجموعه داده MovieLens

سیستم‌های توصیه‌کننده در بسیاری از صنایع – به‌ویژه در پلتفرم‌های پخش جریانی و تجارت الکترونیک – استفاده می‌شوند، زیرا با پیشنهاد محصولات یا محتوا بر اساس ترجیحات کاربر، به شخصی‌سازی تجربه کاربر کمک می‌کنند.

هدف: سیستم توصیه‌ای بسازید که فیلم‌ها را بر اساس سابقه و اولویت‌های تماشای گذشته به کاربران پیشنهاد می‌کند.

مجموعه داده: مجموعه داده MovieLens

حوزه های تمرکز: تکنیک های فیلتر مشارکتی، فاکتورسازی ماتریس (SVD)، فیلتر مبتنی بر محتوا

تمرکز کنید:

پیش پردازش داده ها
استفاده از تکنیک‌های فیلتر مشارکتی – فیلتر مشارکتی کاربر-مورد و فاکتورسازی ماتریس
بررسی فیلترینگ مبتنی بر محتوا
ارزیابی مدل برای ارزیابی کیفیت توصیه

یک API ایجاد کنید که در آن کاربران بتوانند تنظیمات برگزیده فیلم خود را وارد کرده و پیشنهادات فیلم را دریافت کنند. سیستم توصیه را در پلتفرم های ابری مستقر کنید و از طریق یک برنامه وب به آن دسترسی داشته باشید.

بسته بندی

همانطور که روی پروژه ها کار می کنید، خواهید دید که یاد می گیرید کار با مجموعه داده های دنیای واقعی اغلب چالش برانگیز است. اما در طول مسیر چیزهای زیادی یاد خواهید گرفت و درک خواهید کرد که چگونه از یادگیری ماشینی برای حل مشکلات دنیای واقعی که مهم هستند استفاده کنید.

با فراتر رفتن از مدل‌های موجود در محیط‌های نوت‌بوک Jupyter با ساختن با API و داشبورد، تجربه یادگیری ماشینی کاربردی و سرتاسری به دست خواهید آورد که مفید است.

پس منتظر چی هستی؟ چند فنجان قهوه بگیرید و شروع به کدنویسی کنید!

درباره بالا پریا سی

Bala Priya C یک توسعه دهنده و نویسنده فنی از هند است. او دوست دارد در تقاطع ریاضی، برنامه نویسی، علم داده و تولید محتوا کار کند. زمینه های مورد علاقه و تخصص او شامل DevOps، علم داده و پردازش زبان طبیعی است. او از خواندن، نوشتن، کدنویسی و قهوه لذت می برد! در حال حاضر، او در حال کار بر روی یادگیری و به اشتراک گذاری دانش خود با جامعه توسعه دهندگان با نوشتن آموزش ها، راهنماهای نحوه انجام، نظرات و موارد دیگر است. Bala همچنین مروری بر منابع جذاب و آموزش های کدنویسی ایجاد می کند.

منبع: machinelearningmastery.com