5 مجموعه داده رایگان برای شروع پروژه های یادگیری ماشینی امروز

5 مجموعه داده رایگان برای شروع پروژه های یادگیری ماشینی امروز
تصویر توسط ویرایشگر | میانه سفر

مجموعه داده های رایگان زیادی به صورت آنلاین وجود دارد که به شما کمک می کند تمرین کنید و یاد بگیرید. این مجموعه داده ها به شما امکان می دهد تکنیک های مختلف یادگیری ماشینی را امتحان کنید و مهارت های خود را بهبود بخشید. شما می توانید این مجموعه داده ها را در پلتفرم هایی مانند Kaggle و UCI Machine Learning Repository پیدا کنید. در اینجا پنج مجموعه داده رایگان وجود دارد که می تواند به شما کمک کند پروژه های یادگیری ماشینی خود را شروع کنید.

1. Iris Dataset

توضیحات: مجموعه داده های زنبق دارای اطلاعاتی در مورد سه نوع گل زنبق است: Setosa، Versicolor، و Virginica. مجموعه داده شامل چهار ویژگی است: طول کاسبرگ، عرض کاسبرگ، طول گلبرگ و عرض گلبرگ.

موارد استفاده:

آموزش الگوریتم‌های یادگیری تحت نظارت مانند درخت‌های تصمیم، k-نزدیک‌ترین همسایه‌ها و ماشین‌های بردار پشتیبانی.
انجام تجزیه و تحلیل داده های اکتشافی (EDA) و تجسم هایی مانند نمودارهای پراکنده و نمودارهای زوجی.
تمرین تکنیک های مقیاس بندی و انتخاب ویژگی ها.

پیوند: مجموعه داده Iris در مخزن یادگیری ماشین UCI

2. ارقام دست نویس MNIST

توضیحات: مجموعه داده MNIST شامل 70000 عکس از اعداد دست نویس از 0 تا 9 است. هر تصویر یک تصویر در مقیاس خاکستری با اندازه 28 در 28 پیکسل است.

موارد استفاده:

آموزش مدل های یادگیری عمیق برای دسته بندی ارقام دست نویس.
یادگیری در مورد تکنیک های پردازش تصویر مانند عادی سازی و تقویت تصویر.
درک نحوه ساخت مدل هایی که می توانند تصاویر را در دسته های مختلف طبقه بندی کنند.

پیوند: مجموعه داده های MNIST در وب سایت Yann LeCun

3. مجموعه داده مسکن بوستون

توضیحات: این مجموعه داده حاوی اطلاعاتی درباره قیمت مسکن در حومه بوستون است. این شامل ویژگی هایی مانند نرخ جرم، سن ملک، و تعداد اتاق است.

موارد استفاده:

پیش‌بینی قیمت مسکن با استفاده از رگرسیون خطی یا سایر مدل‌های رگرسیونی.
انجام مهندسی ویژگی، مانند تبدیل متغیرها یا برخورد با چند خطی.
تمرین اعتبارسنجی متقاطع و تنظیم فراپارامتر برای وظایف رگرسیون.

پیوند: مجموعه داده مسکن بوستون در Kaggle

4. مجموعه داده های کیفیت شراب

توضیحات: این مجموعه داده اطلاعاتی در مورد شراب های قرمز و سفید دارد. این شامل خواص شیمیایی و رتبه بندی کیفیت آنها است. حاوی ویژگی هایی مانند اسیدیته، محتوای قند و سطح الکل است.

موارد استفاده:

تعیین کیفیت استفاده از خصوصیات شیمیایی آن.
آموزش هر دو مدل طبقه بندی و رگرسیون، بسته به ماهیت پیش بینی.
یافتن روش هایی برای مقیاس بندی ویژگی و کاهش ابعاد.

پیوند: مجموعه داده های کیفیت شراب در مخزن یادگیری ماشین UCI

5. مجموعه داده تایتانیک

توضیحات: مجموعه داده تایتانیک شامل جزئیاتی درباره مسافران کشتی تایتانیک است، مانند سن، جنسیت، کلاس و اینکه آیا از فاجعه جان سالم به در برده اند یا خیر.

موارد استفاده:

پیش بینی اینکه آیا یک مسافر از فاجعه تایتانیک با استفاده از الگوریتم های طبقه بندی مانند رگرسیون لجستیک یا جنگل های تصادفی جان سالم به در برده است یا خیر.
تمرین وظایف پیش پردازش داده ها مانند رمزگذاری متغیرهای طبقه بندی شده و عادی سازی ویژگی های عددی.
مدیریت داده های از دست رفته و انجام مهندسی ویژگی بر روی داده های دنیای واقعی.

پیوند: مجموعه داده تایتانیک در Kaggle

بسته بندی

در نتیجه، این پنج مجموعه داده رایگان برای شروع پروژه های یادگیری ماشین شما عالی هستند. آنها چندین کار را پوشش می دهند، از طبقه بندی تا رگرسیون. از این مجموعه داده‌ها برای کشف تکنیک‌های یادگیری ماشین و ساختن نمونه کارها استفاده کنید.

درباره جایتا گولاتی

Jayita Gulati یک علاقه‌مند به یادگیری ماشین و نویسنده فنی است که با اشتیاق خود به ساخت مدل‌های یادگیری ماشینی هدایت می‌شود. او دارای مدرک کارشناسی ارشد در رشته علوم کامپیوتر از دانشگاه لیورپول است.

منبع: machinelearningmastery.com