دستورالعمل های آماده سازی Data4ML (فراتر از اصول)


نویسنده(های): هوسم بن براییک

در ابتدا منتشر شد به سمت هوش مصنوعی.

آماده‌سازی داده‌ها فقط بخشی از آن نیست ML فرآیند مهندسی – قلب آن است.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

عکس از Myriam Jessier در Unsplash

برای تنظیم مرحله، اجازه دهید تفاوت های ظریف بین داده های مرحله تحقیق و داده های مرحله تولید را بررسی کنیم.

جدول: فاز تحقیق در مقابل فاز تولید مجموعه داده ها

تضاد «داده‌های تولید» را که در این پست «داده» می‌نامیم برجسته می‌کند. داده ها یک تمایز کلیدی در ML پروژه ها (اطلاعات بیشتر در مورد این در پست وبلاگ من در زیر).

ما الگوریتم های بهتری نداریم. ما فقط داده های بیشتری داریم – پیتر نورویگ، اثربخشی نامعقول داده ها.

medium.com

در اینجا، من بر آماده کردن آن برای دستیابی به کیفیت مورد نیاز برای موفقیت تمرکز خواهم کرد. این پست به مراحل کلیدی برای آماده سازی داده ها برای ساختن سیستم های ML دنیای واقعی می پردازد. هر مرحله مملو از نکات عملی است تا فرآیند شما را ساده و موثر نگه دارد.

بلع داده ها تضمین می کند که تمام داده های مربوطه جمع آوری، مستند و قابل ردیابی هستند. این شامل عملیات اصلی زیر است:

1. اتصال به داده: داده ها ممکن است در قالب ها، منابع و فرکانس ها پراکنده باشند.

2. خواندن داده ها: تجمیع همه منابع در یک مجموعه داده ترکیبی واحد.

3. خروجی نوشتن: متمرکز کردن داده ها در یک ساختار، مانند جدول دلتا.

این مرحله که اغلب با مهندسان داده انجام می‌شود، یک عکس فوری داده‌ای قابل تکرار از منابعی مانند پایگاه‌های داده تولید یا APIها را تضمین می‌کند.

با خط لوله و عکس‌های فوری افزایشی، اسناد فراداده برای ردیابی ضروری است:

منبع داده… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/data4ml-preparation-guidelines-beyond-the-basics