نویسنده(های): هوسم بن براییک
در ابتدا منتشر شد به سمت هوش مصنوعی.
آمادهسازی دادهها فقط بخشی از آن نیست ML فرآیند مهندسی – قلب آن است.
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
برای تنظیم مرحله، اجازه دهید تفاوت های ظریف بین داده های مرحله تحقیق و داده های مرحله تولید را بررسی کنیم.
تضاد «دادههای تولید» را که در این پست «داده» مینامیم برجسته میکند. داده ها یک تمایز کلیدی در ML پروژه ها (اطلاعات بیشتر در مورد این در پست وبلاگ من در زیر).
ما الگوریتم های بهتری نداریم. ما فقط داده های بیشتری داریم – پیتر نورویگ، اثربخشی نامعقول داده ها.
medium.com
در اینجا، من بر آماده کردن آن برای دستیابی به کیفیت مورد نیاز برای موفقیت تمرکز خواهم کرد. این پست به مراحل کلیدی برای آماده سازی داده ها برای ساختن سیستم های ML دنیای واقعی می پردازد. هر مرحله مملو از نکات عملی است تا فرآیند شما را ساده و موثر نگه دارد.
بلع داده ها تضمین می کند که تمام داده های مربوطه جمع آوری، مستند و قابل ردیابی هستند. این شامل عملیات اصلی زیر است:
1. اتصال به داده: داده ها ممکن است در قالب ها، منابع و فرکانس ها پراکنده باشند.
2. خواندن داده ها: تجمیع همه منابع در یک مجموعه داده ترکیبی واحد.
3. خروجی نوشتن: متمرکز کردن داده ها در یک ساختار، مانند جدول دلتا.
این مرحله که اغلب با مهندسان داده انجام میشود، یک عکس فوری دادهای قابل تکرار از منابعی مانند پایگاههای داده تولید یا APIها را تضمین میکند.
با خط لوله و عکسهای فوری افزایشی، اسناد فراداده برای ردیابی ضروری است:
منبع داده… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/data4ml-preparation-guidelines-beyond-the-basics