دانشمندان داده در عصر عوامل هوش مصنوعی و AutoML

نویسنده(ها): ادواردو دی نیگریس

در ابتدا منتشر شد به سمت هوش مصنوعی.

واقعیت ناخوشایند: در دوران مدل های زبان بزرگ (LLMs) و AutoMLمهارت‌های سنتی مانند اسکریپت‌نویسی پایتون، SQL و ساخت مدل‌های پیش‌بین دیگر برای دانشمند داده کافی نیست تا در بازار رقابتی باقی بماند.

آیا ما پخته ایم؟ بستگی دارد. در این مقاله من 2 سنت خود را در مورد آنچه که فکر می‌کنم تمرکز بر آن برای کاندیدای قوی از سال 2025 به بعد مفید است، می‌دهم.

مهارت های کدنویسی همچنان مهم هستند، اما ارزش واقعی دانشمندان داده امروزه در حال تغییر است. این موضوع کمتر به ساخت مدل‌ها می‌پردازد و بیشتر به نحوه قرار گرفتن آن مدل‌ها در سیستم‌های مقیاس‌پذیر و حیاتی تجاری – معمولاً در فضای ابری، مربوط می‌شود.

نقش دانشمند داده آنقدر سریع در حال تغییر است که اغلب مدارس نمی توانند آن را ادامه دهند. دانشگاه‌ها هنوز بیشتر بر مواردی مانند EDA، تمیز کردن داده‌ها و مدل‌های ساختمان/تنظیم دقیق تمرکز می‌کنند. اینها مهم هستند، اما فقط بخش کوچکی از آنچه شرکت ها در حال حاضر واقعاً به آن نیاز دارند هستند. چرا؟ از آنجا که شغل دیگر فقط در مورد کدنویسی در نوت بوک نیست – بلکه ساخت راه حل های سرتاسری است که در واقع در دنیای واقعی کار می کنند.

چرا؟

ما به نقطه ای رسیدیم که تعداد زیادی از آنها وجود دارد مدل های از پیش آموزش دیده، اغلب نیازی به اختراع مجدد همه چیز از ابتدا نیست، ما فقط می توانیم در سطح بالاتری از انتزاع کار کنیم
عوامل هوش مصنوعی در حال تبدیل شدن به یک چیز هستند
AutoML و دیگر پلتفرم‌های کم‌کد، مهارت‌های کدنویسی را کمتر مهم می‌کنند

در این سناریو من معتقدم که یک دانشمند داده باید خود را متمایز کند و باید بر کل چرخه زندگی داده ها تسلط داشته باشد: از ساختن. خطوط لوله دادهآموزش ساخت و بهینه سازی مدل، تسلط بر کانتینر/ارکستراتورها، استقرار و فراتر از آن. به زبان ساده، تمرکز صرفاً بر تجزیه و تحلیل داده ها، کدنویسی یا مدل سازی دیگر آن را برای اکثر مشاغل شرکت کاهش نمی دهد.

آن وقت چه باید کرد؟ نظر شخصی من: بودن مهمتر از همیشه است “دانشمند داده سرتاسر”.

بله، می دانم، نوار بالاتر می رود، دوران اسکریپت نویسی و مدل سازی در نوت بوک های Jupyter به تنهایی به پایان رسیده است.

نقش‌های داده کمتر بر روی کدنویسی متمرکز می‌شوند و بیشتر بر داشتن درک کلی از کل زیرساخت داده و کسب‌وکار متمرکز می‌شوند. به عنوان یک قیاس، آن را مانند اداره یک رستوران در نظر بگیرید. دانشمند داده سرآشپز است – آنها مسئول تصمیمات بزرگ و تاثیرگذار هستند، مانند ایجاد منو، انتخاب مواد تشکیل دهنده، و طراحی حال و هوای مکان. در همین حال، عوامل هوش مصنوعی (یا autoML) مانند دستیاران آشپزخانه، پیشخدمت‌ها و صندوق‌دارها هستند – آن‌ها وظایف تکراری و معمول کدگذاری را انجام می‌دهند تا همه چیز را به خوبی اجرا کنند. وظیفه سرآشپز تمرکز بر کارهای خلاقانه و استراتژیک است که رستوران را متمایز می کند، در حالی که هوش مصنوعی مراقب بقیه است.

در این رابطه، من معتقدم آینده علم داده متعلق به کسانی است:

که می تواند نقاط را به هم متصل کند و نتایج را در کل چرخه عمر داده ارائه دهد.
هوش تجاری قوی داشته باشید و راه حلی ارائه دهید که یا به طور گسترده مورد استفاده قرار می گیرد یا باعث افزایش درآمد / کاهش هزینه ها می شود.

بیایید در آن حفاری کنیم. من فکر می‌کنم یک متخصص داده رقابتی در سال 2025 باید درک جامعی از کل چرخه عمر داده‌ها داشته باشد، بدون اینکه لزوماً در کدنویسی به خودی خود بسیار خوب باشد.

اینها در عوض برخی از مهارت هایی هستند که من به شدت به آنها تسلط دارم:

مبانی نظری: درک قوی از مفاهیمی مانند تجزیه و تحلیل داده های اکتشافی (EDA)، پیش پردازش داده ها، و شیوه های آموزش/تنظیم/آزمایش، ML مدل ها ضروری است شما باید داده ها، نحوه استخراج ارزش از آنها و نحوه نظارت بر عملکرد مدل را درک کنید.
تخصص برنامه نویسی: تسلط متوسط/بالا در پایتون و SQL کافی است. این دو زبان بیشتر گردش‌های کاری علم داده را پوشش می‌دهند. علاوه بر این، زبان‌هایی مانند DAX می‌توانند برای موارد استفاده خاص شامل مدل‌های داده و داشبورد مفید باشند. تاکید زیادی بر تولید کد نیست، بلکه بر درک و سفارشی سازی آن تاکید می شود.
استقرار مدل: توانایی ساخت برنامه هایی که مدل ها را عملیاتی می کنند، مانند برنامه های Flask یا جنگو، به طور فزاینده ای حیاتی است. بنابراین درک اساسی از html برای ایجاد فرانت‌اندهای ساده و همچنین میزبانی برنامه‌ها در سرویس‌های ابری مانند Google Cloud Run یا Heroku. هنگامی که می خواهید به سرعت یک MVP ایجاد کنید که ذینفعان بتوانند فوراً با آن کار کنند، این یک مزیت بزرگ ایجاد می کند.
کانتینرسازی و ارکستراسیون: آشنایی با Docker، Containers، Airflow/Kubeflow و Kubernetes تضمین می کند که می توانید سازگاری و مقیاس پذیری را در محیط های مختلف ارائه دهید.
پلتفرم های ابری: تخصص در حداقل یک ارائه دهنده ابر اصلی (مانند AWS، Google Cloud یا Azure) ضروری است. به عنوان مثال در اکوسیستم Google Cloud، درک نحوه تعامل ابزارهای مختلف با یکدیگر: BigQuery، Cloud Storage، Cloud Build، Cloud Run، Vertex AI، Container Registry و Composer مانند AirFlow یا Kubeflow به طور فزاینده ای ضروری هستند.
شیوه های CI/CD: بله، شما باید در توسعه نرم افزار نیز شایسته باشید. حداقل بهترین شیوه های فرآیندهای یکپارچه سازی و تحویل مداوم (CI/CD) را بشناسید – استفاده از GitHub برای کنترل نسخه، فایل های YAML برای اتوماسیون ساخت و غیره.
نظارت و نگهداری پس از استقرار: مدیریت مدل های مستقر شامل نظارت بر جابجایی داده ها، مشکلات عملکرد مدل و خطاهای عملیاتی و همچنین انجام تست A/B بر روی مدل های مختلف شما می باشد. ابزارهایی مانند Google Cloud Monitoring، چارچوب های گزارش و سیستم های مدیریت مصنوعات برای حفظ قابلیت اطمینان و شفافیت ضروری هستند.
درک مدل داده ها و فروشگاه های ویژگی: بزرگترین دروغی که به دانشجویان و تمرین‌کنندگان جوان گفته شده این است مجموعه داده ها و ویژگی ها در حال حاضر برای تجزیه و تحلیل وجود دارد. در واقع شما بیشتر وقت را صرف ساختن آنها از ابتدا می کنید، به گونه ای که در آینده و/یا توسط تیم های دیگر شرکت شما قابل استفاده مجدد باشد.

و همچنین، دست کم گرفته شده ترین مهارت: هوش تجاری

دانستن اینکه چگونه با افراد غیر فنی ارتباط برقرار کنید یکی از با ارزش ترین مهارت هاست شما باید بتوانید چیزهای پیچیده را به راحتی توضیح دهید بدون اینکه آنها را بیهوده کنید.
درک کسب و کار داده‌هایی که با آنها کار می‌کنید همان چیزی است که ارزش نهایی را ایجاد می‌کند و جایگزینی با هوش مصنوعی دشوار است.
مهارت های مدیریت پروژه در درک سرعت تکرار پروژه های داده، از MVP تا محصول نهایی.
توانایی ارزیابی هزینه ها برای پروژه های آینده شرکت های مشاور شخص ثالث

این رویکرد کل نگر به طور نزدیک با اصول MLOs (یادگیری ماشینی عملیات)، روشی که یادگیری ماشین را با مهندسی نرم افزار و DevOps ترکیب می کند تا از گردش کار مقیاس پذیر، قابل نگهداری و کارآمد اطمینان حاصل کند.

در حالی که برخی ممکن است استدلال کنند که دانشمندان داده عمدتاً بر روی مدل‌های نوت‌بوک‌های Jupyter تمرکز می‌کنند، مهندسان داده جداول و خطوط لوله داده، معماران ابر زیرساخت ها را مدیریت می کنند و مهندسان یادگیری ماشین در ساخت و بهینه سازی خطوط لوله تخصص دارند، این نقش ها به طور فزاینده ای با هم تداخل دارند. به نظر من، مرزهای بین آنها همچنان محو خواهد شد زیرا کسب و کارها راه حل های انتها به انتها و تخصص متقابل را در اولویت قرار می دهند.

ممنون از وقتی که گذاشتید، کنجکاو هستم که نظرات شما را در کامنت بدانم!

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/data-scientists-in-the-age-of-ai-agents-and-automl