نویسنده(ها): ادواردو دی نیگریس
در ابتدا منتشر شد به سمت هوش مصنوعی.
واقعیت ناخوشایند: در دوران مدل های زبان بزرگ (LLMs) و AutoMLمهارتهای سنتی مانند اسکریپتنویسی پایتون، SQL و ساخت مدلهای پیشبین دیگر برای دانشمند داده کافی نیست تا در بازار رقابتی باقی بماند.
آیا ما پخته ایم؟ بستگی دارد. در این مقاله من 2 سنت خود را در مورد آنچه که فکر میکنم تمرکز بر آن برای کاندیدای قوی از سال 2025 به بعد مفید است، میدهم.
مهارت های کدنویسی همچنان مهم هستند، اما ارزش واقعی دانشمندان داده امروزه در حال تغییر است. این موضوع کمتر به ساخت مدلها میپردازد و بیشتر به نحوه قرار گرفتن آن مدلها در سیستمهای مقیاسپذیر و حیاتی تجاری – معمولاً در فضای ابری، مربوط میشود.
نقش دانشمند داده آنقدر سریع در حال تغییر است که اغلب مدارس نمی توانند آن را ادامه دهند. دانشگاهها هنوز بیشتر بر مواردی مانند EDA، تمیز کردن دادهها و مدلهای ساختمان/تنظیم دقیق تمرکز میکنند. اینها مهم هستند، اما فقط بخش کوچکی از آنچه شرکت ها در حال حاضر واقعاً به آن نیاز دارند هستند. چرا؟ از آنجا که شغل دیگر فقط در مورد کدنویسی در نوت بوک نیست – بلکه ساخت راه حل های سرتاسری است که در واقع در دنیای واقعی کار می کنند.
چرا؟
- ما به نقطه ای رسیدیم که تعداد زیادی از آنها وجود دارد مدل های از پیش آموزش دیده، اغلب نیازی به اختراع مجدد همه چیز از ابتدا نیست، ما فقط می توانیم در سطح بالاتری از انتزاع کار کنیم
- عوامل هوش مصنوعی در حال تبدیل شدن به یک چیز هستند
- AutoML و دیگر پلتفرمهای کمکد، مهارتهای کدنویسی را کمتر مهم میکنند
در این سناریو من معتقدم که یک دانشمند داده باید خود را متمایز کند و باید بر کل چرخه زندگی داده ها تسلط داشته باشد: از ساختن. خطوط لوله دادهآموزش ساخت و بهینه سازی مدل، تسلط بر کانتینر/ارکستراتورها، استقرار و فراتر از آن. به زبان ساده، تمرکز صرفاً بر تجزیه و تحلیل داده ها، کدنویسی یا مدل سازی دیگر آن را برای اکثر مشاغل شرکت کاهش نمی دهد.
آن وقت چه باید کرد؟ نظر شخصی من: بودن مهمتر از همیشه است “دانشمند داده سرتاسر”.
بله، می دانم، نوار بالاتر می رود، دوران اسکریپت نویسی و مدل سازی در نوت بوک های Jupyter به تنهایی به پایان رسیده است.
نقشهای داده کمتر بر روی کدنویسی متمرکز میشوند و بیشتر بر داشتن درک کلی از کل زیرساخت داده و کسبوکار متمرکز میشوند. به عنوان یک قیاس، آن را مانند اداره یک رستوران در نظر بگیرید. دانشمند داده سرآشپز است – آنها مسئول تصمیمات بزرگ و تاثیرگذار هستند، مانند ایجاد منو، انتخاب مواد تشکیل دهنده، و طراحی حال و هوای مکان. در همین حال، عوامل هوش مصنوعی (یا autoML) مانند دستیاران آشپزخانه، پیشخدمتها و صندوقدارها هستند – آنها وظایف تکراری و معمول کدگذاری را انجام میدهند تا همه چیز را به خوبی اجرا کنند. وظیفه سرآشپز تمرکز بر کارهای خلاقانه و استراتژیک است که رستوران را متمایز می کند، در حالی که هوش مصنوعی مراقب بقیه است.
در این رابطه، من معتقدم آینده علم داده متعلق به کسانی است:
- که می تواند نقاط را به هم متصل کند و نتایج را در کل چرخه عمر داده ارائه دهد.
- هوش تجاری قوی داشته باشید و راه حلی ارائه دهید که یا به طور گسترده مورد استفاده قرار می گیرد یا باعث افزایش درآمد / کاهش هزینه ها می شود.
بیایید در آن حفاری کنیم. من فکر میکنم یک متخصص داده رقابتی در سال 2025 باید درک جامعی از کل چرخه عمر دادهها داشته باشد، بدون اینکه لزوماً در کدنویسی به خودی خود بسیار خوب باشد.
اینها در عوض برخی از مهارت هایی هستند که من به شدت به آنها تسلط دارم:
- مبانی نظری: درک قوی از مفاهیمی مانند تجزیه و تحلیل داده های اکتشافی (EDA)، پیش پردازش داده ها، و شیوه های آموزش/تنظیم/آزمایش، ML مدل ها ضروری است شما باید داده ها، نحوه استخراج ارزش از آنها و نحوه نظارت بر عملکرد مدل را درک کنید.
- تخصص برنامه نویسی: تسلط متوسط/بالا در پایتون و SQL کافی است. این دو زبان بیشتر گردشهای کاری علم داده را پوشش میدهند. علاوه بر این، زبانهایی مانند DAX میتوانند برای موارد استفاده خاص شامل مدلهای داده و داشبورد مفید باشند. تاکید زیادی بر تولید کد نیست، بلکه بر درک و سفارشی سازی آن تاکید می شود.
- استقرار مدل: توانایی ساخت برنامه هایی که مدل ها را عملیاتی می کنند، مانند برنامه های Flask یا جنگو، به طور فزاینده ای حیاتی است. بنابراین درک اساسی از html برای ایجاد فرانتاندهای ساده و همچنین میزبانی برنامهها در سرویسهای ابری مانند Google Cloud Run یا Heroku. هنگامی که می خواهید به سرعت یک MVP ایجاد کنید که ذینفعان بتوانند فوراً با آن کار کنند، این یک مزیت بزرگ ایجاد می کند.
- کانتینرسازی و ارکستراسیون: آشنایی با Docker، Containers، Airflow/Kubeflow و Kubernetes تضمین می کند که می توانید سازگاری و مقیاس پذیری را در محیط های مختلف ارائه دهید.
- پلتفرم های ابری: تخصص در حداقل یک ارائه دهنده ابر اصلی (مانند AWS، Google Cloud یا Azure) ضروری است. به عنوان مثال در اکوسیستم Google Cloud، درک نحوه تعامل ابزارهای مختلف با یکدیگر: BigQuery، Cloud Storage، Cloud Build، Cloud Run، Vertex AI، Container Registry و Composer مانند AirFlow یا Kubeflow به طور فزاینده ای ضروری هستند.
- شیوه های CI/CD: بله، شما باید در توسعه نرم افزار نیز شایسته باشید. حداقل بهترین شیوه های فرآیندهای یکپارچه سازی و تحویل مداوم (CI/CD) را بشناسید – استفاده از GitHub برای کنترل نسخه، فایل های YAML برای اتوماسیون ساخت و غیره.
- نظارت و نگهداری پس از استقرار: مدیریت مدل های مستقر شامل نظارت بر جابجایی داده ها، مشکلات عملکرد مدل و خطاهای عملیاتی و همچنین انجام تست A/B بر روی مدل های مختلف شما می باشد. ابزارهایی مانند Google Cloud Monitoring، چارچوب های گزارش و سیستم های مدیریت مصنوعات برای حفظ قابلیت اطمینان و شفافیت ضروری هستند.
- درک مدل داده ها و فروشگاه های ویژگی: بزرگترین دروغی که به دانشجویان و تمرینکنندگان جوان گفته شده این است مجموعه داده ها و ویژگی ها در حال حاضر برای تجزیه و تحلیل وجود دارد. در واقع شما بیشتر وقت را صرف ساختن آنها از ابتدا می کنید، به گونه ای که در آینده و/یا توسط تیم های دیگر شرکت شما قابل استفاده مجدد باشد.
و همچنین، دست کم گرفته شده ترین مهارت: هوش تجاری
- دانستن اینکه چگونه با افراد غیر فنی ارتباط برقرار کنید یکی از با ارزش ترین مهارت هاست شما باید بتوانید چیزهای پیچیده را به راحتی توضیح دهید بدون اینکه آنها را بیهوده کنید.
- درک کسب و کار دادههایی که با آنها کار میکنید همان چیزی است که ارزش نهایی را ایجاد میکند و جایگزینی با هوش مصنوعی دشوار است.
- مهارت های مدیریت پروژه در درک سرعت تکرار پروژه های داده، از MVP تا محصول نهایی.
- توانایی ارزیابی هزینه ها برای پروژه های آینده شرکت های مشاور شخص ثالث
این رویکرد کل نگر به طور نزدیک با اصول MLOs (یادگیری ماشینی عملیات)، روشی که یادگیری ماشین را با مهندسی نرم افزار و DevOps ترکیب می کند تا از گردش کار مقیاس پذیر، قابل نگهداری و کارآمد اطمینان حاصل کند.
در حالی که برخی ممکن است استدلال کنند که دانشمندان داده عمدتاً بر روی مدلهای نوتبوکهای Jupyter تمرکز میکنند، مهندسان داده جداول و خطوط لوله داده، معماران ابر زیرساخت ها را مدیریت می کنند و مهندسان یادگیری ماشین در ساخت و بهینه سازی خطوط لوله تخصص دارند، این نقش ها به طور فزاینده ای با هم تداخل دارند. به نظر من، مرزهای بین آنها همچنان محو خواهد شد زیرا کسب و کارها راه حل های انتها به انتها و تخصص متقابل را در اولویت قرار می دهند.
ممنون از وقتی که گذاشتید، کنجکاو هستم که نظرات شما را در کامنت بدانم!
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/data-scientists-in-the-age-of-ai-agents-and-automl