تغییر شکل خطوط لوله داده: نقش مهندس داده در تبدیل عملیات تجاری – AI Time Journal


در زمینه به سرعت در حال رشد مهندسی داده، بازسازی خطوط لوله داده برای هدایت رشد کسب و کار و کارایی عملیاتی اساسی شده است. Manohar Sai Jasti، مهندس توسعه نرم افزار در Workday، سفر خود را در پیاده سازی راه حل های نوآورانه و اطمینان از مقیاس پذیری در خطوط لوله داده به اشتراک می گذارد. در این مصاحبه، تجربیات و بینش‌های او را در تغییر شکل خطوط لوله داده برای توانمندسازی کسب‌وکارها با تصمیم‌گیری مبتنی بر داده بررسی می‌کنیم.

برخی از پروژه های کلیدی مربوط به بازسازی خط لوله داده چیست و به چه نتایجی دست یافتید؟

زمانی که در استورد، یک زنجیره تامین ابر و پلت فرم پیشرو، مشغول به کار بودم، من تنها مهندس داده آنجا بودم. مسئولیت من رهبری چندین پروژه حیاتی بود که زیرساخت داده ما را تغییر دادند. یکی از مهم‌ترین ابتکارات پروژه مهاجرت Log-Based Replication (LBR) بود که من با همکاری تیم مهندسی قابلیت اطمینان سایت (SRE) ما را رهبری کردم.

قبل از این پروژه، ما با اختلاف داده های قابل توجهی بین سیستم منبع خود و BigQuery مواجه بودیم. آنها منجر به ناکارآمدی و به‌روزرسانی کندتر داده‌ها می‌شدند، بنابراین مهاجرت نتایج قابل توجهی به همراه داشت.

به طور دقیق، ما به صرفه جویی در هزینه سالانه 72000 دلار در سال دست یافتیم که معادل 6000 دلار در ماه است. اختلافات داده ها عملاً حذف شد و تقریباً 100٪ کاهش یافت. نرخ تجدید داده ها نیز حداقل 30٪ بهبود یافته است.

این پروژه یک تعهد بزرگ بوده است و همه مجموعه داده های اصلی را برای Stord One Commerce و Stord One Warehouse که محصولات مدیریت سفارش و مدیریت انبار مبتنی بر ابر هستند، تحت تاثیر قرار داده است. به لطف نتایج قابل توجه، من برای “محرک کارآمد” شناخته شدم و جایزه گرفتم.

یکی دیگر از پروژه های کلیدی بهبود جریان داده سفارشات بحرانی بود. من مالک این جریان داده حیاتی بودم که هدف آن تجمیع اطلاعات در سیستم های قدیمی و جدید استورد بود. این پروژه به طور قابل توجهی قابلیت‌های جمع‌آوری داده‌ها و گزارش‌دهی ما را بهبود بخشید. مزیت اصلی آن ارائه بینش دقیق و دقیق به مشتریان لجستیک در مورد عملیات زنجیره تامین آنها بود.

علاوه بر این، من تمام انتقالات پایان داده از Veracore به Stord One Commerce را تکمیل کردم، که یک پیروزی بزرگ در وسواس مشتری بود. این مهاجرت باعث بهبود کارایی عملیاتی، افزایش درآمد و بهبود محصولات و خدمات ما شد.

در حال حاضر، به عنوان یک مهندس تجزیه و تحلیل در روز کاری از می 2024، درگیر توسعه و حفظ خطوط لوله انتقال داده قوی هستم. من بخشی از گروه ابزارهای مهندسی عملکرد، انعطاف پذیری و مقیاس پذیری (PRS) هستم. نقش من شامل ایجاد یک خط لوله داده کامل، از انبار داده تا برنامه های کاربردی علم داده، توانمندسازی همکاران با تصمیم گیری های مبتنی بر داده در نوک انگشتانشان است.

در اینجا، من به طور گسترده از DBT، ابزار ساخت داده، برای بهبود شیوه‌های FinOps و ایجاد مدل‌هایی استفاده کرده‌ام که داده‌های صورت‌حساب را از ارائه‌دهندگان مختلف ابری دریافت و تغییر می‌دهند. این کار توانایی ما را برای تجزیه و تحلیل هزینه‌ها در زیرساخت‌های چند ابری بهبود بخشیده است و بینش‌های ارزشمندی را برای تخصیص منابع و بهینه‌سازی هزینه‌ها ارائه می‌دهد.

حاکمیت محصول داده برای جلوگیری از توسعه siled و تضمین دارایی های داده با کیفیت بالا در سراسر یک سازمان بسیار مهم است. در نقش فعلی خود در Workday، با اجرای شیوه‌های حاکمیت داده جامع برای محصولات داده‌ای که توسط تحلیلگران، دانشمندان داده و غیره استفاده می‌شود، از طریق همکاری متقابل، استانداردسازی، مدیریت دسترسی، مدیریت چرخه عمر خط لوله داده، به این چالش پرداخته‌ام. و غیره

مقیاس پذیری و انعطاف پذیری سنگ بنای هر زیرساخت داده قوی است. چگونه اطمینان می‌دهید که سیستم‌های شما می‌توانند به طور یکپارچه مقیاس شوند و در عین حال از رشد کسب‌وکار حمایت کنند؟

مقیاس پذیری و انعطاف پذیری واقعاً در کار ما بسیار مهم است، به خصوص در Stord. موضوع این است که ما به سرعت خدمات زنجیره تامین ابری خود را گسترش داده‌ایم، و برای حمایت بیشتر از این رشد و اطمینان از انعطاف‌پذیری همه ویژگی‌های جدید، من روی چندین حوزه کلیدی تمرکز کردم.

اولین مورد بهبود عملکرد پرس و جو بود. من زیرساخت داده ما را با جداسازی استراتژیک جداول واقعیت تصحیح کردم. در واقع، می توانم به خود ببالم که این بازسازی به طور چشمگیری عملکرد پرس و جو را افزایش داد و فرآیندهای بازیابی داده ها را برای عملیات لجستیک پیچیده استورد بهینه کرد.

یکی دیگر از زمینه های کلیدی انتقال به DBT (ابزار ساخت داده) بود. من منطق پردازش داده های حیاتی را که اکثر داشبوردهای ما را از رویه های ذخیره شده سنتی به DBT قدرت می دهد منتقل کردم. این نتایج نسبتاً مثمر ثمری را به همراه داشته است – کارایی عملیاتی کلی و سیستم‌های هشدار بهبود یافته است. به لطف آن، سازگاری با نیازهای جدید بدون تعمیر کل سیستم آسان تر شده است.

هشدار و نظارت جامع نیز در اولویت قرار داشت. من 100% هشدار و نظارت را در تمام خطوط لوله و فرآیندهای حیاتی اجرا کردم. این منجر به کاهش زمان خرابی داده ها و بهبود توانایی پاسخگویی سریع به مسائل شد.

در نقش فعلی‌ام در Workday، همچنان بر مقیاس‌پذیری و انعطاف‌پذیری تمرکز می‌کنم. من از طیف وسیعی از ابزارها، از جمله DBT، Trino/Presto، Jupyter Notebook، Python، Apache AirFlow، AWS RDS، MySQL/Postgresql و Git برای پردازش و تجزیه و تحلیل داده ها استفاده می کنم.

چه گام‌هایی برای مدرن‌سازی گردش‌های کاری پردازش داده برداشته‌اید و این پیشرفت‌ها چگونه بر کارایی و دقت تأثیر گذاشته است؟

در استورد، یکی از تاثیرگذارترین تغییراتی که من در زمینه نوسازی گردش کار داده انجام دادم، Log-Based Replication Migration بود. مشکلات مربوط به دقت داده ها را حل کرد، نرخ تازه سازی را بهبود بخشید و هزینه ها را کاهش داد، که به ما کمک کرد تا بینش هایی را در زمان واقعی در مورد عملیات لجستیک ارائه دهیم.

من همچنین DBT را برای مدیریت فرآیندهای داده های حیاتی معرفی کردم. این به ما امکان داد تا داده‌ها را کارآمدتر مدیریت کنیم و کار اعضای تیم را برای به‌روزرسانی‌ها آسان‌تر کرد.

پروژه دیگر شامل بهبود نحوه مدیریت داده های سفارش اصلی است. این به‌روزرسانی‌ها تصویر واضح‌تری از فعالیت‌های انبار به ما داد و گزارش‌های ما را برای مشتریان ارزشمندتر کرد.

در Workday، من بر زیرساخت های چند ابری تمرکز کرده ام، و خطوط لوله ایجاد می کنم که داده های دقیق و به روز را برای تجزیه و تحلیل هزینه تضمین می کند. این پیشرفت‌ها به تیم‌ها کمک کرده تا سریع‌تر و با اطمینان بیشتر تصمیم بگیرند.

بیایید درباره نوآوری صحبت کنیم – نظارت خودکار و یادگیری ماشین چگونه رویکرد شما را برای مدیریت داده ها شکل داده است؟

در استورد، نوآوری همه چیز این بود که در نحوه مدیریت داده ها پیشتاز باشیم. یکی از پیشرفت‌های مهم، معرفی نظارت و هشدار خودکار برای همه خطوط لوله بود. با پوشش 100٪، می‌توانیم مشکلات را قبل از اینکه مشتریان تحت تأثیر قرار بگیرند، شناسایی و برطرف کنیم. این امر به ویژه در حصول اطمینان از ردیابی و گزارش دقیق لجستیک مفید بود.

من همچنین روی تقویت سیستم هشدارمان کار کردم تا روی چیزهایی مانند داده های قدیمی یا تکراری تمرکز کند. این پیشرفت‌ها به ما کمک کرد تا کیفیت داده‌های بالا را حفظ کنیم و اعتماد مشتریان را به تجزیه و تحلیل‌های خود بهبود بخشیم.

در روز کاری، با توسعه ابزارها و فرآیندهایی که محصولات داده ما را بهتر می‌کند، به نوآوری اولویت‌بندی کردم. برای مثال، من روی بهبود سیستم‌های هشدار کار می‌کنم تا مشکلات را سریع‌تر شناسایی کرده و گردش‌های کاری روان‌تری برای تیم‌هایمان ایجاد کنم.

با صحبت در مورد روندهای فعلی، یادگیری ماشین اکنون عملاً هر تجارت مبتنی بر داده را متحول کرده است. آیا می‌توانید نحوه ادغام یادگیری ماشینی را در پردازش داده و تأثیر آن بر کیفیت تجزیه و تحلیل و به‌موقع بودن آن به اشتراک بگذارید؟

در طول مدتی که در استورد بودم، درگیر کاوش بودم فناوری های یادگیری ماشینی ادغام در پردازش داده های ما یکی از پروژه های کلیدی من ساخت یک چت بات با هوش مصنوعی در همکاری با تیم های متقابل بود. این ربات چت از هوش مصنوعی مولد برای رسیدگی به پرس و جوهای تحلیلی استفاده می‌کند و به کاربران اجازه می‌دهد به زبان ساده سؤال بپرسند و به سرعت پاسخ‌های مبتنی بر SQL را دریافت کنند.

همچنین مکانیسم‌های رسیدگی به خطا را اضافه کردیم که به ربات چت در یادگیری و بهبود در طول زمان کمک کرد. این نه تنها زمان پاسخگویی به درخواست‌های موقت را کاهش داد، بلکه به تیم‌های ما دسترسی سریع‌تری به داده‌های مورد نیازشان داد.

در Workday، من از این تجربه برای ساخت یک ربات دانش استفاده می کنم که از هوش مصنوعی مولد استفاده می کند. این ربات برای کمک به کاربران در پرسیدن سؤالات در مورد نحوه استفاده از ابزارهای تحلیلی، کاهش نیاز به اسناد و ارائه پشتیبانی در زمان واقعی طراحی شده است. این یک پروژه هیجان انگیز است که تجزیه و تحلیل را برای همه افراد درگیر آسان تر و سریع تر می کند.

همانطور که ما به پایان می رسیم، در طول پروژه هایی مانند تکرار مبتنی بر log با چه موانعی روبرو شدید و چگونه بر آنها غلبه کردید؟

مهاجرت تکراری مبتنی بر گزارش در استورد چالش‌هایی داشت. مانع فنی اصلی، پیچیدگی داده های زنجیره تامین بود. همچنین ادغام سیستم جدید بدون ایجاد اختلال در عملیات لجستیکی، مهم بود.

ما گاهی اوقات پس از به‌روزرسانی منطق سفارش‌های اصلی، با مشکلات غیرمنتظره‌ای مواجه می‌شویم – چیزی که آن را مسائل «قوی سیاه» می‌نامیم. برای حل این موارد نیاز به عیب یابی عمیق و کار گروهی بود.

برای رسیدگی به این چالش ها، مطمئن شدم که در هر مرحله به طور کامل تست می کنم. من از نزدیک با تیم SRE برای حل مشکلات فنی کار کردم و با سهامداران همکاری کردم تا همه را با اهداف هماهنگ نگه دارم.

در نقش فعلی‌ام در Workday، با چالش‌های مختلفی در ارتباط با زیرساخت‌های چند ابری مواجه شده‌ام. به عنوان مثال، اطمینان از صحت داده ها در پلتفرم های مختلف ابری بسیار مهم است. برای حل این مشکل، آزمایش‌هایی برای اعتبارسنجی داده‌ها ساختم و سیستمی برای پرچم‌گذاری داده‌های قدیمی قبل از تأثیرگذاری بر مشتریان ایجاد کردم. این رویکرد پیشگیرانه کمک کرده است تا اطمینان حاصل شود که تجزیه و تحلیل ما همیشه قابل اعتماد و به روز است.



منبع: https://www.aitimejournal.com/reshaping-data-pipelines-a-data-engineers-role-in-transforming-business-operations/51224/