
در زمینه به سرعت در حال رشد مهندسی داده، بازسازی خطوط لوله داده برای هدایت رشد کسب و کار و کارایی عملیاتی اساسی شده است. Manohar Sai Jasti، مهندس توسعه نرم افزار در Workday، سفر خود را در پیاده سازی راه حل های نوآورانه و اطمینان از مقیاس پذیری در خطوط لوله داده به اشتراک می گذارد. در این مصاحبه، تجربیات و بینشهای او را در تغییر شکل خطوط لوله داده برای توانمندسازی کسبوکارها با تصمیمگیری مبتنی بر داده بررسی میکنیم.
برخی از پروژه های کلیدی مربوط به بازسازی خط لوله داده چیست و به چه نتایجی دست یافتید؟
زمانی که در استورد، یک زنجیره تامین ابر و پلت فرم پیشرو، مشغول به کار بودم، من تنها مهندس داده آنجا بودم. مسئولیت من رهبری چندین پروژه حیاتی بود که زیرساخت داده ما را تغییر دادند. یکی از مهمترین ابتکارات پروژه مهاجرت Log-Based Replication (LBR) بود که من با همکاری تیم مهندسی قابلیت اطمینان سایت (SRE) ما را رهبری کردم.
قبل از این پروژه، ما با اختلاف داده های قابل توجهی بین سیستم منبع خود و BigQuery مواجه بودیم. آنها منجر به ناکارآمدی و بهروزرسانی کندتر دادهها میشدند، بنابراین مهاجرت نتایج قابل توجهی به همراه داشت.
به طور دقیق، ما به صرفه جویی در هزینه سالانه 72000 دلار در سال دست یافتیم که معادل 6000 دلار در ماه است. اختلافات داده ها عملاً حذف شد و تقریباً 100٪ کاهش یافت. نرخ تجدید داده ها نیز حداقل 30٪ بهبود یافته است.
این پروژه یک تعهد بزرگ بوده است و همه مجموعه داده های اصلی را برای Stord One Commerce و Stord One Warehouse که محصولات مدیریت سفارش و مدیریت انبار مبتنی بر ابر هستند، تحت تاثیر قرار داده است. به لطف نتایج قابل توجه، من برای “محرک کارآمد” شناخته شدم و جایزه گرفتم.
یکی دیگر از پروژه های کلیدی بهبود جریان داده سفارشات بحرانی بود. من مالک این جریان داده حیاتی بودم که هدف آن تجمیع اطلاعات در سیستم های قدیمی و جدید استورد بود. این پروژه به طور قابل توجهی قابلیتهای جمعآوری دادهها و گزارشدهی ما را بهبود بخشید. مزیت اصلی آن ارائه بینش دقیق و دقیق به مشتریان لجستیک در مورد عملیات زنجیره تامین آنها بود.
علاوه بر این، من تمام انتقالات پایان داده از Veracore به Stord One Commerce را تکمیل کردم، که یک پیروزی بزرگ در وسواس مشتری بود. این مهاجرت باعث بهبود کارایی عملیاتی، افزایش درآمد و بهبود محصولات و خدمات ما شد.
در حال حاضر، به عنوان یک مهندس تجزیه و تحلیل در روز کاری از می 2024، درگیر توسعه و حفظ خطوط لوله انتقال داده قوی هستم. من بخشی از گروه ابزارهای مهندسی عملکرد، انعطاف پذیری و مقیاس پذیری (PRS) هستم. نقش من شامل ایجاد یک خط لوله داده کامل، از انبار داده تا برنامه های کاربردی علم داده، توانمندسازی همکاران با تصمیم گیری های مبتنی بر داده در نوک انگشتانشان است.
در اینجا، من به طور گسترده از DBT، ابزار ساخت داده، برای بهبود شیوههای FinOps و ایجاد مدلهایی استفاده کردهام که دادههای صورتحساب را از ارائهدهندگان مختلف ابری دریافت و تغییر میدهند. این کار توانایی ما را برای تجزیه و تحلیل هزینهها در زیرساختهای چند ابری بهبود بخشیده است و بینشهای ارزشمندی را برای تخصیص منابع و بهینهسازی هزینهها ارائه میدهد.
حاکمیت محصول داده برای جلوگیری از توسعه siled و تضمین دارایی های داده با کیفیت بالا در سراسر یک سازمان بسیار مهم است. در نقش فعلی خود در Workday، با اجرای شیوههای حاکمیت داده جامع برای محصولات دادهای که توسط تحلیلگران، دانشمندان داده و غیره استفاده میشود، از طریق همکاری متقابل، استانداردسازی، مدیریت دسترسی، مدیریت چرخه عمر خط لوله داده، به این چالش پرداختهام. و غیره
مقیاس پذیری و انعطاف پذیری سنگ بنای هر زیرساخت داده قوی است. چگونه اطمینان میدهید که سیستمهای شما میتوانند به طور یکپارچه مقیاس شوند و در عین حال از رشد کسبوکار حمایت کنند؟
مقیاس پذیری و انعطاف پذیری واقعاً در کار ما بسیار مهم است، به خصوص در Stord. موضوع این است که ما به سرعت خدمات زنجیره تامین ابری خود را گسترش دادهایم، و برای حمایت بیشتر از این رشد و اطمینان از انعطافپذیری همه ویژگیهای جدید، من روی چندین حوزه کلیدی تمرکز کردم.
اولین مورد بهبود عملکرد پرس و جو بود. من زیرساخت داده ما را با جداسازی استراتژیک جداول واقعیت تصحیح کردم. در واقع، می توانم به خود ببالم که این بازسازی به طور چشمگیری عملکرد پرس و جو را افزایش داد و فرآیندهای بازیابی داده ها را برای عملیات لجستیک پیچیده استورد بهینه کرد.
یکی دیگر از زمینه های کلیدی انتقال به DBT (ابزار ساخت داده) بود. من منطق پردازش داده های حیاتی را که اکثر داشبوردهای ما را از رویه های ذخیره شده سنتی به DBT قدرت می دهد منتقل کردم. این نتایج نسبتاً مثمر ثمری را به همراه داشته است – کارایی عملیاتی کلی و سیستمهای هشدار بهبود یافته است. به لطف آن، سازگاری با نیازهای جدید بدون تعمیر کل سیستم آسان تر شده است.
هشدار و نظارت جامع نیز در اولویت قرار داشت. من 100% هشدار و نظارت را در تمام خطوط لوله و فرآیندهای حیاتی اجرا کردم. این منجر به کاهش زمان خرابی داده ها و بهبود توانایی پاسخگویی سریع به مسائل شد.
در نقش فعلیام در Workday، همچنان بر مقیاسپذیری و انعطافپذیری تمرکز میکنم. من از طیف وسیعی از ابزارها، از جمله DBT، Trino/Presto، Jupyter Notebook، Python، Apache AirFlow، AWS RDS، MySQL/Postgresql و Git برای پردازش و تجزیه و تحلیل داده ها استفاده می کنم.
چه گامهایی برای مدرنسازی گردشهای کاری پردازش داده برداشتهاید و این پیشرفتها چگونه بر کارایی و دقت تأثیر گذاشته است؟
در استورد، یکی از تاثیرگذارترین تغییراتی که من در زمینه نوسازی گردش کار داده انجام دادم، Log-Based Replication Migration بود. مشکلات مربوط به دقت داده ها را حل کرد، نرخ تازه سازی را بهبود بخشید و هزینه ها را کاهش داد، که به ما کمک کرد تا بینش هایی را در زمان واقعی در مورد عملیات لجستیک ارائه دهیم.
من همچنین DBT را برای مدیریت فرآیندهای داده های حیاتی معرفی کردم. این به ما امکان داد تا دادهها را کارآمدتر مدیریت کنیم و کار اعضای تیم را برای بهروزرسانیها آسانتر کرد.
پروژه دیگر شامل بهبود نحوه مدیریت داده های سفارش اصلی است. این بهروزرسانیها تصویر واضحتری از فعالیتهای انبار به ما داد و گزارشهای ما را برای مشتریان ارزشمندتر کرد.
در Workday، من بر زیرساخت های چند ابری تمرکز کرده ام، و خطوط لوله ایجاد می کنم که داده های دقیق و به روز را برای تجزیه و تحلیل هزینه تضمین می کند. این پیشرفتها به تیمها کمک کرده تا سریعتر و با اطمینان بیشتر تصمیم بگیرند.
بیایید درباره نوآوری صحبت کنیم – نظارت خودکار و یادگیری ماشین چگونه رویکرد شما را برای مدیریت داده ها شکل داده است؟
در استورد، نوآوری همه چیز این بود که در نحوه مدیریت داده ها پیشتاز باشیم. یکی از پیشرفتهای مهم، معرفی نظارت و هشدار خودکار برای همه خطوط لوله بود. با پوشش 100٪، میتوانیم مشکلات را قبل از اینکه مشتریان تحت تأثیر قرار بگیرند، شناسایی و برطرف کنیم. این امر به ویژه در حصول اطمینان از ردیابی و گزارش دقیق لجستیک مفید بود.
من همچنین روی تقویت سیستم هشدارمان کار کردم تا روی چیزهایی مانند داده های قدیمی یا تکراری تمرکز کند. این پیشرفتها به ما کمک کرد تا کیفیت دادههای بالا را حفظ کنیم و اعتماد مشتریان را به تجزیه و تحلیلهای خود بهبود بخشیم.
در روز کاری، با توسعه ابزارها و فرآیندهایی که محصولات داده ما را بهتر میکند، به نوآوری اولویتبندی کردم. برای مثال، من روی بهبود سیستمهای هشدار کار میکنم تا مشکلات را سریعتر شناسایی کرده و گردشهای کاری روانتری برای تیمهایمان ایجاد کنم.
با صحبت در مورد روندهای فعلی، یادگیری ماشین اکنون عملاً هر تجارت مبتنی بر داده را متحول کرده است. آیا میتوانید نحوه ادغام یادگیری ماشینی را در پردازش داده و تأثیر آن بر کیفیت تجزیه و تحلیل و بهموقع بودن آن به اشتراک بگذارید؟
در طول مدتی که در استورد بودم، درگیر کاوش بودم فناوری های یادگیری ماشینی ادغام در پردازش داده های ما یکی از پروژه های کلیدی من ساخت یک چت بات با هوش مصنوعی در همکاری با تیم های متقابل بود. این ربات چت از هوش مصنوعی مولد برای رسیدگی به پرس و جوهای تحلیلی استفاده میکند و به کاربران اجازه میدهد به زبان ساده سؤال بپرسند و به سرعت پاسخهای مبتنی بر SQL را دریافت کنند.
همچنین مکانیسمهای رسیدگی به خطا را اضافه کردیم که به ربات چت در یادگیری و بهبود در طول زمان کمک کرد. این نه تنها زمان پاسخگویی به درخواستهای موقت را کاهش داد، بلکه به تیمهای ما دسترسی سریعتری به دادههای مورد نیازشان داد.
در Workday، من از این تجربه برای ساخت یک ربات دانش استفاده می کنم که از هوش مصنوعی مولد استفاده می کند. این ربات برای کمک به کاربران در پرسیدن سؤالات در مورد نحوه استفاده از ابزارهای تحلیلی، کاهش نیاز به اسناد و ارائه پشتیبانی در زمان واقعی طراحی شده است. این یک پروژه هیجان انگیز است که تجزیه و تحلیل را برای همه افراد درگیر آسان تر و سریع تر می کند.
همانطور که ما به پایان می رسیم، در طول پروژه هایی مانند تکرار مبتنی بر log با چه موانعی روبرو شدید و چگونه بر آنها غلبه کردید؟
مهاجرت تکراری مبتنی بر گزارش در استورد چالشهایی داشت. مانع فنی اصلی، پیچیدگی داده های زنجیره تامین بود. همچنین ادغام سیستم جدید بدون ایجاد اختلال در عملیات لجستیکی، مهم بود.
ما گاهی اوقات پس از بهروزرسانی منطق سفارشهای اصلی، با مشکلات غیرمنتظرهای مواجه میشویم – چیزی که آن را مسائل «قوی سیاه» مینامیم. برای حل این موارد نیاز به عیب یابی عمیق و کار گروهی بود.
برای رسیدگی به این چالش ها، مطمئن شدم که در هر مرحله به طور کامل تست می کنم. من از نزدیک با تیم SRE برای حل مشکلات فنی کار کردم و با سهامداران همکاری کردم تا همه را با اهداف هماهنگ نگه دارم.
در نقش فعلیام در Workday، با چالشهای مختلفی در ارتباط با زیرساختهای چند ابری مواجه شدهام. به عنوان مثال، اطمینان از صحت داده ها در پلتفرم های مختلف ابری بسیار مهم است. برای حل این مشکل، آزمایشهایی برای اعتبارسنجی دادهها ساختم و سیستمی برای پرچمگذاری دادههای قدیمی قبل از تأثیرگذاری بر مشتریان ایجاد کردم. این رویکرد پیشگیرانه کمک کرده است تا اطمینان حاصل شود که تجزیه و تحلیل ما همیشه قابل اعتماد و به روز است.