چگونه نقش مهندسی داده را با پیشرفتهای هوش مصنوعی و اتوماسیون در پنج سال آینده متحول میکنید؟
در پنج سال آینده، من پیشبینی میکنم که مهندسی داده با ادغام بیشتر با هوش مصنوعی به جلو جهش کند. این ادغام بررسی کیفیت داده ها، تشخیص ناهنجاری ها و فرآیندهای تصمیم گیری در زمان واقعی را خودکار می کند و انقلابی در این زمینه ایجاد می کند. یک برنامه کاربردی عملی در حال حاضر شامل چارچوبهای خودکار کیفیت دادهها است که مغایرتها را در جریان دادههای زنده ما نظارت و اصلاح میکنند و دقت را تا 40% افزایش میدهند. این تغییر نه تنها کارایی عملیاتی را بهبود میبخشد، بلکه فرصتهای جدیدی را برای مهندسین به منظور تمرکز بر ابتکارات استراتژیک مانند توسعه مدلهای تحلیل پیشبینیکننده که روند بازار و رفتار مشتری را پیشبینی میکند، ایجاد میکند و باعث ایجاد هیجان و خوشبینی در مخاطبان ما درباره آینده مهندسی داده میشود.
در طول تصدی خود در AWS، برخی از چالشهای کلیدی که هنگام هدایت شرکتهای Fortune 500 در مهاجرت به انبار دادههای ابری با آن روبرو بودید، چه بود و چگونه بر آنها غلبه کردید؟
من تجربه فوق العاده ای از کار با مشتریان مبتکر خدمات وب آمازون داشتم. یکی از چالشهای اصلی AWS تسهیل انتقال امن و کارآمد سیستمهای داده قدیمی از مراکز داده اولیه و دیگر انبارهای داده سنتی به ابر برای مشتریانی مانند Merck بود. ما با اجرای یک رویکرد چند مرحلهای، از جمله ارزیابی اولیه دادهها، پروتکلهای انتقال امن داده، و آزمایشهای دقیق پس از مهاجرت، این کار را مدیریت کردیم. به عنوان مثال، برای Merck، این رویکرد باعث کاهش 75 درصدی از کار افتادگی عملیاتی آنها در طول مهاجرت و کاهش هزینههای مدیریت دادههای آنها به نصف شد که نشاندهنده اثربخشی روششناسی استراتژیک ما است.
آیا میتوانید درباره خطوط لوله داده نوآورانهای که در Airbnb طراحی کردهاید و اینکه چگونه از اعتماد و ابتکارات ایمنی شرکت حمایت میکنند صحبت کنید؟
Airbnbخطوط لوله داده نوآورانه، آزمایشهای کیفیت دادههای سرتاسری را ترکیب میکنند که به عنوان ستون فقرات دادههای با کیفیت بالا در Airbnb عمل میکنند. به عنوان مثال، ما خط لوله ای را توسعه دادیم که فناوری تشخیص تصویر را یکپارچه می کند تا به طور خودکار عکس های دارایی را در برابر امکانات ذکر شده بررسی و تأیید کند، دقت فهرست را بهبود بخشد و از موجودی جعلی در پلت فرم جلوگیری کند. این فناوری اعتماد به پلتفرم ما را افزایش داده است، که با بهبود 10٪ در نظرات مهمان در مورد دقت فهرست نشان می دهد.
بر اساس تجربه شما، اجزای اساسی یک پلت فرم داده قوی و مقیاس پذیر برای سیستم های تحلیلی سازمانی و یادگیری ماشینی چیست؟
طبق تجربه من، خطوط لوله داده مقیاس پذیر و قوی شامل قابلیت های مدیریت و نظارت پیچیده است. راهحلهای ذخیرهسازی داده مقیاسپذیر مانند Amazon S3، خدمات پردازش داده کارآمد مانند Apache Spark برای مدیریت مجموعههای داده بزرگ، و سیستمهای انتقال داده پویا مانند Apache Kafka ستون فقرات زیرساخت داده ما در Airbnb را تشکیل میدهند. این فناوریها سیستمهای ما را قادر میسازند تا در دورههای اوج تقاضا، مانند فصل سفر تابستانی، مقیاسپذیری مؤثری داشته باشند و تضمین کنند که میتوانیم افزایش قابل توجهی در هجوم دادهها را بدون کاهش عملکرد مدیریت کنیم.
برای تقویت بیشتر استحکام و مقیاس پذیری پلت فرم داده خود، مدیریت دقیق توافقنامه سطح سرویس (SLA) را برای اطمینان از اینکه خدمات داده ما با استانداردهای عملکرد مورد نیاز عملیات تجاری مطابقت دارد، ترکیب می کنیم. علاوه بر این، ما از یک سیستم مدیریت هشدار پیشرفته استفاده میکنیم که خطوط لوله دادههای ما را برای انجام وظایف ناموفق نظارت میکند و به طور خودکار اقدامات اصلاحی را بدون دخالت انسان آغاز میکند. ما همچنین بررسیهای کیفیت دادهها را در هر کار تعبیه میکنیم تا از یکپارچگی دادهها اطمینان حاصل کنیم و از الگوریتمهای تشخیص ناهنجاری برای نظارت بر جابجایی دادهها استفاده میکنیم، که به شناسایی مشکلات احتمالی که میتواند بر دقت تحلیلی یا عملکرد مدل یادگیری ماشین تأثیر بگذارد، کمک میکند. این لایههای عملکرد برای حفظ یک محیط داده با عملکرد بالا، قابل اعتماد و ایمن که نیازهای تجاری پویا ما را پشتیبانی میکند، حیاتی هستند.
چگونه میتوانید بین خواستههای حفظ حاکمیت دادهها تعادل برقرار کنید و در عین حال مرزهای نوآوری داده و هوش مصنوعی را در Airbnb پیش ببرید؟
در Airbnb، ما به دقت بین خواستههای حفظ حاکمیت دادهها و انگیزه نوآوری در هوش مصنوعی و تجزیه و تحلیل دادهها تعادل برقرار میکنیم. ما یک مدل پیچیده دسترسی به دادههای لایهای را پیادهسازی میکنیم که دقیقاً کنترل میکند چه کسی میتواند بر اساس نقش خود و حساسیت دادهها به دادهها دسترسی داشته باشد. ما این مدل را با اسکریپتهای خودکار تقویت میکنیم که دادههای حساس کاربر را قبل از اینکه برای تجزیه و تحلیل در دسترس قرار گیرند، بینام میکنند و از انطباق با مقررات بینالمللی حفاظت از دادهها مانند GDPR اطمینان میدهیم. این شیوهها به دانشمندان و مهندسان داده ما اجازه میدهد راهحلهای مبتکرانه مبتنی بر داده را در چارچوبی امن و سازگار بررسی کنند و فرهنگ نوآوری مسئولانه را تقویت کنند.
علاوه بر این، ما این تعادل را از طریق یک رویکرد ساختاریافته برای نظارت و بهبود معیارهای حاکمیت داده افزایش میدهیم. ما اهداف و نتایج کلیدی سطح بالا (OKR) را ایجاد میکنیم که بر کیفیت داده، معیارهای عملیات داده و حاکمیت کلی تمرکز دارد. این OKRها برای همسوسازی تیمهای مختلف در سراسر Airbnb طراحی شدهاند، و آنها را قادر میسازد تصمیمات و اقداماتی را که شیوههای مدیریت دادههای ما را در مسیر خود حفظ میکنند، اولویتبندی کنند. بررسیهای منظم این OKRها به ما کمک میکند تا زمینههای بهبود را شناسایی کنیم و سیستمهای داده خود را بهبود ببخشیم. این رویکرد مبتنی بر متریک ساختاری تضمین میکند که در حالی که ما مرزهای امکانپذیر با علم داده و هوش مصنوعی را پشت سر میگذاریم، هرگز در مورد یکپارچگی و امنیت دادههایمان مصالحه نمیکنیم، بنابراین اعتماد کاربران و ذینفعان خود را حفظ میکنیم.
در چندین کنفرانس تجزیه و تحلیل داده و هوش مصنوعی، شما بینش خود را به اشتراک گذاشته اید. برخی از روندهای نوظهور در مهندسی داده که به نظر شما به طور قابل توجهی بر صنعت تأثیر می گذارد چیست؟
یک روند تأثیرگذار در مهندسی داده، اتخاذ ابزارها و چارچوب هایی است که اطلاعات مربوط به اصل و نسب داده ها را از منبع تا سیستم های کاربر نهایی جمع آوری می کند، از جمله اصل و نسب در سطح ستون. به عنوان مثال، شرکتها در هر اندازه میتوانند تجزیه و تحلیل تاثیر تغییر دادههای بالادستی را در سیستمهای پاییندستی انجام دهند، بنابراین از مشکلات بالقوه کیفیت دادهها که همیشه پس از وقوع آنها گرفتار میشوند، اجتناب میکنند. این پیشرفت تیم های داده و تجزیه و تحلیل را قادر می سازد تا از ذینفعان خود با داده های با کیفیت بالا حمایت کنند و اطلاعات مربوط به اصل و نسب را ارائه دهند.
آیا میتوانید درباره پروژه چالشبرانگیزی که در Airbnb رهبری کردید و اینکه چگونه رویکرد شما به مهندسی داده و هوش مصنوعی را شکل داده است توضیح دهید؟
یک پروژه چالش برانگیز و در عین حال پرارزش شامل طراحی مجدد قابل توجه گردش کار پردازش داده ما برای یکپارچه سازی فیدهای داده بلادرنگ از منابع متعدد بود. این ابتکار نیازمند معماری مجدد سیستمهای پردازش دستهای موجود ما برای مدیریت جریان دادهها با استفاده از فناوریهای پیشرفته مانند Apache StarRocks بود. نتیجه کاهش قابل توجه 90٪ در تأخیر داده ها و یک سیستم تشخیص تقلب پاسخگوتر بود که اساساً نحوه مدیریت داده ها را در مقیاس تغییر می دهد. موفقیت این پروژه گواهی بر تخصص و تعهد تیم ما برای پیش بردن مرزهای مهندسی داده است.
چگونه فرهنگ نوآوری و یادگیری مستمر را در تیم خود در Airbnb پرورش می دهید، به ویژه در زمینه های مهندسی داده و هوش مصنوعی که به سرعت در حال توسعه هستند؟
ما انواع مختلفی از فعالیتهای عملی و مشارکتی را به کار میگیریم که برای ارتقای حل خلاقانه مسئله و توسعه مهارت طراحی شدهاند. من به طور مرتب کمپ های بوت و کارگاه های مهارت آموزی را سازماندهی می کنم که فناوری ها و روش های جدید را پوشش می دهد و به تیم ما کمک می کند تا از منحنی جلوتر بماند.
ما دو سالانه “Alert-a-thons” را ایجاد کرده ایم، که در آن اعضای تیم به طور مشترک هشدارهای خط لوله داده آفلاین موجود را بررسی و تجزیه و تحلیل می کنند. این جلسات برای شناسایی و تنظیم هشدارها برای افزایش کیفیت و ارتباط اعلانهایی که سیستمهای ما تولید میکنند، بسیار مهم هستند. مهندسان ما با درگیر شدن در این Alert-a-thons، بینش عمیق تری در مورد جنبه های عملیاتی زیرساخت داده ما به دست می آورند. آنها تشویق می شوند که به طور انتقادی در مورد چگونگی بهبود سیستم های ما فکر کنند.