نویسنده (ها): ورم
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر


به یاد داشته باشید زمانی که در مورد آن صحبت کردیم انبار داده ، دریاچه داده و داده دریاچه خانه؟ امروز ، ما در مورد دریاچه دلتا این متعلق به همان خانواده معماری داده است. تیمی در Databricks با ایده سریع روبرو شد لایه ذخیره سازی ساخته شده در بالای دریاچه های داده. سازمانهایی که از دریاچه های داده استفاده می کنند ، مفهوم “دریاچه دلتا” را دوست داشتند ، که می تواند بارهای گسترده داده را به طور کارآمد کنترل کند – اغلب آنها را فقط در چند دقیقه پردازش می کنند.
خندق
Hieeee !!!! من امروز اینجا هستم تا در مورد شما بیاموزم! حقایق جالبی را برای من بگویید که می توانم در اینجا با دوستانم به اشتراک بگذارم.
علاوه بر این ، من واقعاً گیج شده ام که چرا سازمان ها هنگام داشتن دریاچه داده ، شما را انتخاب کردند؟


دریاچه دلتا
هی دیشا! خوشحالم که با شما ملاقات کردم و در مورد آن صحبت کردم ، خوب ، من! بیایید با شروع من شروع کنیم. لطفاً از آقای Data Steward در نظر نگیرید ، او واقعاً با بسیاری از شرایط و چارچوب های داده غافلگیر شده است.
چرا دریاچه دلتا به وجود آمد؟
مایکل آرمبروست (کارمند Databricks) ایده ای برای ایجاد من به وجود آورد تا یک معامله کارآمد با حجم زیادی از داده ها وجود داشته باشد – بیش از حد فنی؟ بگذارید آن را برای شما ساده کنم.
تصور کنید مانند آنچه در طول دریاچه داده تصور کرده اید – از پرونده ها ، سی دی ها ، تصاویر ، اسناد زیادی برای ذخیره در جایی استفاده می کنید.
اکنون ، Data Lake قبلاً این سوابق را اداره می کرد ، اما ، Delta Lake ارائه می داد انطباق اسیدی (در زیر توضیح داده شده) به سوابق خود. ثانیا ، این پردازش سوابق را انجام داد 10 بار سریعتر از یک دریاچه داده. و سوم ، شرکت هایی مانند اپل توانستند 300 میلیارد سوابق را پردازش کنید هر روز
این عالی نیست؟!


بیایید در مورد برخی از مزایای استفاده از من در مورد دریاچه Data بحث کنیم:
سود شماره 1: انطباق اسید
قبل از اینکه عمیق تر شیرجه بزنیم ، بگذارید شما را توضیح دهم انطباق اسید (اتمی ، قوام ، انزوا ، دوام) به زبان Layperson. این اصطلاح نقش مهمی در درک نحوه اختراع من دارد:
الف – اتمی
بیایید بگوییم که شما یک ماراتن 10K را اجرا می کنید. وقتی زانوی خود را مجروح می کنید و باید متوقف شوید ، در نیمه راه هستید.
برای کسب مدال ، باید از خط پایان عبور کنید. اما در این حالت – شما این کار را نمی کنید.


این اتمی است. شما یا مسابقه را تمام می کنید و پاداش می گیرید ، یا این کار را نمی کنید.
اعتبار جزئی هیچ نشان “تقریباً آنجا” نیست.
در پایگاه داده ها ، این همان ایده است:
معامله یا است کاملاً کامل، یا اصلاً انجام نشده استبشر
چیزی به عنوان نیمی از معامله وجود ندارد.
ج – قوام
بیایید نمونه دیگری را در حوزه مراقبت های بهداشتی در نظر بگیریم. یک بیمار تحت عمل جراحی قرار گرفته است و طبق قوانین بیمارستان ، لیست چک زیر باید قبل از تخلیه به پایان برسد:
- گزارش های آزمون نهایی
- لیست داروهای تجویز شده
- صورتحساب


با این حال ، هنگامی که بیمار مرخص شد ، صورتحساب آنها به دلیل اشکالات سیستم نمی تواند تمام شود – یک حالت ناقص.
در دنیای پایگاه داده ، “سازگاری” نشان می دهد که یک معامله نباید در یک ناقص یا متناقض هنگام خروج از سیستم منبع و حرکت به سیستم هدف ، حالت دهید.
من – انزوا
هر زمان که به یک فروشگاه مواد غذایی مراجعه می کنید ، مشتریان یکی پس از دیگری برای بررسی موارد خود صف می کنند. حال تصور کنید ، در حالی که صندوقدار در حال بررسی موارد شما است ، آنها ناگهان شروع به اسکن موارد از سبد مشتری بعدی نیز می کنند. این باعث ایجاد هرج و مرج زیادی می شود !!


انزوا تضمین می کند که موارد هر مشتری به صورت جداگانه اسکن می شود و فقط یک مشتری در یک زمان اداره می شود. به طور مشابه در پایگاه داده ، در صورت انجام چندین معاملات ، هر یک پردازش می شوند کاملاً قبل از شروع بعدی
د – دوام
اواخر شب است و شما در حال تماشای نمایش در Netflix هستید. شما خسته شده اید ، بنابراین به مکث و سر به رختخواب رسیدید. روز بعد ، شما دوباره نتفلیکس را باز می کنید – و قسمت دقیقاً همان جایی که از کار خارج شده اید از سر گرفته می شود.


حتی اگر تلویزیون را خاموش کنید ، قدرت خود را از دست داده یا برنامه را بستید ، نقطه شما ذخیره شدبشر
این دوام است !!
این همان اصل در دنیای پایگاه داده است – پس از اتمام معامله ، باید به طور دائم ذخیره شود ، مهم نیست که چه چیزی – خرابی برق ، خرابی سیستم یا قطع پایگاه داده.
انطباق اسید تضمین می کند که داده های شما فقط ناپدید نمی شودبشر اگر ذخیره شود ، آن نجات یافته است – درست مثل پیشرفت Netflix شما.
سود شماره 2: اجرای طرح
امیدوارم به یاد داشته باشید که ما به طور خلاصه در مورد عملیات Schema-on-Read (SOR) و Schema-on-Write (SOW) در وبلاگ دریاچه دادهبشر در حالی که Data Lake از SOR پیروی می کند ، من به SOW (مشابه یک انبار داده) اجازه می دهم.


به همین دلیل اجرای طرحواره و انطباق اسید خیلی خوب با هم کار می کنند. در صورت عدم بررسی ساختار داده های دریافتی ، داده های نادرست یا ناسازگار می توانند وارد شوند – و این که اسید قوانین را می شکند ، محافظت می کند.


سود شماره 3: سفر زمان
آیا تا به حال برای دریافت گواهینامه رانندگی خود از DMV بازدید کرده اید؟
ممکن است شما با موقعیت هایی روبرو شده باشید که مجوز شما منقضی شود ، برای یک مورد جدید به DMV می روید و آنها مجوز قدیمی شما را از آنجا که دیگر معتبر نیست ، دور می کنند. با این حال ، آیا می دانید که DMV حتی اگر آنها آن را برای شما دور ریخته اند ، تمام مجوزهای شما را دنبال می کند؟


این فایده دیگری است که من ارائه می دهم – سفر زمان. حتی اگر از جدول به روز شده استفاده می کنید و حتی اگر جداول قدیمی شما جایگزین شده است ، من همیشه یک نسخه از نسخه های قدیمی (داده های تاریخی) دارم.
به این ترتیب می توانید به موقع سفر کنید و به نسخه های قبلی جدول خود نگاه کنید.
برای نتیجه گیری ، انطباق اسید ، اجرای طرحواره و سفر زمان چند دلیل مهم ایجاد دریاچه دلتا است. بسیاری از مزایای دیگر وجود دارد ، اما پوشش همه آنها در یک وبلاگ امکان پذیر نیست.
DOUNTA:
بنابراین این مزایا در واقع کجا زندگی می کنند؟
دریاچه دلتا:
تمام ویژگی های قدرتمندی که ما فقط در مورد آنها بحث کردیم – انطباق اسید ، اجرای طرحواره و سفر زمان – از طریق یک امکان پذیر است میز دلتا، بلوک ساختمان دریاچه دلتا.
میز دریاچه دلتا (یا جدول دلتا)
دریاچه دلتا شامل یک میز مشابه یک میز پایگاه داده به نام میز دریاچه Delta است اما در یک ذخیره می شود قالب دریاچه دلتابشر
Delta Lake Format => اسید + اجرای برنامه + سفر زمان ( + دو مزیت دیگر که در یک وبلاگ آینده کشف خواهیم کرد).
هر جدول در یک پلت فرم Databricks یک جدول دلتا است. علاوه بر مزایای مختلفی که در بالا توضیح داده شد ، از آن استفاده می کند پارکت قالب (کارآمدترین قالب) برای رسیدگی به مقادیر زیادی از داده ها.
یک فایل با فرمت پارکت از یک رویکرد مبتنی بر ستونی پیروی می کند. برای درک بهتر این مفهوم ، بخش مرجع را بررسی کنید. در اینجا یک پرونده پارکت نمونه وجود دارد:


بگذارید قیاس جدول Delta Live را در زیر درک کنیم و سپس مفهوم جدول Delta حس بهتری خواهد داشت.
میز زنده دلتا
DOUNTA:
این خیلی گیج کننده است – جدول دلتا ، جدول Live Delta: (…
دریاچه دلتا:
این قابل درک است! حتی آقای جری بیش از آنچه که معمولاً است ، عصبانی شد ، وقتی که در مورد این اصطلاح (Delta Live) آموخت. بگذارید این یکی را برای شما ساده کنم!


تصور کنید که به عنوان اولین مشتری به یک رستوران می روید. به محض ورود ، کل کارکنان وارد عمل می شوند – کسی یک لیوان آب برای شما به ارمغان می آورد ، دیگری سفارش شما را می گیرد و سرآشپز در آشپزخانه شروع به آماده سازی وعده غذایی شما می کند.
در این تنظیم ، رستوران است میز زنده دلتا همانطور که او همه را به کار می رساند ، اطمینان حاصل می کند که همه چیز به آرامی و به موقع اجرا می شود. شما هستند داده در اینجا که اداره می شود. علاوه بر این ، میز دلتا ذکر شده در بالا است غذا تهیه شده توسط سرآشپز برای شما.
جدول Live Delta یک است اتی خط لوله ای که به محض اینکه پرونده ای برای مصرف وجود دارد ، ایجاد می شود.
برای افرادی که مدتی در زمینه داده ها کار می کنند – به جداول Live Delta به عنوان ADF (کارخانه داده لاجورد) فکر کنید. تنها تفاوت-در حالی که ADF بومی لاجورد است ، Delta Live Spark Native است و فقط با Databricks کار می کند.
علاوه بر این ، میزهای زنده دلتا فقط کار می کنند خط لوله داده در دریاچه دلتا که به عنوان ADF می تواند برای یک خط لوله هدف کلی استفاده شود.
چند مباحث جالب دیگر مانند پردازش Batch در مقابل جریان ، لودر خودکار ، اصل و نسب داده ، باتلاق داده ها و موارد دیگر وجود دارد. من به زودی آنها را در وبلاگ بعدی پوشش خواهم داد – با ما همراه باشید!
منابع
- خواندن جالب:
Delta Lake vs Data Lake – تفاوت چیست؟
تفاوت بین دریاچه دلتا و دریاچه داده را درک کنید
delta.io
2. درک پارکت با جزئیات:
فرمت فایل پارکت – هر آنچه شما باید بدانید! – داده های موتزارت
طعم های جدید داده ها به روش های جدیدی برای ذخیره آن نیاز دارند! هر آنچه را که باید در مورد فرمت فایل پارکت بدانید بیاموزید
data-mozart.com
3. تفاوت بین جدول دلتا و جدول Live Delta:
Delta Live Table 101-Streamline خط لوله داده شما (2025)
جداول زنده Databricks Delta ، توسعه خط لوله داده را از طریق پردازش داده های افزایشی و قابل اعتماد ساده می کند. بیاموزید …
www.chaosgenius.io
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/data-engineering/take-a-dive-into-delta-lake