نویسنده (ها): دوی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
ناوبری
مقدمه
- اجزای اصلی پایگاه داده
- مصرف داده ها و تحول
- ارکستراسیون و نظارت
- تجسم در Databricks
- دست با جنی
راه دور
مقدمه
در ژنرال Ai Buzz فعلی ، بیشتر مکالمات روی آن تمرکز می کنند Rag برای اسناد بدون ساختاربشر اما یک چالش به همان اندازه مهم دیگر وجود دارد – ایجاد حس داده های ساختاری در مقیاس
این جایی است که ابزارهایی دوست دارند Databricks Genie قدم وارد کنید ، “متن به SQL” را برای کاربران و تحلیلگران تجاری فعال کنید. این همچنین به همین دلیل است که من این مقاله را نوشتم-برای باز کردن چگونگی تصور مجدد داده های مدرن برای دوران هوش مصنوعی ، دوباره تصور می کنم.


انبارهای داده سنتی با چمدان های خود همراه هستند: زیرساخت های پیچیده ، عملکرد آهسته در مقیاس و سردردهایی با حاکمیت و انطباق. Databricks آن را تغییر می دهد SQL در خانه دریاچه، توسط کاتالوگ وحدت وت دریاچه دلتابشر
این چیزی است که آن را به جدول می آورد:
- مدیریت داده های متحد تحت یک چارچوب حاکمیتی.
- تحولات آسان با جداول دلتا و معماری مدالیون.
- خروجی های آماده Ai برای تجزیه و تحلیل ، داشبورد ، و مولکول مدل ها.
معماری یکپارچه در Databricks به شرح زیر است:
داده های منابع داده مصرف می شود ، تبدیل می شود ، پرس و جو می شود ، تجسم می شود و به برنامه های خارجی ارائه می شود. همه این تحولات توسط دولت (ارائه شده توسط کاتالوگ وحدت) تأمین می شود و قیمت قوی در مقابل عملکرد را ارائه می دهد.
به طور خلاصه ، یک معماری برای مصرف ، تبدیل ، پرس و جو ، تجسم و ارائه داده ها … با مدیریت پخته شده.
دو شخصیت اصلی از رویکرد انبارداری Databricks بهره مند می شوند:
- تحلیلگر → ساخت داشبورد AI/BI.
- کاربران تجاری → پرسیدن زبان طبیعی سوالات در جن.
1. اجزای اصلی پایگاه داده
بیایید بلوک های اصلی ساختمانی را که همه اینها را ممکن می سازد ، تجزیه کنیم.
کاتالوگ وحدت
کاتالوگ وحدت مدیریت می کند متاستور ، یک ظرف سطح بالا برای کلیه داده ها و دارایی های هوش مصنوعی در پایگاه داده.
فروشگاه می کند:
- ابرداده برای هر دارایی (جداول ، نمایش ، حجم ، توابع ، مدل ها و غیره).
- لیست های کنترل دسترسی برای حاکمیت.
- گزارش های حسابرسی برای انطباق.
چگونه ساختار یافته است:
- یک متاستور حاوی یک یا چند است کاتالوگبشر
- هر کاتالوگ حاوی طرح (یا پایگاه داده).
- طرح ها حاوی اشیاء داده مانند جداول ، نماها و مدل ها.
- برای مراجعه به دارایی ، از فضای نام سه سطح:
CATALOG.SCHEMA.ASSET_NAME
شما می توانید یک متاستور را به یک یا چند فضای کاری اختصاص دهید و امکان دسترسی به داده های امن و بین کار را فراهم کنید.
انبار Databricks SQL
این است موتور محاسبه بهینه شده برای نمایش داده های SQL ، تجزیه و تحلیل و گردش کار BI.
نکات برجسته:
- مقیاس بندی الاستیک – در صورت لزوم رشد یا کوچک شدن را کاهش دهید.
- دارای عملکرد برای پرس و جوهای داده
- داشبورد آماده – با ابزارهای تجسم ادغام می شود.
2. مصرف و تحول داده ها
مصرف داده ها
Databricks روش های مختلفی را برای دریافت داده به دریاچه دلتا ارائه می دهد:
- یک جدول ایجاد کنید – بارگیری داده ها از منابع مختلف.
- UI را بارگذاری کنید -مصرف سریع کشیدن و رها کردن.
- کپی کردن – از مسیرهای ذخیره سازی ابر.
- لودر اتومبیل – به طور مداوم پرونده های جدید را بطور خودکار بارگیری می کند.
- میزهای جریان -جریان داده های زمان واقعی را کنترل کنید.
- CDC (تغییر ضبط داده ها) -تغییرات سطح ردیف را ردیابی و جریان کنید.
- Lakeflow Connect – ساخت خطوط لوله مصرف با ارکستراسیون ، مشاهده و حاکمیتی که در آن ساخته شده است.


تحول داده ها
هنگامی که داده ها به زمین می روند ، Databricks از آن استفاده می کند معماری مدالیون:
- برنز – مصرف خام.
- نقره – داده های تمیز و پیوست.
- طلا -جمع شده ، تجزیه و تحلیل آماده مجموعه داده هابشر
ویژگی های تحول کلیدی:
- معاملات اسید دریاچه دلتا – درج ایمن ، حذف ، به روزرسانی و ادغام.
- نماهای مادی شده – سرعت بخش دو داشبورد و اتی نمایش داده شد
چگونه با هم متناسب است:
داده هایی که از طریق Lakeflow Connect از طریق لایه های برنز → نقره ای جریان می یابد ، آماده برای تجزیه و تحلیل یا هوش مصنوعی است.
3 ارکستراسیون و نظارت
ارکستراسیون
تحلیلی مدرن AI محور نیاز به ارکستراسیون دارد که در سراسر کار می کند داده ها ، تجزیه و تحلیل ها و خطوط لوله هوش مصنوعیبشر
- DLT (میزهای زنده دلتا) → خطوط لوله های مصرف را کنترل می کند.
- گردش کار → چندین کار را ارکستر می کند/کاربشر
- مگس → گردش کار DLT + را در یک چارچوب با:
– اتصال: پیوند به منابع داده.
– خطوط لوله: پردازش داده های پایان به پایان.
– مشاغل: نظارت و مدیریت گردش کار.


LakeFlow در بالای اطلاعات داده ها ، مدیریت کاتالوگ وحدت و راندمان محاسبات بدون سرور ساخته شده است و آن را به یک چارچوب قدرتمند برای انبارهای داده مدرن تبدیل می کند.
نظارت
Databricks ابزارهای مشاهده ای قوی را ارائه می دهد:
- برچسب زدن – ابرداده کلید/ارزش برای ردیابی هزینه و اتوماسیون.
- جداول سیستم – داده های عملیاتی برای حسابرسی ، اشکال زدایی و ردیابی دسترسی.
بهترین روشها برای Databricks SQL:
- با یک شروع کنید اندازه انبار بزرگتر، سپس بهینه سازی کنید.
- استفاده کردن بدون سرور + خودکار سازی برای کنترل هزینه
- نمایش داده های پروفایل با بازپرس برای زمان اجرا ، استفاده از حافظه و تعداد ردیف.
4. تجسم در پایگاه داده ها
اکنون زمان آن رسیده است که تمام مزایای بخش های 1 ، 2 و 3 را به دست آوریم! Databricks AI/BI ارائه شامل داشبورد AI/BI و AI/BI Genie:
داشبورد
در زیر SQL برگه در صفحه ناوبری:
- به یک انبار SQL وصل شوید.
- منبع داده خود را در زیر انتخاب کنید داده برگه.
- روی دادن بوم و شروع به ساختن تجسم (کمک هوش مصنوعی).
- داشبورد خود را به اشتراک بگذارید یا منتشر کنید.
جنی
همچنین در زیر SQL برگه ، جنی اجازه می دهد زبان طبیعی سؤالات مربوط به مجموعه داده های ساختار یافته بدون نیاز به یک تحلیلگر داده.
شما می توانید از دو طریق به آن دسترسی پیدا کنید:
- ژنی مستقل
- داشبورد جنی
مراحل تنظیم جن:
- یک فضای کاری ایجاد کنید.
- یک منبع داده را وصل کنید – کاتالوگ و جدول خود را انتخاب کنید.
- غنی را اضافه کنید زمینه در کاتالوگ وحدت برای پاسخ های بهتر هوش مصنوعی.
- به طور مداوم با بررسی های حقیقت زمین ارزیابی کنید.
5. دست با جنی
این بخشی از وبلاگ من است که در آن تئوری با تمرین دستی روبرو می شود. من یک فیلم YouTube ساختم تا این بخش از آموزش را پوشش دهم – در مورد مولتی مدلی صحبت کنید
در این ویدیو ، من یک راهپیمایی سریع در مورد نحوه شروع کار با Genie به صورت رایگان با استفاده از نسخه رایگان Databricks ارائه می دهم.
ما پنج بخش کلیدی را پوشش می دهیم: درک مجموعه داده تاکسی NYC ، ایجاد یک فضای جن ، اجرای نمایش داده های SQL ، آزمایش و ارائه بازخورد به Genie و به اشتراک گذاشتن فضای کاری ما با دیگران.
من نحوه اتصال به جدول سفرهای تاکسی NYC را نشان می دهم و سؤالات نمونه ای را برای پاسخ دادن به Genie ایجاد می کنم. من همچنین بر اهمیت آزمایش پاسخ های جنی و ارائه بازخورد برای بهبود عملکرد آن تأکید می کنم.
بهترین قسمت؟ همچنین می توانید با ثبت نام با Databricks Free Edition که با مجموعه داده نمونه ای که در این ویدیو استفاده می کنم ، همراهی کنید!
ثبت نام در اینجا: https://docs.databricks.com/aws/en/getting-started/free-edition
https://www.youtube.com/watch؟v=inm7xzumba0
راه دور
این یک آغازگر سریع در مورد چگونگی تکامل Databricks در انبارداری داده های مدرن ، تجزیه و تحلیل و تجسم برای دوره AI بود. از حکومتی متحد به داشبوردهای با کمک AI، Databricks داده های ساختاری را به عنوان داده های بدون ساختار در گردش کار Gen AI در دسترس قرار می دهد.
از این وبلاگ لذت بردید یا حتی بهتر ، چیز جدیدی آموخته اید؟
👏 هر چند بار که دوست دارید ، چنگ بزنید – هر چنگال باعث لبخند من می شود!
⭐ مرا در اینجا دنبال کنید و به صورت رایگان مشترک شوید تا به روز شوید
🔗 مرا پیدا کن وابسته به لینکدین واد توییتر 📪 در خبرنامه من مشترک شوید برای ماندن در بالای پست های من!
منتشر شده از طریق به سمت هوش مصنوعی