وضعیت موجودی موجود
Product details
- Publisher : Packt Publishing (October 22, 2021)
- Language : English
- Paperback : 480 pages
- ISBN-10 : 1801077746
-
ISBN-13 : 978-1801077743
کتاب Data Engineering with Apache Spark, Delta Lake, and Lakehouse: Create scalable pipelines that ingest, curate, and aggregate complex data in a timely and secure way
منابع کتاب کتاب Data Engineering with Apache Spark, Delta Lake, and Lakehouse: Create scalable pipelines that ingest, curate, and aggregate complex data in a timely and secure way
درک پیچیدگیهای پلتفرمهای مهندسی دادههای امروزی و کشف استراتژیهایی برای مقابله با آنها با کمک سناریوهای مورد استفاده به رهبری یک متخصص صنعت در دادههای بزرگ.
ویژگی های کلیدی
با مفاهیم اصلی Apache Spark و Delta Lake برای ساخت پلتفرم های داده آشنا شوید
نحوه جذب، پردازش و تجزیه و تحلیل دادههایی را بیاموزید که بعداً میتوانند برای آموزش مدلهای یادگیری ماشین استفاده شوند
درک نحوه عملیاتی کردن مدل های داده در تولید با استفاده از داده های انتخاب شده
توضیحات کتاب
در دنیای دادهها و طرحوارههای دائماً در حال تغییر، ایجاد خطوط لوله داده که میتوانند به طور خودکار با تغییرات تنظیم شوند، مهم است. این کتاب به شما کمک میکند تا پلتفرمهای داده مقیاسپذیری بسازید که مدیران، دانشمندان داده و تحلیلگران داده میتوانند به آن تکیه کنند.
این کتاب با مقدمه ای بر مهندسی داده، همراه با مفاهیم و معماری های کلیدی آن، به شما نشان می دهد که چگونه از خدمات Microsoft Azure Cloud به طور موثر برای مهندسی داده استفاده کنید. شما الگوهای طراحی دریاچه داده و مراحل مختلفی را که از طریق آن داده ها باید در یک دریاچه داده معمولی جریان پیدا کنند، پوشش خواهید داد. هنگامی که ویژگی های اصلی دریاچه دلتا را برای ساخت دریاچه های داده با عملکرد سریع و مدیریت در ذهن کاوش کردید، به پیاده سازی معماری لامبدا با استفاده از دریاچه دلتا خواهید رفت. این کتاب مملو از مثالهای عملی و تکههای کد، شما را از طریق نمونههای دنیای واقعی بر اساس سناریوهای تولیدی که نویسنده در تجربه ۱۰ ساله کار با دادههای بزرگ با آن روبرو شده است، راهنمایی میکند. در نهایت، استراتژیهای استقرار دریاچه داده را پوشش میدهید که نقش مهمی در تأمین منابع ابری و استقرار خطوط لوله داده به روشی تکرارپذیر و مداوم دارند.
در پایان این کتاب مهندسی داده، میدانید که چگونه به طور مؤثر با دادههای در حال تغییر مقابله کنید و خطوط لوله داده مقیاسپذیر ایجاد کنید تا وظایف علم داده، ML و هوش مصنوعی (AI) را ساده کنید.
آنچه خواهید آموخت
چالش هایی که ممکن است در دنیای مهندسی داده با آن روبرو شوید را کشف کنید
تراکنشهای ACID را با استفاده از دریاچه دلتا به آپاچی اسپارک اضافه کنید
استراتژی های طراحی موثر برای ساخت دریاچه های داده در سطح سازمانی را درک کنید
الگوهای معماری و طراحی برای ساخت خطوط لوله انتقال داده کارآمد را کاوش کنید
یک خط لوله داده را برای پیش پردازش داده ها با استفاده از Apache Spark و Delta Lake هماهنگ کنید.
استقرار و نظارت خودکار خطوط لوله داده در تولید
با ایمن سازی، نظارت، و مدیریت مدل های خطوط لوله داده به طور کارآمد مقابله کنید
این کتاب برای چه کسی است
این کتاب برای مهندسین داده و تحلیلگران داده مشتاق است که تازه وارد دنیای مهندسی داده شده اند و به دنبال راهنمای عملی برای ساخت پلت فرم های داده مقیاس پذیر هستند. اگر قبلاً با PySpark کار می کنید و می خواهید از Delta Lake برای مهندسی داده استفاده کنید، این کتاب برای شما مفید خواهد بود. دانش اولیه پایتون، اسپارک و SQL مورد انتظار است.
فهرست مطالب
داستان مهندسی داده و تجزیه و تحلیل
کشف معماریهای دریاچه ذخیرهسازی و محاسبه دادهها
مهندسی داده در Microsoft Azure
درک خطوط لوله داده
مرحله جمع آوری داده ها - لایه برنز
درک دریاچه دلتا
مرحله مدیریت داده - لایه نقره ای
مرحله تجمیع داده ها - لایه طلا
استقرار و نظارت بر خطوط لوله در تولید
حل چالش های مهندسی داده
تامین زیرساخت
یکپارچه سازی و استقرار مداوم (CI/CD) خطوط لوله داده
ارسال نظر درباره کتاب Data Engineering with Apache Spark, Delta Lake, and Lakehouse: Create scalable pipelines that ingest, curate, and aggregate complex data in a timely and secure way