جلد سخت سیاه و سفید
Product details
- Publisher : Packt Publishing (March 31, 2022)
- Language : English
- Paperback : 440 pages
- ISBN-10 : 1800561326
- ISBN-13 : 978-1800561328
کتاب Data Engineering with Google Cloud Platform: A practical guide to operationalizing scalable data analytics systems on GCP
Build and deploy your own data pipelines on GCP, make key architectural decisions, and gain the confidence to boost your career as a data engineer
Key Features
- Understand data engineering concepts, the role of a data engineer, and the benefits of using GCP for building your solution
- Learn how to use the various GCP products to ingest, consume, and transform data and orchestrate pipelines
- Discover tips to prepare for and pass the Professional Data Engineer exam
Book Description
With this book, you'll understand how the highly scalable Google Cloud Platform (GCP) enables data engineers to create end-to-end data pipelines right from storing and processing data and workflow orchestration to presenting data through visualization dashboards.
Starting with a quick overview of the fundamental concepts of data engineering, you'll learn the various responsibilities of a data engineer and how GCP plays a vital role in fulfilling those responsibilities. As you progress through the chapters, you'll be able to leverage GCP products to build a sample data warehouse using Cloud Storage and BigQuery and a data lake using Dataproc. The book gradually takes you through operations such as data ingestion, data cleansing, transformation, and integrating data with other sources. You'll learn how to design IAM for data governance, deploy ML pipelines with the Vertex AI, leverage pre-built GCP models as a service, and visualize data with Google Data Studio to build compelling reports. Finally, you'll find tips on how to boost your career as a data engineer, take the Professional Data Engineer certification exam, and get ready to become an expert in data engineering with GCP.
By the end of this data engineering book, you'll have developed the skills to perform core data engineering tasks and build efficient ETL data pipelines with GCP.
What you will learn
- Load data into BigQuery and materialize its output for downstream consumption
- Build data pipeline orchestration using Cloud Composer
- Develop Airflow jobs to orchestrate and automate a data warehouse
- Build a Hadoop data lake, create ephemeral clusters, and run jobs on the Dataproc cluster
- Leverage Pub/Sub for messaging and ingestion for event-driven systems
- Use Dataflow to perform ETL on streaming data
- Unlock the power of your data with Data Studio
- Calculate the GCP cost estimation for your end-to-end data solutions
Who this book is for
This book is for data engineers, data analysts, and anyone looking to design and manage data processing pipelines using GCP. You'll find this book useful if you are preparing to take Google's Professional Data Engineer exam. Beginner-level understanding of data science, the Python programming language, and Linux commands is necessary. A basic understanding of data processing and cloud computing, in general, will help you make the most out of this book.
Table of Contents
- Fundamentals of Data Engineering
- Big Data Capabilities on GCP
- Building a Data Warehouse in BigQuery
- Building Orchestration for Batch Data Loading Using Cloud Composer
- Building a Data Lake Using Dataproc
- Processing Streaming Data with Pub/Sub and Dataflow
- Visualizing Data for Making Data-Driven Decisions with Data Studio
- Building Machine Learning Solutions on Google Cloud Platform
- User and Project Management in GCP
- Cost Strategy in GCP
- CI/CD on Google Cloud Platform for Data Engineers
- Boosting Your Confidence as a Data Engineer
منابع کتاب کتاب Data Engineering with Google Cloud Platform: A practical guide to operationalizing scalable data analytics systems on GCP
خطوط لوله داده خود را در GCP بسازید و استقرار دهید، تصمیمات معماری کلیدی بگیرید و اعتماد به نفس برای ارتقای شغل خود به عنوان یک مهندس داده به دست آورید.
ویژگی های کلیدی
- مفاهیم مهندسی داده، نقش یک مهندس داده، و مزایای استفاده از GCP برای ساخت راه حل خود را درک کنید.
- بیاموزید که چگونه از محصولات مختلف GCP برای جذب، مصرف و تبدیل داده ها و هماهنگ کردن خطوط لوله استفاده کنید
- نکاتی را برای آمادگی و قبولی در آزمون حرفه ای مهندس داده کشف کنید
توضیحات کتاب
با این کتاب، متوجه خواهید شد که چگونه پلتفرم ابری بسیار مقیاس پذیر Google (GCP) مهندسان داده را قادر می سازد خطوط لوله داده سرتاسری را درست از ذخیره و پردازش داده ها و هماهنگ سازی گردش کار تا ارائه داده ها از طریق داشبوردهای تجسم ایجاد کنند.
با مروری سریع بر مفاهیم اساسی مهندسی داده شروع کنید، مسئولیت های مختلف یک مهندس داده و اینکه چگونه GCP نقش حیاتی در انجام این مسئولیت ها ایفا می کند را خواهید آموخت. با پیشرفت در فصلها، میتوانید از محصولات GCP برای ایجاد یک انبار داده نمونه با استفاده از Cloud Storage و BigQuery و یک دریاچه داده با استفاده از Dataproc استفاده کنید. این کتاب به تدریج شما را از طریق عملیات هایی مانند جذب داده ها، پاکسازی داده ها، تبدیل و ادغام داده ها با منابع دیگر می برد. شما یاد خواهید گرفت که چگونه IAM را برای مدیریت داده طراحی کنید، خطوط لوله ML را با Vertex AI مستقر کنید، از مدل های GCP از پیش ساخته شده به عنوان یک سرویس استفاده کنید، و داده ها را با Google Data Studio تجسم کنید تا گزارش های قانع کننده بسازید. در نهایت، نکاتی در مورد چگونگی ارتقای شغل خود به عنوان یک مهندس داده پیدا خواهید کرد.
تا پایان این کتاب مهندسی داده، مهارتهایی را برای انجام وظایف مهندسی دادههای اصلی و ایجاد خطوط لوله داده ETL کارآمد با GCP ایجاد خواهید کرد.
آنچه خواهید آموخت
- داده ها را در BigQuery بارگذاری کنید و خروجی آن را برای مصرف پایین دستی مادی کنید
- ایجاد هماهنگی خط لوله داده با استفاده از Cloud Composer
- کارهای Airflow را برای هماهنگی و خودکارسازی انبار داده توسعه دهید
- یک دریاچه داده هادوپ بسازید، خوشه های زودگذر ایجاد کنید، و مشاغل را روی خوشه Dataproc اجرا کنید.
- Pub/Sub را برای پیام رسانی و دریافت برای سیستم های رویداد محور استفاده کنید
- از Dataflow برای اجرای ETL در جریان داده استفاده کنید
- قدرت داده های خود را با Data Studio باز کنید
- برآورد هزینه GCP را برای راه حل های داده سرتاسر خود محاسبه کنید
این کتاب برای چه کسی است
این کتاب برای مهندسان داده، تحلیلگران داده، و هر کسی که به دنبال طراحی و مدیریت خطوط لوله پردازش داده با استفاده از GCP است. اگر برای شرکت در آزمون مهندس داده حرفه ای گوگل آماده می شوید، این کتاب برای شما مفید خواهد بود. درک سطح مبتدی از علم داده، زبان برنامه نویسی پایتون و دستورات لینوکس ضروری است. به طور کلی درک اولیه از پردازش داده ها و محاسبات ابری به شما کمک می کند تا از این کتاب حداکثر استفاده را ببرید.
فهرست مطالب
- مبانی مهندسی داده
- قابلیت های کلان داده در GCP
- ساخت انبار داده در BigQuery
- ساخت ارکستراسیون برای بارگذاری دسته ای داده با استفاده از Cloud Composer
- ساخت دریاچه داده با استفاده از Dataproc
- پردازش داده های جریانی با Pub/Sub و Dataflow
- تجسم داده ها برای تصمیم گیری های داده محور با Data Studio
- ساخت راه حل های یادگیری ماشین در Google Cloud Platform
- مدیریت کاربر و پروژه در GCP
- استراتژی هزینه در GCP
- CI/CD در Google Cloud Platform for Engineers Data
- افزایش اعتماد به نفس خود به عنوان یک مهندس داده
ارسال نظر درباره کتاب Data Engineering with Google Cloud Platform: A practical guide to operationalizing scalable data analytics systems on GCP