Product details
- Publisher : O'Reilly Media; 2nd edition (August 11, 2020)
- Language : English
- Paperback : 400 pages
- ISBN-10 : 1492050040
- ISBN-13 : 978-1492050049
جلد سخت رنگی_کتاب Learning Spark: Lightning-Fast Data Analytics
Data is bigger, arrives faster, and comes in a variety of formats—and it all needs to be processed at scale for analytics or machine learning. But how can you process such varied workloads efficiently? Enter Apache Spark.
Updated to include Spark 3.0, this second edition shows data engineers and data scientists why structure and unification in Spark matters. Specifically, this book explains how to perform simple and complex data analytics and employ machine learning algorithms. Through step-by-step walk-throughs, code snippets, and notebooks, you’ll be able to:
- Learn Python, SQL, Scala, or Java high-level Structured APIs
- Understand Spark operations and SQL Engine
- Inspect, tune, and debug Spark operations with Spark configurations and Spark UI
- Connect to data sources: JSON, Parquet, CSV, Avro, ORC, Hive, S3, or Kafka
- Perform analytics on batch and streaming data using Structured Streaming
- Build reliable data pipelines with open source Delta Lake and Spark
- Develop machine learning pipelines with MLlib and productionize models using MLflow
منابع کتاب جلد سخت رنگی_کتاب Learning Spark: Lightning-Fast Data Analytics
دادهها بزرگتر هستند، سریعتر به دست میآیند و در قالبهای مختلف ارائه میشوند - و همه باید در مقیاس برای تجزیه و تحلیل یا یادگیری ماشین پردازش شوند. اما چگونه می توانید چنین بارهای کاری متنوعی را به طور موثر پردازش کنید؟ وارد آپاچی اسپارک شوید.
این ویرایش دوم که برای گنجاندن Spark 3.0 به روز شده است، به مهندسان داده و دانشمندان داده نشان می دهد که چرا ساختار و یکپارچگی در Spark اهمیت دارد. به طور خاص، این کتاب نحوه انجام تجزیه و تحلیل داده های ساده و پیچیده و استفاده از الگوریتم های یادگیری ماشین را توضیح می دهد. از طریق مراحل گام به گام، تکه کدها و نوت بوک ها، می توانید:
- APIهای ساختاری سطح بالا Python، SQL، Scala یا Java را یاد بگیرید
- درک عملیات Spark و SQL Engine
- عملیات Spark را با تنظیمات Spark و Spark UI بررسی، تنظیم و اشکال زدایی کنید
- اتصال به منابع داده: JSON، Parquet، CSV، Avro، ORC، Hive، S3، یا Kafka
- تجزیه و تحلیل را روی داده های دسته ای و جریانی با استفاده از جریان ساخت یافته انجام دهید
- خطوط لوله داده قابل اعتماد با دلتا لیک و اسپارک منبع باز بسازید
- خطوط لوله یادگیری ماشین را با MLlib توسعه دهید و مدل هایی را با استفاده از MLflow تولید کنید
ارسال نظر درباره جلد سخت رنگی_کتاب Learning Spark: Lightning-Fast Data Analytics