Product details
- ASIN : 1491943203
- Publisher : O'Reilly Media; 1st edition (June 16, 2017)
- Language : English
- Paperback : 358 pages
- ISBN-10 : 9781491943205
- ISBN-13 : 978-1491943205
جلد سخت رنگی_کتاب High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark
Apache Spark is amazing when everything clicks. But if you haven’t seen the performance improvements you expected, or still don’t feel confident enough to use Spark in production, this practical book is for you. Authors Holden Karau and Rachel Warren demonstrate performance optimizations to help your Spark queries run faster and handle larger data sizes, while using fewer resources.
Ideal for software engineers, data engineers, developers, and system administrators working with large-scale data applications, this book describes techniques that can reduce data infrastructure costs and developer hours. Not only will you gain a more comprehensive understanding of Spark, you’ll also learn how to make it sing.
With this book, you’ll explore:
- How Spark SQL’s new interfaces improve performance over SQL’s RDD data structure
- The choice between data joins in Core Spark and Spark SQL
- Techniques for getting the most out of standard RDD transformations
- How to work around performance issues in Spark’s key/value pair paradigm
- Writing high-performance Spark code without Scala or the JVM
- How to test for functionality and performance when applying suggested improvements
- Using Spark MLlib and Spark ML machine learning libraries
- Spark’s Streaming components and external community packages
منابع کتاب جلد سخت رنگی_کتاب High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark
Apache Spark وقتی همه چیز کلیک می کند شگفت انگیز است. اما اگر بهبودهای عملکردی را که انتظار داشتید ندیده اید، یا هنوز به اندازه کافی برای استفاده از Spark در تولید احساس اعتماد ندارید، این کتاب کاربردی برای شما مناسب است. نویسندگان هولدن کارائو و ریچل وارن بهینهسازیهای عملکردی را نشان میدهند تا به درخواستهای Spark شما کمک کنند سریعتر اجرا شوند و اندازههای داده بزرگتر را مدیریت کنند، در حالی که از منابع کمتری استفاده میکنند.
ایده آل برای مهندسان نرم افزار، مهندسان داده، توسعه دهندگان و مدیران سیستم که با برنامه های داده در مقیاس بزرگ کار می کنند، این کتاب تکنیک هایی را شرح می دهد که می توانند هزینه های زیرساخت داده و ساعات توسعه دهندگان را کاهش دهند. نه تنها درک جامع تری از Spark به دست خواهید آورد، بلکه یاد خواهید گرفت که چگونه آن را آواز بخواند.
با این کتاب، کاوش خواهید کرد:
- چگونه رابط های جدید Spark SQL عملکرد را نسبت به ساختار داده RDD SQL بهبود می بخشد
- انتخاب بین اتصال داده ها در Core Spark و Spark SQL
- تکنیکهایی برای استفاده حداکثری از تبدیلهای استاندارد RDD
- چگونه می توان روی مسائل مربوط به عملکرد در پارادایم جفت کلید/مقدار Spark کار کرد
- نوشتن کد Spark با کارایی بالا بدون Scala یا JVM
- نحوه آزمایش عملکرد و عملکرد هنگام اعمال بهبودهای پیشنهادی
- استفاده از کتابخانه های یادگیری ماشینی Spark MLlib و Spark ML
- اجزای جریان و بسته های جامعه خارجی Spark
ارسال نظر درباره جلد سخت رنگی_کتاب High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark