جلد سخت سیاه و سفید
Product details
- Publisher : Manning (July 5, 2022)
- Language : English
- Paperback : 304 pages
- ISBN-10 : 1617298034
- ISBN-13 : 978-1617298035
کتاب Algorithms and Data Structures for Massive Datasets
Massive modern datasets make traditional data structures and algorithms grind to a halt. This fun and practical guide introduces cutting-edge techniques that can reliably handle even the largest distributed datasets.
In Algorithms and Data Structures for Massive Datasets you will learn:
Probabilistic sketching data structures for practical problems
Choosing the right database engine for your application
Evaluating and designing efficient on-disk data structures and algorithms
Understanding the algorithmic trade-offs involved in massive-scale systems
Deriving basic statistics from streaming data
Correctly sampling streaming data
Computing percentiles with limited space resources
Algorithms and Data Structures for Massive Datasets reveals a toolbox of new methods that are perfect for handling modern big data applications. You’ll explore the novel data structures and algorithms that underpin Google, Facebook, and other enterprise applications that work with truly massive amounts of data. These effective techniques can be applied to any discipline, from finance to text analysis. Graphics, illustrations, and hands-on industry examples make complex ideas practical to implement in your projects—and there’s no mathematical proofs to puzzle over. Work through this one-of-a-kind guide, and you’ll find the sweet spot of saving space without sacrificing your data’s accuracy.
Purchase of the print book includes a free eBook in PDF, Kindle, and ePub formats from Manning Publications.
About the technology
Standard algorithms and data structures may become slow—or fail altogether—when applied to large distributed datasets. Choosing algorithms designed for big data saves time, increases accuracy, and reduces processing cost. This unique book distills cutting-edge research papers into practical techniques for sketching, streaming, and organizing massive datasets on-disk and in the cloud.
About the book
Algorithms and Data Structures for Massive Datasets introduces processing and analytics techniques for large distributed data. Packed with industry stories and entertaining illustrations, this friendly guide makes even complex concepts easy to understand. You’ll explore real-world examples as you learn to map powerful algorithms like Bloom filters, Count-min sketch, HyperLogLog, and LSM-trees to your own use cases.
What's inside
Probabilistic sketching data structures
Choosing the right database engine
Designing efficient on-disk data structures and algorithms
Algorithmic tradeoffs in massive-scale systems
Computing percentiles with limited space resources
About the reader
Examples in Python, R, and pseudocode.
About the author
Dzejla Medjedovic earned her PhD in the Applied Algorithms Lab at Stony Brook University, New York. Emin Tahirovic earned his PhD in biostatistics from University of Pennsylvania. Illustrator Ines Dedovic earned her PhD at the Institute for Imaging and Computer Vision at RWTH Aachen University, Germany.
Table of Contents
1 Introduction
PART 1 HASH-BASED SKETCHES
2 Review of hash tables and modern hashing
3 Approximate membership: Bloom and quotient filters
4 Frequency estimation and count-min sketch
5 Cardinality estimation and HyperLogLog
PART 2 REAL-TIME ANALYTICS
6 Streaming data: Bringing everything together
7 Sampling from data streams
8 Approximate quantiles on data streams
PART 3 DATA STRUCTURES FOR DATABASES AND EXTERNAL MEMORY ALGORITHMS
9 Introducing the external memory model
10 Data structures for databases: B-trees, Bε-trees, and LSM-trees
11 External memory sorting
منابع کتاب کتاب Algorithms and Data Structures for Massive Datasets
مجموعه دادههای مدرن عظیم، ساختارهای داده سنتی و الگوریتمها را متوقف میکند. این راهنمای سرگرمکننده و کاربردی، تکنیکهای پیشرفتهای را معرفی میکند که میتوانند بهطور قابل اعتمادی حتی بزرگترین مجموعه دادههای توزیعشده را مدیریت کنند.
در الگوریتمها و ساختارهای داده برای مجموعههای داده عظیم یاد خواهید گرفت:
ترسیم احتمالی ساختارهای داده برای مشکلات عملی
انتخاب موتور پایگاه داده مناسب برای برنامه شما
ارزیابی و طراحی ساختارها و الگوریتمهای داده کارآمد روی دیسک
درک مبادلات الگوریتمی موجود در سیستمهای مقیاس عظیم
استخراج آمار اولیه از جریان داده ها
نمونه برداری صحیح از داده های جریانی
صدک های محاسباتی با منابع فضایی محدود
الگوریتمها و ساختارهای داده برای مجموعههای داده عظیم جعبه ابزاری از روشهای جدید را نشان میدهد که برای مدیریت برنامههای کلان داده مدرن مناسب هستند. شما ساختارهای داده جدید و الگوریتمهایی را که زیربنای Google، Facebook، و سایر برنامههای کاربردی سازمانی هستند که با مقادیر واقعاً عظیمی از داده کار میکنند، بررسی خواهید کرد. این تکنیک های موثر را می توان در هر رشته ای، از امور مالی گرفته تا تجزیه و تحلیل متن، به کار برد. گرافیک، تصاویر، و مثالهای صنعتی عملی، ایدههای پیچیده را برای پیادهسازی در پروژههای شما کاربردی میسازد - و هیچ دلیل ریاضی برای معما وجود ندارد. از طریق این راهنمای منحصر به فرد کار کنید، و بدون به خطر انداختن دقت داده های خود، نقطه شیرین صرفه جویی در فضا را پیدا خواهید کرد.
خرید کتاب چاپی شامل یک کتاب الکترونیکی رایگان در قالبهای PDF، Kindle و ePub از انتشارات منینگ است.
در مورد تکنولوژی
الگوریتمهای استاندارد و ساختارهای داده ممکن است زمانی که برای مجموعه دادههای توزیعشده بزرگ اعمال میشوند، کند شوند - یا کلاً از کار بیفتند. انتخاب الگوریتم های طراحی شده برای داده های بزرگ باعث صرفه جویی در زمان، افزایش دقت و کاهش هزینه پردازش می شود. این کتاب منحصر به فرد، مقالات تحقیقاتی پیشرفته را به تکنیک های عملی برای ترسیم، پخش جریانی، و سازماندهی مجموعه داده های عظیم روی دیسک و در فضای ابری تقطیر می کند.
در مورد کتاب
الگوریتم ها و ساختارهای داده برای مجموعه داده های عظیم ، تکنیک های پردازش و تجزیه و تحلیل را برای داده های توزیع شده بزرگ معرفی می کند. این راهنمای دوستانه که مملو از داستانهای صنعتی و تصاویر سرگرمکننده است، حتی مفاهیم پیچیده را به راحتی درک میکند. همانطور که یاد می گیرید الگوریتم های قدرتمندی مانند فیلترهای بلوم، طرح شمارش دقیقه، HyperLogLog و درختان LSM را به موارد استفاده خود نگاشت کنید، نمونه های دنیای واقعی را کشف خواهید کرد.
داخلش چیه
ترسیم احتمالی ساختارهای داده
انتخاب موتور پایگاه داده مناسب
طراحی ساختارهای داده و الگوریتم های کارآمد روی دیسک
معاوضه الگوریتمی در سیستم های مقیاس عظیم
محاسبه صدک ها با منابع فضایی محدود
درباره خواننده
نمونه هایی در پایتون، R و شبه کد.
درباره نویسنده
ژیلا مدجدوویچ مدرک دکترای خود را در آزمایشگاه الگوریتم های کاربردی در دانشگاه استونی بروک نیویورک گرفت. امین طاهیروویچ دکترای خود را در رشته آمار زیستی از دانشگاه پنسیلوانیا دریافت کرد. اینس ددوویچ تصویرگر مدرک دکترای خود را در موسسه تصویربرداری و بینایی کامپیوتری در دانشگاه RWTH آخن آلمان به دست آورد.
فهرست مطالب
1 مقدمه
قسمت 1 اسکچ های مبتنی بر هش
2 بررسی جداول هش و هش مدرن
3 عضویت تقریبی: بلوم و فیلترهای ضریب
4 تخمین فرکانس و طرح شمارش دقیقه
5 تخمین کاردینالیته و HyperLog
PART 2 St ANALYCS-
6: گردآوری همه چیز
7 نمونه برداری از جریان های داده
8 کمیت های تقریبی در جریان های داده
قسمت 3 ساختارهای داده برای پایگاه های داده و الگوریتم های حافظه خارجی
9 معرفی مدل حافظه خارجی
10 ساختار داده برای پایگاه های داده: درختان B، Bε-trees و LSM-trees
11 مرتب سازی حافظه خارجی
ارسال نظر درباره کتاب Algorithms and Data Structures for Massive Datasets