當應用于大型分布式數據集時,標準算法和數據結構可能會變慢或完全失效。選擇專為大數據設計的算法可以節(jié)省時間、提高準確性并降低處理成本?!堵嬎惴ㄅc數據結構(大規(guī)模數據集)》將最前沿的研究論文提煉為實用的技術,用于繪制、流式傳輸并組織磁盤和云中的大規(guī)模數據集,十分獨特。大規(guī)模數據集的算法與數據結構為大型分布式數據引入了處理和分析技術?!堵嬎惴ㄅc數據結構(大規(guī)模數據集)》作為指南,包含了行業(yè)故事和有趣的插圖,使復雜的概念也易于理解。在學習如何將強大的算法(如Bloom 過濾器、計數最小草圖、HyperLogLog和LSM樹)映射到你自己的用例時,將對真實世界的示例進行探索。主要內容:● 概率草圖數據結構● 選擇正確的數據庫引擎● 設計高效的磁盤數據結構和算法● 大規(guī)模系統中的算法權衡● 有限空間資源下的百分位數計算Python、R和偽代碼中的示例。