本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。全書共16章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應用程序開發(fā);MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何構建Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;Hive簡介;ZooKeeper簡介;開源工具Sqoop,最后還提供了豐富的案例分析。本書是Hadoop權威參考,程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以從中了解如何安裝與運行Hadoop集群。