Spark是一個開源的通用并行分布式計算框架,由加州大學伯克利分校的AMP實驗室開發(fā),支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種范式。Spark內存計算框架適合各種迭代算法和交互式數據分析,能夠提升大數據處理的實時性和準確性,現(xiàn)已逐漸獲得很多企業(yè)的支持,如阿里巴巴、百度、網易、英特爾等公司。《Spark快速數據處理》系統(tǒng)講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置一個Spark集群,如何在交互模式下運行第一個Spark作業(yè),如何在Spark集群上構建一個生產級的脫機/獨立作業(yè),如何與Spark集群建立連接和使用SparkContext,如何創(chuàng)建和保存RDD(彈性分布式數據集),如何用Spark分布式處理數據,如何設置Shark,將Hive查詢集成到你的Spark作業(yè)中來,如何測試Spark作業(yè),以及如何提升Spark任務的性能。