Spark快速數(shù)據(jù)處理

定　價：￥29.00

作　者：	（美）Holden Karau 著，余璜，張磊譯
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	程序設計計算機/網(wǎng)絡

購買這本書可以去

ISBN：	9787111463115	出版時間：	2014-04-01	包裝：	平裝
開本：	16開	頁數(shù)：	66	字數(shù)：

內容簡介

　　Spark是一個開源的通用并行分布式計算框架，由加州大學伯克利分校的AMP實驗室開發(fā)，支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種范式。Spark內存計算框架適合各種迭代算法和交互式數(shù)據(jù)分析，能夠提升大數(shù)據(jù)處理的實時性和準確性，現(xiàn)已逐漸獲得很多企業(yè)的支持，如阿里巴巴、百度、網(wǎng)易、英特爾等公司?！禨park快速數(shù)據(jù)處理》系統(tǒng)講解Spark的使用方法，包括如何在多種機器上安裝Spark，如何配置一個Spark集群，如何在交互模式下運行第一個Spark作業(yè)，如何在Spark集群上構建一個生產(chǎn)級的脫機/獨立作業(yè)，如何與Spark集群建立連接和使用SparkContext，如何創(chuàng)建和保存RDD（彈性分布式數(shù)據(jù)集），如何用Spark分布式處理數(shù)據(jù)，如何設置Shark，將Hive查詢集成到你的Spark作業(yè)中來，如何測試Spark作業(yè)，以及如何提升Spark任務的性能。

作者簡介

　　Holden Karau，資深軟件開發(fā)工程師，現(xiàn)就職于Databricks公司，之前曾就職于谷歌、亞馬遜、微軟和Foursquare等著名公司。他對開源情有獨鐘，參與了許多開源項目，如Linux內核無線驅動、Android程序監(jiān)控、搜索引擎等，對存儲系統(tǒng)、推薦系統(tǒng)、搜索分類等都有深入研究?！∽g者簡介余璜，阿里巴巴核心系統(tǒng)研發(fā)工程師，OceanBase核心開發(fā)人員，對分布式系統(tǒng)理論和工程實踐有深刻理解，專注于分布式系統(tǒng)設計、大規(guī)模數(shù)據(jù)處理，樂于分享，在CSDN上分享了大量技術文章。張磊，Spark愛好者，曾參與分布式OLAP數(shù)據(jù)庫系統(tǒng)核心開發(fā)，熱衷于大數(shù)據(jù)處理、分布式計算。

圖書目錄

譯者序
作者簡介
前言
第1章　安裝Spark以及構建Spark集群 / 1
1.1　單機運行Spark / 4
1.2　在EC2上運行Spark / 5
1.3　在ElasticMapReduce上部署Spark / 11
1.4　用Chef(opscode)部署Spark / 12
1.5　在Mesos上部署Spark / 14
1.6　在Yarn上部署Spark / 15
1.7　通過SSH部署集群 / 16
1.8　鏈接和參考 / 21
1.9　小結 / 21
第2章　Spark shell的使用 / 23
2.1　加載一個簡單的text文件 / 24
2.2　用Spark shell運行邏輯回歸 / 26
2.3　交互式地從S3加載數(shù)據(jù) / 28
2.4　小結 / 30
第3章　構建并運行Spark應用 / 31
3.1　用sbt構建Spark作業(yè) / 32
3.2　用Maven構建Spark作業(yè) / 36
3.3　用其他工具構建Spark作業(yè) / 39
3.4　小結 / 39
第4章　創(chuàng)建SparkContext / 41
4.1　Scala / 43
4.2　Java / 43
4.3　Java和Scala共享的API / 44
4.4　Python / 45
4.5　鏈接和參考 / 45
4.6　小結 / 46
第5章　加載與保存數(shù)據(jù) / 47
5.1　RDD / 48
5.2　加載數(shù)據(jù)到RDD中 / 49
5.3　保存數(shù)據(jù) / 54
5.4　連接和參考 / 55
5.5　小結 / 55
第6章　操作RDD / 57
6.1　用Scala和Java操作RDD / 58
6.2　用Python操作RDD / 79
6.3　鏈接和參考 / 83
6.4　小結 / 84
第7章　Shark-Hive和Spark的綜合運用 / 85
7.1　為什么用Hive/Shark / 86
7.2　安裝Shark / 86
7.3　運行Shark / 88
7.4　加載數(shù)據(jù) / 88
7.5　在Spark程序中運行HiveQL查詢 / 89
7.6　鏈接和參考 / 92
7.7　小結 / 93
第8章　測試 / 95
8.1　用Java和Scala測試 / 96
8.2　用Python測試 / 103
8.3　鏈接和參考 / 104
8.4　小結 / 105
第9章　技巧和竅門 / 107
9.1　日志位置 / 108
9.2　并發(fā)限制 / 108
9.3　內存使用與垃圾回收 / 109
9.4　序列化 / 110
9.5　IDE集成環(huán)境 / 111
9.6　Spark與其他語言 / 112
9.7　安全提示 / 113
9.8　郵件列表 / 113
9.9　鏈接和參考 / 113
9.10　小結 / 114