注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術自動化技術、計算技術Spark快速數據處理

Spark快速數據處理

Spark快速數據處理

定 價:¥29.00

作 者: (美)Holden Karau 著,余璜,張磊 譯
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 程序設計 計算機/網絡

購買這本書可以去


ISBN: 9787111463115 出版時間: 2014-04-01 包裝: 平裝
開本: 16開 頁數: 66 字數:  

內容簡介

  Spark是一個開源的通用并行分布式計算框架,由加州大學伯克利分校的AMP實驗室開發(fā),支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種范式。Spark內存計算框架適合各種迭代算法和交互式數據分析,能夠提升大數據處理的實時性和準確性,現(xiàn)已逐漸獲得很多企業(yè)的支持,如阿里巴巴、百度、網易、英特爾等公司。《Spark快速數據處理》系統(tǒng)講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置一個Spark集群,如何在交互模式下運行第一個Spark作業(yè),如何在Spark集群上構建一個生產級的脫機/獨立作業(yè),如何與Spark集群建立連接和使用SparkContext,如何創(chuàng)建和保存RDD(彈性分布式數據集),如何用Spark分布式處理數據,如何設置Shark,將Hive查詢集成到你的Spark作業(yè)中來,如何測試Spark作業(yè),以及如何提升Spark任務的性能。

作者簡介

  Holden Karau,資深軟件開發(fā)工程師,現(xiàn)就職于Databricks公司,之前曾就職于谷歌、亞馬遜、微軟和Foursquare等著名公司。他對開源情有獨鐘,參與了許多開源項目,如Linux內核無線驅動、Android程序監(jiān)控、搜索引擎等,對存儲系統(tǒng)、推薦系統(tǒng)、搜索分類等都有深入研究?!∽g者簡介余璜,阿里巴巴核心系統(tǒng)研發(fā)工程師,OceanBase核心開發(fā)人員,對分布式系統(tǒng)理論和工程實踐有深刻理解,專注于分布式系統(tǒng)設計、大規(guī)模數據處理,樂于分享,在CSDN上分享了大量技術文章。張磊,Spark愛好者,曾參與分布式OLAP數據庫系統(tǒng)核心開發(fā),熱衷于大數據處理、分布式計算。

圖書目錄

譯者序
作者簡介
前言
第1章 安裝Spark以及構建Spark集群 / 1
1.1 單機運行Spark / 4
1.2 在EC2上運行Spark / 5
1.3 在ElasticMapReduce上部署Spark / 11
1.4 用Chef(opscode)部署Spark / 12
1.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通過SSH部署集群 / 16
1.8 鏈接和參考 / 21
1.9 小結 / 21
第2章 Spark shell的使用 / 23
2.1 加載一個簡單的text文件 / 24
2.2 用Spark shell運行邏輯回歸 / 26
2.3 交互式地從S3加載數據 / 28
2.4 小結 / 30
第3章 構建并運行Spark應用 / 31
3.1 用sbt構建Spark作業(yè) / 32
3.2 用Maven構建Spark作業(yè) / 36
3.3 用其他工具構建Spark作業(yè) / 39
3.4 小結 / 39
第4章 創(chuàng)建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 鏈接和參考 / 45
4.6 小結 / 46
第5章 加載與保存數據 / 47
5.1 RDD / 48
5.2 加載數據到RDD中 / 49
5.3 保存數據 / 54
5.4 連接和參考 / 55
5.5 小結 / 55
第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 鏈接和參考 / 83
6.4 小結 / 84
第7章 Shark-Hive和Spark的綜合運用 / 85
7.1 為什么用Hive/Shark / 86
7.2 安裝Shark / 86
7.3 運行Shark / 88
7.4 加載數據 / 88
7.5 在Spark程序中運行HiveQL查詢 / 89
7.6 鏈接和參考 / 92
7.7 小結 / 93
第8章 測試 / 95
8.1 用Java和Scala測試 / 96
8.2 用Python測試 / 103
8.3 鏈接和參考 / 104
8.4 小結 / 105
第9章 技巧和竅門 / 107
9.1 日志位置 / 108
9.2 并發(fā)限制 / 108
9.3 內存使用與垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成環(huán)境 / 111
9.6 Spark與其他語言 / 112
9.7 安全提示 / 113
9.8 郵件列表 / 113
9.9 鏈接和參考 / 113
9.10 小結 / 114

本目錄推薦

掃描二維碼
Copyright ? 讀書網 leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號