機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

定　價(jià)：￥69.00

作　者：	（美）Peter Harrington 譯者：李銳李鵬曲亞?wèn)\| 王斌
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

購(gòu)買這本書(shū)可以去

ISBN：	9787115317957	出版時(shí)間：	2013-06-10	包裝：	平裝
開(kāi)本：	16	頁(yè)數(shù)：	332	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　機(jī)器學(xué)習(xí)是人工智能研究領(lǐng)域中一個(gè)極其重要的研究方向，在現(xiàn)今的大數(shù)據(jù)時(shí)代背景下，捕獲數(shù)據(jù)并從中萃取有價(jià)值的信息或模式，成為各行業(yè)求生存、謀發(fā)展的決定性手段，這使得這一過(guò)去為分析師和數(shù)學(xué)家所專屬的研究領(lǐng)域越來(lái)越為人們所矚目?！稒C(jī)器學(xué)習(xí)實(shí)戰(zhàn)》第一部分主要介紹機(jī)器學(xué)習(xí)基礎(chǔ)，以及如何利用算法進(jìn)行分類，并逐步介紹了多種經(jīng)典的監(jiān)督學(xué)習(xí)算法，如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機(jī)、AdaBoost集成方法、基于樹(shù)的回歸算法和分類回歸樹(shù)（CART）算法等。第三部分則重點(diǎn)介紹無(wú)監(jiān)督學(xué)習(xí)及其一些主要算法：k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機(jī)器學(xué)習(xí)算法的一些附屬工具。《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》通過(guò)精心編排的實(shí)例，切入日常工作任務(wù)，摒棄學(xué)術(shù)化語(yǔ)言，利用高效的可復(fù)用Python代碼來(lái)闡釋如何處理統(tǒng)計(jì)數(shù)據(jù)，進(jìn)行數(shù)據(jù)分析及可視化。通過(guò)各種實(shí)例，讀者可從中學(xué)會(huì)機(jī)器學(xué)習(xí)的核心算法，并能將其運(yùn)用于一些策略性任務(wù)中，如分類、預(yù)測(cè)、推薦。另外，還可用它們來(lái)實(shí)現(xiàn)一些更高級(jí)的功能，如匯總和簡(jiǎn)化等。

作者簡(jiǎn)介

　　Peter Harrington，擁有電氣工程學(xué)士和碩士學(xué)位，他曾經(jīng)在美國(guó)加州和中國(guó)的英特爾公司工作7年。Peter擁有5項(xiàng)美國(guó)專利，在三種學(xué)術(shù)期刊上發(fā)表過(guò)文章。他現(xiàn)在是Zillabyte公司的首席科學(xué)家，在加入該公司之前，他曾擔(dān)任2年的機(jī)器學(xué)習(xí)軟件顧問(wèn)。Peter在業(yè)余時(shí)間還參加編程競(jìng)賽和建造3D打印機(jī)。

圖書(shū)目錄

第一部分　分類
第1章　機(jī)器學(xué)習(xí)基礎(chǔ)　　2
1.1 　何謂機(jī)器學(xué)習(xí)　　3
1.1.1 　傳感器和海量數(shù)據(jù)　　4
1.1.2 　機(jī)器學(xué)習(xí)非常重要　　5
1.2 　關(guān)鍵術(shù)語(yǔ)　　5
1.3 　機(jī)器學(xué)習(xí)的主要任務(wù)　　7
1.4 　如何選擇合適的算法　　8
1.5 　開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序的步驟　　9
1.6 　Python語(yǔ)言的優(yōu)勢(shì)　　10
1.6.1 　可執(zhí)行偽代碼　　10
1.6.2 　Python比較流行　　10
1.6.3 　Python語(yǔ)言的特色　　11
1.6.4 　Python語(yǔ)言的缺點(diǎn)　　11
1.7 　NumPy函數(shù)庫(kù)基礎(chǔ)　　12
1.8 　本章小結(jié)　　13
第2章　k-近鄰算法　　15
2.1 　k-近鄰算法概述　　15
2.1.1 　準(zhǔn)備：使用Python導(dǎo)入數(shù)據(jù)　　17
2.1.2 　從文本文件中解析數(shù)據(jù)　　19
2.1.3 　如何測(cè)試分類器　　20
2.2 　示例：使用k-近鄰算法改進(jìn)約會(huì)網(wǎng)站的配對(duì)效果　　20
2.2.1 　準(zhǔn)備數(shù)據(jù)：從文本文件中解析數(shù)據(jù)　　21
2.2.2 　分析數(shù)據(jù)：使用Matplotlib創(chuàng)建散點(diǎn)圖　　23
2.2.3 　準(zhǔn)備數(shù)據(jù)：歸一化數(shù)值　　25
2.2.4 　測(cè)試算法：作為完整程序驗(yàn)證分類器　　26
2.2.5 　使用算法：構(gòu)建完整可用系統(tǒng)　　27
2.3 　示例：手寫識(shí)別系統(tǒng)　　28
2.3.1 　準(zhǔn)備數(shù)據(jù)：將圖像轉(zhuǎn)換為測(cè)試向量　　29
2.3.2 　測(cè)試算法：使用k-近鄰算法識(shí)別手寫數(shù)字　　30
2.4 　本章小結(jié)　　31
第3章　決策樹(shù) 　　32
3.1 　決策樹(shù)的構(gòu)造　　33
3.1.1 　信息增益　　35
3.1.2 　劃分?jǐn)?shù)據(jù)集　　37
3.1.3 　遞歸構(gòu)建決策樹(shù)　　39
3.2 　在Python中使用Matplotlib注解繪制樹(shù)形圖　　42
3.2.1 　Matplotlib注解　　43
3.2.2 　構(gòu)造注解樹(shù)　　44
3.3 　測(cè)試和存儲(chǔ)分類器　　48
3.3.1 　測(cè)試算法：使用決策樹(shù)執(zhí)行分類　　49
3.3.2 　使用算法：決策樹(shù)的存儲(chǔ)　　50
3.4 　示例：使用決策樹(shù)預(yù)測(cè)隱形眼鏡類型　　50
3.5 　本章小結(jié)　　52
第4章　基于概率論的分類方法：樸素貝葉斯　　53
4.1 　基于貝葉斯決策理論的分類方法　　53
4.2 　條件概率　　55
4.3 　使用條件概率來(lái)分類　　56
4.4 　使用樸素貝葉斯進(jìn)行文檔分類　　57
4.5 　使用Python進(jìn)行文本分類　　58
4.5.1 　準(zhǔn)備數(shù)據(jù)：從文本中構(gòu)建詞向量　　58
4.5.2 　訓(xùn)練算法：從詞向量計(jì)算概率　　60
4.5.3 　測(cè)試算法：根據(jù)現(xiàn)實(shí)情況修改分類器　　62
4.5.4 　準(zhǔn)備數(shù)據(jù)：文檔詞袋模型　　64
4.6 　示例：使用樸素貝葉斯過(guò)濾垃圾郵件　　64
4.6.1 　準(zhǔn)備數(shù)據(jù)：切分文本　　65
4.6.2 　測(cè)試算法：使用樸素貝葉斯進(jìn)行交叉驗(yàn)證　　66
4.7 　示例：使用樸素貝葉斯分類器從個(gè)人廣告中獲取區(qū)域傾向　　68
4.7.1 　收集數(shù)據(jù)：導(dǎo)入RSS源　　68
4.7.2 　分析數(shù)據(jù)：顯示地域相關(guān)的用詞　　71
4.8 　本章小結(jié)　　72
第5章　Logistic回歸　　73
5.1 　基于Logistic回歸和Sigmoid函數(shù)的分類　　74
5.2 　基于最優(yōu)化方法的最佳回歸系數(shù)確定　　75
5.2.1 　梯度上升法　　75
5.2.2 　訓(xùn)練算法：使用梯度上升找到最佳參數(shù)　　77
5.2.3 　分析數(shù)據(jù)：畫出決策邊界　　79
5.2.4 　訓(xùn)練算法：隨機(jī)梯度上升　　80
5.3 　示例：從疝氣病癥預(yù)測(cè)病馬的死亡率　　85
5.3.1 　準(zhǔn)備數(shù)據(jù)：處理數(shù)據(jù)中的缺失值　　85
5.3.2 　測(cè)試算法：用Logistic回歸進(jìn)行分類　　86
5.4 　本章小結(jié)　　88
第6章　支持向量機(jī)　　89
6.1 　基于最大間隔分隔數(shù)據(jù)　　89
6.2 　尋找最大間隔　　91
6.2.1 　分類器求解的優(yōu)化問(wèn)題　　92
6.2.2 　SVM應(yīng)用的一般框架　　93
6.3 　SMO高效優(yōu)化算法　　94
6.3.1 　Platt的SMO算法　　94
6.3.2 　應(yīng)用簡(jiǎn)化版SMO算法處理小規(guī)模數(shù)據(jù)集　　94
6.4 　利用完整Platt SMO算法加速優(yōu)化　　99
6.5 　在復(fù)雜數(shù)據(jù)上應(yīng)用核函數(shù)　　105
6.5.1 　利用核函數(shù)將數(shù)據(jù)映射到高維空間　　106
6.5.2 　徑向基核函數(shù)　　106
6.5.3 　在測(cè)試中使用核函數(shù)　　108
6.6 　示例：手寫識(shí)別問(wèn)題回顧　　111
6.7 　本章小結(jié)　　113
第7章　利用AdaBoost元算法提高分類
性能　　115
7.1 　基于數(shù)據(jù)集多重抽樣的分類器　　115
7.1.1 　bagging：基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法　　116
7.1.2 　boosting　　116
7.2 　訓(xùn)練算法：基于錯(cuò)誤提升分類器的性能　　117
7.3 　基于單層決策樹(shù)構(gòu)建弱分類器　　118
7.4 　完整AdaBoost算法的實(shí)現(xiàn)　　122
7.5 　測(cè)試算法：基于AdaBoost的分類　　124
7.6 　示例：在一個(gè)難數(shù)據(jù)集上應(yīng)用AdaBoost　　125
7.7 　非均衡分類問(wèn)題　　127
7.7.1 　其他分類性能度量指標(biāo)：正確率、召回率及ROC曲線　　128
7.7.2 　基于代價(jià)函數(shù)的分類器決策控制　　131
7.7.3 　處理非均衡問(wèn)題的數(shù)據(jù)抽樣方法　　132
7.8 　本章小結(jié)　　132
第二部分　利用回歸預(yù)測(cè)數(shù)值型數(shù)據(jù)
第8章　預(yù)測(cè)數(shù)值型數(shù)據(jù)：回歸　　136
8.1 　用線性回歸找到最佳擬合直線　　136
8.2 　局部加權(quán)線性回歸　　141
8.3 　示例：預(yù)測(cè)鮑魚(yú)的年齡　　145
8.4 　縮減系數(shù)來(lái)“理解”數(shù)據(jù)　　146
8.4.1 　嶺回歸　　146
8.4.2 　lasso　　148
8.4.3 　前向逐步回歸　　149
8.5 　權(quán)衡偏差與方差　　152
8.6 　示例：預(yù)測(cè)樂(lè)高玩具套裝的價(jià)格　　153
8.6.1 　收集數(shù)據(jù)：使用Google購(gòu)物的API　　153
8.6.2 　訓(xùn)練算法：建立模型　　155
8.7 　本章小結(jié)　　158
第9章　樹(shù)回歸　　159
9.1 　復(fù)雜數(shù)據(jù)的局部性建?！　?59
9.2 　連續(xù)和離散型特征的樹(shù)的構(gòu)建　　160
9.3 　將CART算法用于回歸　　163
9.3.1 　構(gòu)建樹(shù)　　163
9.3.2 　運(yùn)行代碼　　165
9.4 　樹(shù)剪枝　　167
9.4.1 　預(yù)剪枝　　167
9.4.2 　后剪枝　　168
9.5 　模型樹(shù)　　170
9.6 　示例：樹(shù)回歸與標(biāo)準(zhǔn)回歸的比較　　173
9.7 　使用Python的Tkinter庫(kù)創(chuàng)建GUI　　176
9.7.1 　用Tkinter創(chuàng)建GUI　　177
9.7.2 　集成Matplotlib和Tkinter　　179
9.8 　本章小結(jié)　　182
第三部分　無(wú)監(jiān)督學(xué)習(xí)
第10章　利用K-均值聚類算法對(duì)未標(biāo)注數(shù)據(jù)分組　　184
10.1 　K-均值聚類算法　　185
10.2 　使用后處理來(lái)提高聚類性能　　189
10.3 　二分K-均值算法　　190
10.4 　示例：對(duì)地圖上的點(diǎn)進(jìn)行聚類　　193
10.4.1 　Yahoo! PlaceFinder API　　194
10.4.2 　對(duì)地理坐標(biāo)進(jìn)行聚類　　196
10.5 　本章小結(jié)　　198
第11章　使用Apriori算法進(jìn)行關(guān)聯(lián)分析　　200
11.1 　關(guān)聯(lián)分析　　201
11.2 　Apriori原理　　202
11.3 　使用Apriori算法來(lái)發(fā)現(xiàn)頻繁集　　204
11.3.1 　生成候選項(xiàng)集　　204
11.3.2 　組織完整的Apriori算法　　207
11.4 　從頻繁項(xiàng)集中挖掘關(guān)聯(lián)規(guī)則　　209
11.5 　示例：發(fā)現(xiàn)國(guó)會(huì)投票中的模式　　212
11.5.1 　收集數(shù)據(jù)：構(gòu)建美國(guó)國(guó)會(huì)投票記錄的事務(wù)數(shù)據(jù)集　　213
11.5.2 　測(cè)試算法：基于美國(guó)國(guó)會(huì)投票記錄挖掘關(guān)聯(lián)規(guī)則　　219
11.6 　示例：發(fā)現(xiàn)毒蘑菇的相似特征　　220
11.7 　本章小結(jié)　　221
第12章　使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集　　223
12.1 　FP樹(shù)：用于編碼數(shù)據(jù)集的有效方式　　224
12.2 　構(gòu)建FP樹(shù)　　225
12.2.1 　創(chuàng)建FP樹(shù)的數(shù)據(jù)結(jié)構(gòu)　　226
12.2.2 　構(gòu)建FP樹(shù)　　227
12.3 　從一棵FP樹(shù)中挖掘頻繁項(xiàng)集　　231
12.3.1 　抽取條件模式基　　231
12.3.2 　創(chuàng)建條件FP樹(shù)　　232
12.4 　示例：在Twitter源中發(fā)現(xiàn)一些共現(xiàn)詞　　235
12.5 　示例：從新聞網(wǎng)站點(diǎn)擊流中挖掘　　238
12.6 　本章小結(jié)　　239
第四部分　其他工具
第13章　利用PCA來(lái)簡(jiǎn)化數(shù)據(jù)　　242
13.1 　降維技術(shù)　　242
13.2 　PCA　　243
13.2.1 　移動(dòng)坐標(biāo)軸　　243
13.2.2 　在NumPy中實(shí)現(xiàn)PCA　　246
13.3 　示例：利用PCA對(duì)半導(dǎo)體制造數(shù)據(jù)降維　　248
13.4 　本章小結(jié)　　251
第14章　利用SVD簡(jiǎn)化數(shù)據(jù)　　252
14.1 　SVD的應(yīng)用　　252
14.1.1 　隱性語(yǔ)義索引　　253
14.1.2 　推薦系統(tǒng)　　253
14.2 　矩陣分解　　254
14.3 　利用Python實(shí)現(xiàn)SVD　　255
14.4 　基于協(xié)同過(guò)濾的推薦引擎　　257
14.4.1 　相似度計(jì)算　　257
14.4.2 　基于物品的相似度還是基于用戶的相似度？　　260
14.4.3 　推薦引擎的評(píng)價(jià)　　260
14.5 　示例：餐館菜肴推薦引擎　　260
14.5.1 　推薦未嘗過(guò)的菜肴　　261
14.5.2 　利用SVD提高推薦的效果　　263
14.5.3 　構(gòu)建推薦引擎面臨的挑戰(zhàn)　　265
14.6 　基于SVD的圖像壓縮　　266
14.7 　本章小結(jié)　　268
第15章　大數(shù)據(jù)與MapReduce　　270
15.1 　MapReduce：分布式計(jì)算的框架　　271
15.2 　Hadoop流　　273
15.2.1 　分布式計(jì)算均值和方差的mapper　　273
15.2.2 　分布式計(jì)算均值和方差的reducer　　274
15.3 　在Amazon網(wǎng)絡(luò)服務(wù)上運(yùn)行Hadoop程序　　275
15.3.1 　AWS上的可用服務(wù)　　276
15.3.2 　開(kāi)啟Amazon網(wǎng)絡(luò)服務(wù)之旅　　276
15.3.3 　在EMR上運(yùn)行Hadoop作業(yè)　　278
15.4 　MapReduce上的機(jī)器學(xué)習(xí)　　282
15.5 　在Python中使用mrjob來(lái)自動(dòng)化MapReduce　　283
15.5.1 　mrjob與EMR的無(wú)縫集成　　283
15.5.2 　mrjob的一個(gè)MapReduce腳本剖析　　284
15.6 　示例：分布式SVM的Pegasos算法　　286
15.6.1 　Pegasos算法　　287
15.6.2 　訓(xùn)練算法：用mrjob實(shí)現(xiàn)MapReduce版本的SVM　　288
15.7 　你真的需要MapReduce嗎？　　292
15.8 　本章小結(jié)　　292
附錄A 　Python入門　　294
附錄B 　線性代數(shù)　　303
附錄C 　概率論復(fù)習(xí)　　309
附錄D 　資源　　312
索引　　313
版權(quán)聲明　　316