注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫機器學習大數(shù)據(jù)平臺的構建、任務實現(xiàn)與數(shù)據(jù)治理:使用Azure、DevOps、MLOps

機器學習大數(shù)據(jù)平臺的構建、任務實現(xiàn)與數(shù)據(jù)治理:使用Azure、DevOps、MLOps

機器學習大數(shù)據(jù)平臺的構建、任務實現(xiàn)與數(shù)據(jù)治理:使用Azure、DevOps、MLOps

定 價:¥98.00

作 者: [美] 弗拉德·里斯庫蒂亞(Vlad Riscutia)著 葉偉民、劉華、余靈 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302657637 出版時間: 2024-04-01 包裝: 平裝-鎖線膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  主要內(nèi)容● 數(shù)據(jù)字典和數(shù)據(jù)治理● 數(shù)據(jù)質量管控、合規(guī)和分發(fā)● 構建自動化管道以提高可靠性● 數(shù)據(jù)攝取、存儲和分發(fā)● 支持生產(chǎn)環(huán)境中的數(shù)據(jù)建模、分析和機器學習

作者簡介

  Vlad Riscutia是微軟的軟件架構師。

圖書目錄

第1 章 簡介                 1
1.1 什么是數(shù)據(jù)工程        2
1.2 本書讀者對象         3
1.3 什么是數(shù)據(jù)平臺        3
1.3.1 數(shù)據(jù)平臺的構成      4
1.3.2 基礎設施即代碼,無代碼基礎設施          6
1.4 使用云構建           7
1.4.1 IaaS、PaaS 和SaaS    7
1.4.2 網(wǎng)絡、存儲和計算    7
1.4.3 如何使用Azure       8
1.4.4 與Azure 交互        8
1.5 實現(xiàn)Azure 數(shù)據(jù)平臺    11
1.6 本章小結            13
第Ⅰ部分 基礎設施
第2 章 存儲                17
2.1 在數(shù)據(jù)平臺中存儲數(shù)據(jù)   18
2.1.1 跨多個數(shù)據(jù)織物存儲數(shù)據(jù)            19
2.1.2 SSOT            20
2.2 Azure Data Explorer簡介              22
2.2.1 部署Azure Data Explorer集群            23
2.2.2 使用Azure Data Explorer           26
2.2.3 解決查詢限制問題   29
2.3 Azure Data Lake Storage簡介              30
2.3.1 創(chuàng)建Azure Data Lake Storage 賬戶       30
2.3.2 使用Azure Data Lake Storage           31
2.3.3 集成Azure Data Explorer           32
2.4 數(shù)據(jù)攝取            34
2.4.1 數(shù)據(jù)攝取頻率      34
2.4.2 加載類型         36
2.4.3 數(shù)據(jù)重建和重新加載  38
2.5 本章小結            41
第3 章 DevOps             43
3.1 什么是DevOps         44
3.2 Azure DevOps 簡介     47
3.3 部署基礎設施         50
3.3.1 導出Azure Resource Manager 模板      51
3.3.2 創(chuàng)建Azure DevOps 服務連接            54
3.3.3 部署Azure Resource Manager 模板      56
3.3.4 理解Azure Pipelines  60
3.4 部署Azure Data Explorer對象和分析          61
3.4.1 使用Azure DevOps 市場擴展            63
3.4.2 將所有內(nèi)容都存儲在Git并自動部署所有內(nèi)容 67
3.5 本章小結            68
第4 章 編排                69
4.1 導入Bing COVID-19 開放數(shù)據(jù)集             70
4.2 Azure Data Factory 簡介   72
4.2.1 設置數(shù)據(jù)源        73
4.2.2 設置數(shù)據(jù)接收器    75
4.2.3 設置管道         79
4.2.4 設置觸發(fā)器        82
4.2.5 使用Azure Data Factory進行編排         84
4.3 Azure Data Factory 的DevOps             84
4.3.1 從Git 部署Azure Data Factory           87
4.3.2 設置訪問控制      88
4.3.3 部署生產(chǎn)環(huán)境的Azure Data Factory        90
4.3.4 小結            92
4.4 使用Azure Monitor 進行監(jiān)控              93
4.5 本章小結            95
第Ⅱ部分 具體的工作任務
第5 章 數(shù)據(jù)處理            99
5.1 數(shù)據(jù)建模技術        100
5.1.1 規(guī)范化和反規(guī)范化  100
5.1.2 數(shù)據(jù)倉庫        103
5.1.3 半結構化數(shù)據(jù)     104
5.1.4 小結           107
5.2 身份鑰匙環(huán)         108
5.2.1 構建身份鑰匙環(huán)    109
5.2.2 理解鑰匙環(huán)       111
5.3 時間線            113
5.3.1 構建時間線視圖    113
5.3.2 使用時間線       115
5.4 應用DevOps 以保證數(shù)據(jù)處理能夠按計劃可靠地運行             116
5.4.1 使用Git 追蹤和處理函數(shù)           116
5.4.2 使用Azure Data Factory構建鑰匙環(huán)       117
5.4.3 擴展規(guī)模        123
5.5 本章小結           127
第6 章 數(shù)據(jù)分析           129
6.1 開發(fā)環(huán)境和生產(chǎn)環(huán)境分離下如何訪問數(shù)據(jù)      130
6.1.1 對生產(chǎn)數(shù)據(jù)處理后再部分復制到開發(fā)環(huán)境           132
6.1.2 將生產(chǎn)數(shù)據(jù)完全復制到開發(fā)環(huán)境       133
6.1.3 在開發(fā)環(huán)境中提供生產(chǎn)數(shù)據(jù)的只讀視圖   133
6.1.4 小結           135
6.2 設計數(shù)據(jù)分析的工作流程             136
6.2.1 原型           138
6.2.2 開發(fā)和用戶驗收測試           139
6.2.3 生產(chǎn)環(huán)境        141
6.2.4 小結           143
6.3 讓數(shù)據(jù)科學家能夠自助移動數(shù)據(jù)          144
6.3.1 基本原則和相關背景           145
6.3.2 數(shù)據(jù)合約        145
6.3.3 管道驗證        146
6.3.4 事后分析        150
6.3.5 小結           151
6.4 本章小結           151
第7 章 機器學習           153
7.1 訓練一個機器學習模型             154
7.1.1 使用scikit-learn訓練模型           155
7.1.2 高消費者模型實現(xiàn)  156
7.2 引入Azure Machine Learning           158
7.2.1 創(chuàng)建工作區(qū)       158
7.2.2 創(chuàng)建Azure Machine Learning 計算目標  159
7.2.3 設置Azure Machine Learning 存儲     160
7.2.4 在云中運行機器學習          162
7.2.5 小結           167
7.3 MLOps             167
7.3.1 從Git 部署       168
7.3.2 存儲管道ID      171
7.3.3 小結           172
7.4 機器學習的編排      172
7.4.1 連接Azure Data Factory與Azure Machine Learning         173
7.4.2 機器學習編排     175
7.4.3 小結           178
7.5 本章小結           179
第Ⅲ部分 數(shù)據(jù)治理
第8 章 元數(shù)據(jù)             183
8.1 理解大數(shù)據(jù)平臺中元數(shù)據(jù)的需求         184
8.2 介紹Azure Purview    186
8.3 維護數(shù)據(jù)字典        190
8.3.1 設置掃描        190
8.3.2 瀏覽數(shù)據(jù)字典     194
8.3.3 小結           195
8.4 管理數(shù)據(jù)術語表      196
8.4.1 添加新的術語     196
8.4.2 審查術語        198
8.4.3 自定義模板和批量
導入           198
8.4.4 小結           200
8.5 了解Azure Purview 的高級功能             200
8.5.1 追蹤數(shù)據(jù)血緣     200
8.5.2 分類規(guī)則        201
8.5.3 REST API        203
8.5.4 小結           204
8.6 本章小結           204
第9 章 數(shù)據(jù)質量           207
9.1 數(shù)據(jù)測試概述        207
9.1.1 可用性測試       208
9.1.2 正確性測試       209
9.1.3 完整性測試       210
9.1.4 異常檢測測試     212
9.1.5 小結           214
9.2 使用Azure Data Factory進行數(shù)據(jù)質量檢查    214
9.2.1 使用Azure Data Factory進行測試        215
9.2.2 執(zhí)行測試        218
9.2.3 創(chuàng)建和使用模板   219
9.2.4 小結           221
9.3 擴展數(shù)據(jù)測試        221
9.3.1 支持多個數(shù)據(jù)平臺  221
9.3.2 按計劃運行測試和觸發(fā)運行測試        223
9.3.3 編寫測試        224
9.3.4 存儲測試定義和結果           228
9.4 本章小結           231
第10 章 合規(guī)              233
10.1 數(shù)據(jù)分類          234
10.1.1 特征數(shù)據(jù)      234
10.1.2 遙測數(shù)據(jù)      235
10.1.3 用戶數(shù)據(jù)      235
10.1.4 用戶擁有的數(shù)據(jù)  236
10.1.5 業(yè)務數(shù)據(jù)      236
10.1.6 小結         236
10.2 將敏感數(shù)據(jù)變得不那么敏感             237
10.2.1 聚合         238
10.2.2 匿名化        239
10.2.3 偽匿名化      242
10.2.4 數(shù)據(jù)掩碼      246
10.2.5 小結         246
10.3 訪問控制模型       247
10.3.1 安全組        248
10.3.2 保護Azure Data Explorer        250
10.3.3 小結         255
10.4 GDPR 和其他考慮因素             256
10.4.1 數(shù)據(jù)處理      256
10.4.2 數(shù)據(jù)主體請求   256
10.4.3 其他考慮因素   259
10.5 本章小結          259
第11 章 數(shù)據(jù)分發(fā)          261
11.1 數(shù)據(jù)分發(fā)概述       262
11.2 構建數(shù)據(jù)API       264
11.2.1 Azure Cosmos DB簡介         266
11.2.2 填充Cosmos DB集合         269
11.2.3 檢索數(shù)據(jù)      271
11.2.4 小結         274
11.3 機器學習模型如何對外提供服務          274
11.4 共享數(shù)據(jù)進行批量復制             274
11.4.1 分離計算資源   275
11.4.2 Azure Data Share簡介         277
11.4.3 小結         282
11.5 數(shù)據(jù)共享的最佳實踐  282
11.6 本章小結          284
附錄A Azure 服務          285
附錄B KQL 快速參考        287
附錄C 運行代碼示例        289

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號