目錄
第1 章 為什么需要清洗數(shù)據(jù) 1
1.1 新視角 1
1.2 數(shù)據(jù)科學過程 2
1.3 傳達數(shù)據(jù)清洗工作的內容 3
1.4 數(shù)據(jù)清洗環(huán)境 4
1.5 入門示例 5
1.6 小結 9
第2 章 基礎知識——格式、 類型與編碼 11
2.1 文件格式 11
2.1.1 文本文件與二進制文件 11
2.1.2 常見的文本文件格式 14
2.1.3 分隔格式 14
2.2 歸檔與壓縮 20
2.2.1 歸檔文件 20
2.2.2 壓縮文件 21
2.3 數(shù)據(jù)類型、空值與編碼 24
2.3.1 數(shù)據(jù)類型 25
2.3.2 數(shù)據(jù)類型間的相互轉換 29
2.3.3 轉換策略 30
2.3.4 隱藏在數(shù)據(jù)森林中的空值 37
2.3.5 字符編碼 41
2.4 小結 46
第3 章 數(shù)據(jù)清洗的老黃?!娮颖砀窈臀谋揪庉嬈鳌?7
3.1 電子表格中的數(shù)據(jù)清洗 47
3.1.1 Excel 的文本分列功能 47
3.1.2 字符串拆分 51
3.1.3 字符串拼接 51
3.2 文本編輯器里的數(shù)據(jù)清洗 54
3.2.1 文本調整 55
3.2.2 列選模式 56
3.2.3 加強版的查找與替換功能 56
3.2.4 文本排序與去重處理 58
3.2.5 Process Lines Containing 60
3.3 示例項目 60
3.3.1 第一步:問題陳述 60
3.3.2 第二步:數(shù)據(jù)收集 60
3.3.3 第三步:數(shù)據(jù)清洗 61
3.3.4 第四步:數(shù)據(jù)分析 63
3.4 小結 63
第4 章 講通用語言——數(shù)據(jù)轉換 64
4.1 基于工具的快速轉換 64
4.1.1 從電子表格到CSV 65
4.1.2 從電子表格到JSON 65
4.1.3 使用phpMyAdmin 從SQL語句中生成CSV 或JSON 67
4.2 使用PHP 實現(xiàn)數(shù)據(jù)轉換 69
4.2.1 使用PHP 實現(xiàn)SQL 到JSON的數(shù)據(jù)轉換 69
4.2.2 使用PHP 實現(xiàn)SQL 到CSV的數(shù)據(jù)轉換 70
4.2.3 使用PHP 實現(xiàn)JSON 到CSV的數(shù)據(jù)轉換 71
4.2.4 使用PHP 實現(xiàn)CSV 到JSON的數(shù)據(jù)轉換 71
4.3 使用Python 實現(xiàn)數(shù)據(jù)轉換 72
4.3.1 使用