注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術自動化技術、計算技術基于R語言的數(shù)據(jù)清洗技術

基于R語言的數(shù)據(jù)清洗技術

基于R語言的數(shù)據(jù)清洗技術

定 價:¥59.00

作 者: 白世貞,魏勝,薛寧 著
出版社: 經(jīng)濟管理出版社
叢編項:
標 簽: 暫缺

ISBN: 9787509683149 出版時間: 2022-03-01 包裝:
開本: 頁數(shù): 字數(shù):  

內容簡介

  數(shù)據(jù)分析指的是將數(shù)據(jù)轉化為價值的一個完整過程,而分析數(shù)據(jù)只是其中的一個環(huán)節(jié)而已,第一步工作應該是梳理業(yè)務目標。人們在進行數(shù)據(jù)分析的時候,業(yè)務目標與分析數(shù)據(jù)之間還有一個環(huán)節(jié)的工作——數(shù)據(jù)清洗。當你辛辛苦苦梳理完業(yè)務目標,結果還沒有對數(shù)據(jù)進行必要的清洗工作就去分析,那么分析的結果很有可能是完全錯誤的。而《基于R語言的數(shù)據(jù)清洗技術》的目標就是帶領讀者去識別數(shù)據(jù)中可能存在的問題,并借助R語言這個工具將問題數(shù)據(jù)清洗干凈,這樣才會使得后續(xù)的分析結果更加真實可信。

作者簡介

  白世貞,1962年生,山東菏澤人,系統(tǒng)工程博士,常年從事工商管理、物流與供應鏈管理的研究與教學。主持國家自然科學基金、國家科技支撐計劃重點專項子課題等***項目5項;在SSGI期刊收錄、《中國管理科學》等國內A刊發(fā)表論文30余篇;出版《供應鏈復雜系統(tǒng)建模與仿真》等專著5部;主編出版***規(guī)劃教材4部。魏勝,吉林大學企業(yè)管理專業(yè)博士,哈爾濱商業(yè)大學管理學院副教授,在《數(shù)理統(tǒng)計與管理》《經(jīng)濟管理》等期刊發(fā)表論文7篇。薛寧,河南南陽人,哈爾濱商業(yè)大學管理學院2018級博士生。研究方向:物流與供應鏈管理。參與多項國家社科基金項目。

圖書目錄

1 認識本書的數(shù)據(jù)集
1.1 引言
1.2 涉及數(shù)據(jù)清洗的基本函數(shù)
1.2.1 進行缺失值判斷-is.na函數(shù)
1.2.2 進行頻次統(tǒng)計-table函數(shù)
1.2.3 進行數(shù)據(jù)定位-which函數(shù)
1.2.4 進行數(shù)據(jù)概覽-summar函數(shù)
1.2.5 輸出選定部分-head函數(shù)
1.3 讀入數(shù)據(jù)
1.4 數(shù)據(jù)的結構與基本信息
1.4.1 該數(shù)據(jù)集的結構
1.4.2 該數(shù)據(jù)集的基本信息
1.5 業(yè)務目標與數(shù)據(jù)清洗工作
2 識別與清洗數(shù)值型數(shù)據(jù)中的異常值
2.1 引言
2.2 梳理業(yè)務目標
2.3 快速清洗異常數(shù)據(jù)
2.3.1 快速識別與刪除缺失值
2.3.2 快速識別離群值
2.4 清洗離群值
2.4.1 利用經(jīng)驗清洗離群值
2.4.2 利用均值與標準差檢測離群值
2.4.3 截去部分離群值
2.4.4 利用四分位差檢測離群值
2.5 其他數(shù)值數(shù)據(jù)清洗技術
2.5.1 最大值與最小值
2.5.2 排序
2.5.3 數(shù)值變量的分位數(shù)
2.5.4 自定義函數(shù):數(shù)據(jù)截斷
2.6 小結
……
3 利用正則表達式檢測字符型數(shù)據(jù)
4 處理時間與日期類型的數(shù)據(jù)
5 重復數(shù)據(jù)及其異常值
6 多數(shù)據(jù)集處理
7 用戶分析與數(shù)據(jù)清洗工作
8 清洗字符型數(shù)據(jù)
參考文獻
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號