本書圍繞大數據采集,對采集技術的相關基礎、技術原理、 Py t hon實現技術、大數據挖掘與應用方法 進行了系統(tǒng)介紹。書中全面、完整地覆蓋了各種類型的網絡爬蟲及相關的信息處理挖掘技術,并提 供了27個與爬蟲技術和應用相關的Py t hon程序。全書共分為四大部分,即概述、基礎篇、技術與實現篇 、大數據挖掘與應用篇。第一部分是概述,首先指出了利用Py t hon采集互聯(lián)網大數據的重要性,介紹了 相關技術研究、技術體系、 Py t hon爬蟲采集技術的合規(guī)性及應用現狀等; 第二部分是基礎篇,包括 Web服務器的應用架構以及HTTP、 Robo t s、 HTML、頁面編碼等相關協(xié)議和規(guī)范; 第三部分是技術與 實現篇,全面介紹了普通網絡爬蟲技術、動態(tài)頁面采集方法、主題爬蟲技術、 De ep Web爬蟲、微博信息采集 、Web信息提取以及反爬蟲技術等,內容涵蓋了各種爬蟲技術實現方法及Py t hon例子; 第四部分是 大數據挖掘與應用篇,介紹了用于爬蟲應用中的典型大數據處理與挖掘技術以及 Web大數據采集的常 見應用模式,并以新聞采集與分析、 SQL注入在線檢測為例介紹了Py t hon爬蟲應用構建方法,將本書介 紹的一些關鍵技術、模型和工具貫穿在一起。