《Python數據分析與大數據處理從入門到精通》主要講解數據分析與大數據處理所需的技術、基礎設施、核心概念、實施流程。從編程語言準備、數據采集與清洗、數據分析與可視化,到大型數據的分布式存儲與分布式計算,貫穿了整個大數據項目開發(fā)流程。本書輕理論、重實踐,目的是讓讀者快速上手。1篇首先介紹了Python的基本語法、面向對象開發(fā)、模塊化設計等,掌握Python的編程方式。然后介紹了多線程、多進程及其相互間的通信,讓讀者對分布式程序有個基本的認識。第2篇介紹了網絡數據采集、數據清洗、數據存儲等技術。第3篇介紹了Python常用的數據分析工具,擴展了更多的數據清洗、插值方法,為最終的數據可視化奠定基礎。第4篇是大數據分析的重點。首先介紹了Hadoop的框架原理、調度原理,MapReduce原理與編程模型、環(huán)境搭建,接著介紹了Spark框架原理、環(huán)境搭建方式,以及如何與Hive等第三方工具進行交互,還介紹了新的結構化流式處理技術。第5篇通過三個項目實例,綜合介紹了如何分析網頁、如何搭建分布式爬蟲、如何應對常見的反爬蟲、如何設計數據模型、如何設計架構模型、如何在實踐中綜合運用前四篇涉及的技術。本書既適合非計算機專業(yè)的編程“小白”,也適合剛畢業(yè)或即將畢業(yè)走向工作崗位的廣大畢業(yè)生,以及已經有編程經驗,但想轉行做大數據分析的專業(yè)人士。同時,還可以作為廣大職業(yè)院校、電腦培訓班的教學參考用書。