本書根據現(xiàn)有的大數據技術理論,綜合介紹了大數據技術的相關基礎理論知識,并提供了部分實踐操作介紹。本書共8個章節(jié),內容包含大數據的概念和特征,大數據計量,大數據生命周期,大數據與云計算,Hadoop,HDFS,MapReduce,大數據編程語言Python、Spark、R語言,數據預處理,聚類分析,k-鄰近分類算法,數據可視化,大數據應用,大數據安全與威脅,爬蟲技術,MINIST數字識別技術。本書分別在大數據采集與預處理、數據挖掘與分析等重要章節(jié)中安排了入門級的實踐操作內容,以便讀者 好地學習和掌握大數據關鍵技術。本書可以作為高等院校數據科學與大數據等相關專業(yè)的課程教材,亦可作為大數據愛好者的科普讀物。