全書共由7章組成,其中:第1章主要介紹數據挖掘技術、離群挖掘、集群系統(tǒng)與Spark并行計算模型及大數據的相關概念、理論基礎和應用。第2章利用特征分組,針對高維分類數據集,研究了一種基于加權特征分組的離群檢測新方法,通過將特征分為多個特征組來發(fā)現(xiàn)每個組中特征模式的不同方面。第3章利用Spark計算平臺,研究了高維分類數據的并行離群檢測算法。第4章通過分析屬性間的相關性,研究了一種基于互信息的混合屬性離群檢測算法。該算法在互信息機制下給出了針對數值型和分類型統(tǒng)一的屬性加權方法和離群得分計算方法,而且不同類型屬性下的相似性度量也進行了規(guī)范化處理。第5章針對互信息計算的復雜性問題,充分利用Spark并行計算框架的強大計算能力,研究了一種并行互信息計算方法,該算法利用列變換和虛擬數據劃分技術降低了網絡傳輸和計算代價。第6章以某鋼鐵企業(yè)實際的冷軋輥產品加工數據為背景,設計與實現(xiàn)了冷軋輥制造過程離群檢測原型系統(tǒng),從而為企業(yè)開展產品質量控制提供了一種新的技術方法和解決思路。第7章是研究的總結與展望。