1大數(shù)據(jù)采集處理方法1
1.1爬蟲程序設計方案1
1.2爬蟲程序實現(xiàn)方法5
1.3數(shù)據(jù)清洗20
2大數(shù)據(jù)存儲方法27
2.1分布式文件系統(tǒng)存儲大數(shù)據(jù)27
2.1.1HDFS體系結構27
2.1.2HDFS數(shù)據(jù)存儲方式28
2.1.3HDFS讀寫方式28
2.2分布式數(shù)據(jù)庫存儲大數(shù)據(jù)32
2.2.1Hbase體系結構32
2.2.2配置Hbase33
2.2.3Hbase表操作38
2.2.4訪問Hbase數(shù)據(jù)資源44
3大數(shù)據(jù)計算方法50
3.1分布式計算平臺構建方法50
3.2分布式計算框架構建方法60
3.3分布式計算程序設計方法63
4大數(shù)據(jù)分析模型構建方法78
4.1準備訓練數(shù)據(jù)78
4.2機器學習路徑和算法設計方法82
4.3數(shù)據(jù)可視化輔助建模方法88
4.4構建大數(shù)據(jù)分析模型91
5大數(shù)據(jù)分析模型檢驗方法108
5.1回歸診斷108
5.2交叉驗證113
6大數(shù)據(jù)分析模型優(yōu)化方法117
6.1Feature Scaling優(yōu)化法117
6.2逐步回歸優(yōu)化法118
6.3PCA主成分分析優(yōu)化方法120
6.4神經網絡優(yōu)化大數(shù)據(jù)分析模型127
參考文獻151