1 機器學習 1
1.1 機器學習和人工智能 2
1.2 機器學習和大數(shù)據(jù) 4
1.3 機器學習和數(shù)據(jù)挖掘 6
1.4 機器學習分類和應用 7
1.5 機器學習開發(fā)步驟 10
1.5.1 數(shù)據(jù)挖掘標準流程 10
1.5.2 機器學習開發(fā)步驟 15
本章小結 18
2 Scikit-learn預備知識 20
2.1 NumPy 21
2.1.1 NumPy數(shù)組概念 23
2.1.2 NumPy數(shù)據(jù)類型 24
2.1.3 NumPy數(shù)組創(chuàng)建 26
2.1.4 NumPy數(shù)組操作 37
2.1.5 NumPy隨機數(shù) 51
2.1.6 NumPy輸入輸出 57
2.1.7 NumPy矩陣 58
2.1.8 NumPy線性代數(shù) 59
2.1.9 NumPy常數(shù) 63
2.2 Pandas 63
2.2.1 Pandas數(shù)據(jù)結構 64
2.2.2 Pandas頂層函數(shù) 114
2.2.3 Pandas應用舉例 115
2.3 SciPy庫 122
2.3.1 SciPy庫基礎知識 123
2.3.2 稀疏矩陣及其處理 124
2.3.3 SciPy庫應用舉例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基礎知識 145
2.4.2 Matplotlib應用舉例 149
本章小結 161
3 Scikit-learn基礎應用 163
3.1 機器學習的算法和模型 164
3.1.1 特征變量和目標變量 165
3.1.2 算法訓練 166
3.1.3 過擬合和欠擬合 174
3.1.4 模型性能度量 175
3.2 模型選擇 180
3.3 Scikit-learn的功能模塊 180
3.4 Scikit-learn 應用 182
3.4.1 安裝Scikit-learn 182
3.4.2 數(shù)據(jù)導入 183
3.4.3 模型持久化 185
3.4.4 文本數(shù)據(jù)處理 186
3.4.5 隨機狀態(tài)控制 187
3.4.6 分類型變量處理 187
3.4.7 Pandas數(shù)據(jù)框處理 188
3.4.8 輸入輸出約定 188
3.5 應用實例 191
本章小結 193
4 Scikit-learn數(shù)據(jù)變換 195
4.1 概念介紹 196
4.1.1 評估器(estimator) 196
4.1.2 轉換器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 數(shù)據(jù)預處理 199
4.2.1 數(shù)據(jù)標準化 201
4.2.2 數(shù)據(jù)非線性轉換 223
4.2.3 數(shù)據(jù)歸一化 232
4.2.4 分類型特征變量編碼 237
4.2.5 數(shù)據(jù)離散化 245
4.2.6 特征組合 251
4.3 缺失值處理 254
4.3.1 單變量插補 255
4.3.2 多變量插補 258
4.3.3 最近鄰插補 262
4.3.4 標記插補缺失值 264
4.4 目標變量預處理 268
4.4.1 多類別分類標簽二值化 268
4.4.2 多標簽分類標簽二值化 273
4.4.3 目標變量標簽編碼 276
本章小結 279
5 Scikit-learn特征抽取和降維 281
5.1 特征抽取 282
5.1.1 字典列表對象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 圖像特征抽取 316
5.2 特征降維 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 隨機投影 330
本章小結 340
附錄 342
1. 互操作和框架增強包 343
2. 評估器和任務擴展包 344
3. 統(tǒng)計知識擴展包 347
4. 推薦引擎擴展包 347
5. 特定領域的擴展包 347