序言1
前言3
第1章 引言9
11 概述10
12 Hadoop10
13 Spark12
14 R16
15 sparklyr19
16 小結20
第2章 開始21
21 概述21
22 預備操作22
221 安裝sparklyr23
222 安裝Spark23
23 連接24
24 使用Spark25
241 網絡接口25
242 分析28
243 建模28
244 數據30
245 擴展30
246 分布式R31
247 流式數據31
248 日志32
25 斷開連接33
26 使用RStudio33
27 資源35
28 小結36
第3章 分析37
31 概述37
32 數據導入40
33 數據整理41
331 內置函數42
332 相關性43
34 可視化45
341 使用ggplot246
342 使用dbplot47
35 建模49
36 溝通51
37 小結54
第4章 建模56
41 概述56
42 探索性數據分析58
43 特征工程65
44 監(jiān)督式學習68
441 廣義線性回歸72
442 其他模型73
45 非監(jiān)督式學習73
451 數據準備74
452 主題建模75
46 小結77
第5章 管道操作78
51 概述78
52 創(chuàng)建工作80
53 用例81
54 操作模式83
55 交互性84
56 部署86
561 批打分87
562 實時打分88
57 小結90
第6章 集群92
61 概述92
62 本地化94
621 管理器94
622 發(fā)行版98
63 云端100
631 亞馬遜101
632 Databricks102
633 谷歌103
634 IBM105
635 微軟106
636 Qubole107
64 Kubernetes107
65 工具108
651 RStudio108
652 Jupyter109
653 Livy110
66 小結111
第7章 連接112
71 概述112
711 邊緣節(jié)點114
712 Spark主目錄114
72 本地模式115
73 單機模式116
74 YARN116
741 YARN客戶端117
742 YARN集群117
75 Livy118
76 Mesos120
77 Kubernetes121
78 云模式121
79 批量模式122
710 工具123
711 多次連接123
712 故障排除124
7121 記錄日志124
7122 Spark Submit124
7123 Windows126
713 小結126
第8章 數據127
81 概述127
82 讀取數據129
821 路徑129
822 模式130
823 內存131
824 列132
83 寫入數據133
84 復制數據134
85 文件格式135
851 CSV136
852 JSON137
853 Parquet138
854 其他139
86 文件系統(tǒng)140
87 存儲系統(tǒng)140
871 Hive141
872 Cassandra142
873 JDBC142
88 小結143
第9章 調試144
91 概述144
911 計算圖146
912 時間線148
92 配置148
921 連接設置150
922 提交設置151
923 運行時設置152
924 sparklyr設置153
93 分區(qū)156
931 隱式分區(qū)156
932 顯式分區(qū)157
94 緩存158
941 檢查點159
942 內存159
95 重洗160
96 序列化161
97 配置文件161
98 小結162
第10章 擴展163
101 概述163
102 H2O165
103 圖模型169
104 XGBoost173
105 深度學習176
106 基因組學179
107 空間數據181
108 故障排除183
109 小結183
第11章 分布式R185
111 概述185
112 用例187
1121 定制解析器188
1122 分區(qū)建模189
1123 網格搜索191
1124 Web API192
1125 模擬193
113 分區(qū)194
114 分組195
115 列196
116 context參數197
117 函數198
118 程序包199
119 集群需求200
1191 安裝R200
1192 Apache Arrow201
1110 故障排除203
11101 工作節(jié)點日志204
11102 解決超時205
11103 檢查分區(qū)206
11104 調試工作節(jié)點206
1111 小結207
第12章 數據流208
121 概述208
122 轉換211
1221 分析212
1222 建模213
1223 管道214
1224 分布式R215
123 Kafka216
124 Shiny218
125 小結220
第13章 社區(qū)貢獻221
131 概述221
132 Spark API223
133 Spark擴展224
134 使用Scala代碼226
135 小結228
附錄A 補充參考代碼229