從零開始學Hadoop大數(shù)據(jù)分析（視頻教學版）

定　價：￥89.00

作　者：	溫春水，畢潔馨著
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111619314	出版時間：	2019-03-01	包裝：	平裝
開本：	16開	頁數(shù)：	368	字數(shù)：

內(nèi)容簡介

　　本書針對愿意加入大數(shù)據(jù)行業(yè)的初學者量身定做，以簡練風趣的語言介紹了大數(shù)據(jù)程核心技術及相關案例。內(nèi)容包括了數(shù)據(jù)的基本概念、Hadoop的安裝與配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis，每個知識點配有可運行的案例，同時結合企業(yè)實際案例，讓讀者能夠掌握從大數(shù)據(jù)環(huán)境搭建到大數(shù)據(jù)核心技術，并且進一步熟悉企業(yè)案例的分析及開發(fā)過程，從而輕松進入到大數(shù)據(jù)領域。本書實用性強，非常適合Hadoop大數(shù)據(jù)分析入門讀者閱讀，也適合相關院校作為大數(shù)據(jù)分析與挖掘的教材使用。

作者簡介

　　溫春水畢業(yè)于中國人民大學，獲碩士學位。歷任森途國信新工科研究院院長、大唐網(wǎng)絡和三點一刻大數(shù)據(jù)技術總監(jiān)，負責大數(shù)據(jù)技術架構。12年以上的IT從業(yè)經(jīng)驗，其中從事IT培訓超過5年，直接授課學員超過3萬人。受邀為燕山石化和中國石油等企業(yè)完成Python及大數(shù)據(jù)技術等企業(yè)內(nèi)訓；受聘面向哈爾濱工業(yè)大學、南開大學、天津大學、華南農(nóng)業(yè)大學、山東科技大學、北京交通大學、西安交通大學、天津師范大學和北京航空航天大學等高校的本科生及研究生講授項目管理、需求分析、軟件體系設計和項目開發(fā)等課程。畢潔馨亞信科技高級開發(fā)工程師。參與過北京聯(lián)通看板中心及專線透明化建設，另外還參與過相關公司的門店客流分析平臺和分布式網(wǎng)絡爬蟲等多個項目的開發(fā)工作。目前致力于大數(shù)據(jù)和人工智能方向的前沿技術研究。

圖書目錄

前言
第1篇 Hadoop基礎知識
第1章初識Hadoop 2
1.1 大數(shù)據(jù)初探 2
1.1.1 大數(shù)據(jù)技術 2
1.1.2 大數(shù)據(jù)技術框架 3
1.1.3 大數(shù)據(jù)的特點 3
1.1.4 大數(shù)據(jù)在各個行業(yè)中的應用 4
1.1.5 大數(shù)據(jù)計算模式 4
1.1.6 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關系 4
1.2 Hadoop簡介 5
1.2.1 Hadoop應用現(xiàn)狀 6
1.2.2 Hadoop簡介與意義 6
1.3 小結 6
第2章 Hadoop的安裝與配置 7
2.1 虛擬機的創(chuàng)建 7
2.2 安裝Linux系統(tǒng) 10
2.3 配置網(wǎng)絡信息 11
2.4 克隆服務器 12
2.5 SSH免密碼登錄 13
2.6 安裝和配置JDK 15
2.6.1 上傳安裝包 15
2.6.2 安裝JDK 16
2.6.3 配置環(huán)境變量 16
2.7 Hadoop環(huán)境變量配置 16
2.7.1 解壓縮Hadoop壓縮包 17
2.7.2 配置Hadoop的bin和sbin文件夾到環(huán)境變量中 17
2.7.3 修改/etc/hadoop/hadoop-env.sh 17
2.8 Hadoop分布式安裝 17
2.8.1 偽分布式安裝 17
2.8.2 完全分布式安裝 19
2.9 小結 21
第3章 Hadoop分布式文件系統(tǒng) 22
3.1 DFS介紹 22
3.1.1 什么是DFS 22
3.1.2 DFS的結構 22
3.2 HDFS介紹 23
3.2.1 HDFS的概念及體系結構 23
3.2.2 HDFS的設計 23
3.2.3 HDFS的優(yōu)點和缺點 24
3.2.4 HDFS的執(zhí)行原理 24
3.2.5 HDFS的核心概念 25
3.2.6 HDFS讀文件流程 27
3.2.7 HDFS寫文件流程 28
3.2.8 Block的副本放置策略 29
3.3 Hadoop中HDFS的常用命令 30
3.3.1 對文件的操作 30
3.3.2 管理與更新 31
3.4 HDFS的應用 31
3.4.1 基于Shell的操作 31
3.4.2 基于Java API的操作 33
3.4.3 創(chuàng)建文件夾 34
3.4.4 遞歸顯示文件 34
3.4.5 文件上傳 35
3.4.6 文件下載 35
3.5 小結 36
第4章基于Hadoop 3的HDFS高可用 37
4.1 Hadoop 3.x的發(fā)展 37
4.1.1 Hadoop 3新特性 37
4.1.2 Hadoop 3 HDFS集群架構 38
4.2 Hadoop 3 HDFS完全分布式搭建 39
4.2.1 安裝JDK 40
4.2.2 配置JDK環(huán)境變量 40
4.2.3 配置免密碼登錄 40
4.2.4 配置IP和主機名字映射關系 41
4.2.5 SSH免密碼登錄設置 41
4.2.6 配置Hadoop 3.1.0 42
4.3 什么是HDFS高可用 47
4.3.1 HDFS高可用實現(xiàn)原理 47
4.3.2 HDFS高可用實現(xiàn) 48
4.4 搭建HDFS高可用 50
4.4.1 配置ZooKeeper 50
4.4.2 配置Hadoop配置文件 52
4.4.3 將配置文件復制到其他節(jié)點上 54
4.4.4 啟動JN節(jié)點 54
4.4.5 格式化 55
4.4.6 復制元數(shù)據(jù)到node2節(jié)點上 55
4.4.7 格式化ZKFC 55
4.4.8 啟動集群 56
4.4.9 通過瀏覽器查看集群狀態(tài) 56
4.4.10 高可用測試 57
4.5 小結 58
第2篇 Hadoop核心技術
第5章 Hadoop的分布式協(xié)調(diào)服務——ZooKeeper 60
5.1 ZooKeeper的核心概念 60
5.1.1 Session會話機制 60
5.1.2 數(shù)據(jù)節(jié)點、版本與Watcher的關聯(lián) 61
5.1.3 ACL策略 61
5.2 ZooKeeper的安裝與運行 61
5.3 ZooKeeper服務器端的常用命令 63
5.4 客戶端連接ZooKeeper的相關操作 64
5.4.1 查看ZooKeeper常用命令 64
5.4.2 connect命令與ls命令 65
5.4.3 create命令——創(chuàng)建節(jié)點 65
5.4.4 get命令——獲取數(shù)據(jù)與信息 66
5.4.5 set命令——修改節(jié)點內(nèi)容 66
5.4.6 delete命令——刪除節(jié)點 67
5.5 使用Java API訪問ZooKeeper 67
5.5.1 環(huán)境準備與創(chuàng)建會話實例 68
5.5.2 節(jié)點創(chuàng)建實例 69
5.5.3 Java API訪問ZooKeeper實例 70
5.6 小結 73
第6章分布式離線計算框架——MapReduce 74
6.1 MapReduce概述 74
6.1.1 MapReduce的特點 74
6.1.2 MapReduce的應用場景 75
6.2 MapReduce執(zhí)行過程 76
6.2.1 單詞統(tǒng)計實例 76
6.2.2 MapReduce執(zhí)行過程 77
6.2.3 MapReduce的文件切片Split 77
6.2.4 Map過程和Reduce過程 78
6.2.5 Shuffle過程 78
6.3 MapReduce實例 79
6.3.1 WordCount本地測試實例 79
6.3.2 ETL本地測試實例 84
6.4 溫度排序實例 86
6.4.1 時間和溫度的封裝類MyKey.Java 87
6.4.2 Map任務MyMapper.java 88
6.4.3 數(shù)據(jù)分組類MyGroup.Java 89
6.4.4 溫度排序類MySort.java 89
6.4.5 數(shù)據(jù)分區(qū)MyPartitioner.java 90
6.4.6 Reducer任務MyReducer.java 90
6.4.7 主函數(shù)RunJob.java 91
6.5 小結 94
第7章 Hadoop的集群資源管理系統(tǒng)——YARN 95
7.1 為什么要使用YARN 95
7.2 YARN的基本架構 96
7.2.1 ResourceManager進程 96
7.2.2 ApplicationMaster和NodeManager 97
7.3 YARN工作流程 97
7.4 YARN搭建 98
7.5 小結 100
第8章 Hadoop的數(shù)據(jù)倉庫框架——Hive 101
8.1 Hive的理論基礎 101
8.1.1 什么是Hive 101
8.1.2 Hive和數(shù)據(jù)庫的異同 102
8.1.3 Hive設計的目的與應用 104
8.1.4 Hive的運行架構 104
8.1.5 Hive的執(zhí)行流程 105
8.1.6 Hive服務 106
8.1.7 元數(shù)據(jù)存儲Metastore 106
8.1.8 Embedded模式 107
8.1.9 Local模式 108
8.1.10 Remote模式 109
8.2 Hive的配置與安裝 109
8.2.1 安裝MySQL 110
8.2.2 配置Hive 112
8.3 Hive表的操作 113
8.3.1 創(chuàng)建Hive表 114
8.3.2 導入數(shù)據(jù) 114
8.4 表的分區(qū)與分桶 115
8.4.1