據說你想知道《從零開始學Hadoop大數據分析》講了什麼?來看這裏!

書籍詳情連接也能夠戳這裏:http://product.dangdang.com/26918552.htmlhtml

內容簡介:本書針對願意加入大數據行業的初學者量身定作,以簡練風趣的語言介紹了大數據程核心技術及相關案例。內容包括了數據的基本概念、Hadoop的安裝與配置、HDFS、基於Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每一個知識點配有可運行的案例,同時結合企業實際案例,讓讀者可以掌握從大數據環境搭建到大數據核心技術,而且進一步熟悉企業案例的分析及開發過程,從而輕鬆進入到大數據領域。本書實用性強,很是適合Hadoop大數據分析入門讀者閱讀,也適合相關院校做爲大數據分析與挖掘的教材使用。java

目錄:node

第1篇 Hadoop基礎知識
第1章 初識Hadoop2
1.1 大數據初探2
1.1.1 大數據技術2
1.1.2 大數據技術框架3
1.1.3 大數據的特色3
1.1.4 大數據在各個行業中的應用4
1.1.5 大數據計算模式4
1.1.6 大數據與雲計算、物聯網的關係4
1.2 Hadoop簡介5
1.2.1 Hadoop應用現狀6
1.2.2 Hadoop簡介與意義6
1.3 小結6
第2章 Hadoop的安裝與配置7
2.1 虛擬機的建立7
2.2 安裝Linux系統10
2.3 配置網絡信息11
2.4 克隆服務器12
2.5 SSH免密碼登陸13
2.6 安裝和配置JDK15
2.6.1 上傳安裝包15
2.6.2 安裝JDK16
2.6.3 配置環境變量16
2.7 Hadoop環境變量配置16
2.7.1 解壓縮Hadoop壓縮包17
2.7.2 配置Hadoop的bin和sbin文件夾到環境變量中17
2.7.3 修改/etc/hadoop/hadoop-env.sh17
2.8 Hadoop分佈式安裝17
2.8.1 僞分佈式安裝17
2.8.2 徹底分佈式安裝19
2.9 小結21
第3章 Hadoop分佈式文件系統22
3.1 DFS介紹22
3.1.1 什麼是DFS22
3.1.2 DFS的結構22
3.2 HDFS介紹23
3.2.1 HDFS的概念及體系結構23
3.2.2 HDFS的設計23
3.2.3 HDFS的優勢和缺點24
3.2.4 HDFS的執行原理24
3.2.5 HDFS的核心概念25
3.2.6 HDFS讀文件流程27
3.2.7 HDFS寫文件流程28
3.2.8 Block的副本放置策略29
3.3 Hadoop中HDFS的經常使用命令30
3.3.1 對文件的操做30
3.3.2 管理與更新31
3.4 HDFS的應用31
3.4.1 基於Shell的操做31
3.4.2 基於Java API的操做33
3.4.3 建立文件夾34
3.4.4 遞歸顯示文件34
3.4.5 文件上傳35
3.4.6 文件下載35
3.5 小結36
第4章 基於Hadoop 3的HDFS高可用37
4.1 Hadoop 3.x的發展37
4.1.1 Hadoop 3新特性37
4.1.2 Hadoop 3 HDFS集羣架構38
4.2 Hadoop 3 HDFS徹底分佈式搭建39
4.2.1 安裝JDK40
4.2.2 配置JDK環境變量40
4.2.3 配置免密碼登陸40
4.2.4 配置IP和主機名字映射關係41
4.2.5 SSH免密碼登陸設置41
4.2.6 配置Hadoop 3.1.042
4.3 什麼是HDFS高可用47
4.3.1 HDFS高可用實現原理47
4.3.2 HDFS高可用實現48
4.4 搭建HDFS高可用50
4.4.1 配置ZooKeeper50
4.4.2 配置Hadoop配置文件52
4.4.3 將配置文件複製到其餘節點上54
4.4.4 啓動JN節點54
4.4.5 格式化55
4.4.6 複製元數據到node2節點上55
4.4.7 格式化ZKFC55
4.4.8 啓動集羣56
4.4.9 經過瀏覽器查看集羣狀態56
4.4.10 高可用測試57
4.5 小結58
第2篇 Hadoop核心技術
第5章 Hadoop的分佈式協調服務——ZooKeeper60
5.1 ZooKeeper的核心概念60
5.1.1 Session會話機制60
5.1.2 數據節點、版本與Watcher的關聯61
5.1.3 ACL策略61
5.2 ZooKeeper的安裝與運行61
5.3 ZooKeeper服務器端的經常使用命令63
5.4 客戶端鏈接ZooKeeper的相關操做64
5.4.1 查看ZooKeeper經常使用命令64
5.4.2 connect命令與ls命令65
5.4.3 create命令——建立節點65
5.4.4 get命令——獲取數據與信息66
5.4.5 set命令——修改節點內容66
5.4.6 delete命令——刪除節點67
5.5 使用Java API訪問ZooKeeper67
5.5.1 環境準備與建立會話實例68
5.5.2 節點建立實例69
5.5.3 Java API訪問ZooKeeper實例70
5.6 小結73
第6章 分佈式離線計算框架——MapReduce74
6.1 MapReduce概述74
6.1.1 MapReduce的特色74
6.1.2 MapReduce的應用場景75
6.2 MapReduce執行過程76
6.2.1 單詞統計實例76
6.2.2 MapReduce執行過程77
6.2.3 MapReduce的文件切片Split77
6.2.4 Map過程和Reduce過程78
6.2.5 Shuffle過程78
6.3 MapReduce實例79
6.3.1 WordCount本地測試實例79
6.3.2 ETL本地測試實例84
6.4 溫度排序實例86
6.4.1 時間和溫度的封裝類MyKey.Java87
6.4.2 Map任務MyMapper.java88
6.4.3 數據分組類MyGroup.Java89
6.4.4 溫度排序類MySort.java89
6.4.5 數據分區MyPartitioner.java90
6.4.6 Reducer任務MyReducer.java90
6.4.7 主函數RunJob.java91
6.5 小結94
第7章 Hadoop的集羣資源管理系統——YARN95
7.1 爲何要使用YARN95
7.2 YARN的基本架構96
7.2.1 ResourceManager進程96
7.2.2 ApplicationMaster和NodeManager97
7.3 YARN工做流程97
7.4 YARN搭建98
7.5 小結100
第8章 Hadoop的數據倉庫框架——Hive101
8.1 Hive的理論基礎101
8.1.1 什麼是Hive101
8.1.2 Hive和數據庫的異同102
8.1.3 Hive設計的目的與應用104
8.1.4 Hive的運行架構104
8.1.5 Hive的執行流程105
8.1.6 Hive服務106
8.1.7 元數據存儲Metastore106
8.1.8 Embedded模式107
8.1.9 Local模式108
8.1.10 Remote模式109
8.2 Hive的配置與安裝109
8.2.1 安裝MySQL110
8.2.2 配置Hive112
8.3 Hive表的操做113
8.3.1 建立Hive表114
8.3.2 導入數據114
8.4 表的分區與分桶115
8.4.1 表的分區115
8.4.2 表的分桶117
8.5 內部表與外部表118
8.5.1 內部表119
8.5.2 外部表119
8.6 內置函數與自定義函數121
8.6.1 內置函數實例121mysql

8.6.2  自定義UDAF實例算法

8.7  Java訪問Hivesql

8.8  Hive優化shell

8.8.1  MapReduce優化數據庫

8.8.2  配置優化瀏覽器

8.9  小結安全

9章  大數據快速讀寫—HBase

9.1  關於NoSQL

9.1.1  什麼是NoSQL

9.1.2  NoSQL數據庫的分類

9.1.3  NoSQL數據庫的應用

9.1.4  關係型數據庫與非關係型數據庫的區別

9.2  Hbase基礎

9.2.1  Hbase簡介

9.2.2  HBase數據模型

9.2.3  HBase體系架構及組件

9.2.4  HBase執行原理

9.3  HBase安裝

9.4  HBase的shell操做

9.5  Java API訪問HBase實例

9.5.1  建立表

9.5.2  插入數據

9.5.3  查詢數據

9.6  小結

10章  海量日誌採集工具—Flume

10.1  什麼是Flume

10.2  Flume的特色

10.3  Flume架構

10.4  Flume的主要組件

10.4.1  Event、Client與Agent—數據傳輸

10.4.2  Source—event接受

10.4.3  Channel—event傳輸

10.4.4  Sink—event發送

10.4.5  其餘組件

10.5  Flume安裝

10.6  Flume應用典型實例

10.6.1  本地數據讀取(conf1)

10.6.2  收集至HDFS

10.6.3  基於日期分區的數據收集

10.7  exec方式實現數據收集

10.7.1  安裝工具

10.7.2  編輯配置文件conf4

10.7.3  運行flume

10.7.4  查看生成的文件

10.7.5  查看hdfs中的數據

10.8  小結

11章  Sqoop—Hadoop和關係型數據庫間的數據傳輸工具

11.1  什麼是Sqoop

11.2  Sqoop工做機制

11.3   Sqoop的安裝與配置

11.3.1  下載Sqoop

11.3.2  sqoop配置

11.4  Sqoop數據導入實例

11.4.1  向HDFS中導入數據

11.4.2  將數據導入到Hive

11.4.3  向HDFS中導入查詢結果

11.5  Sqoop數據導出實例

11.6  小結

12章  分佈式消息隊列—Kafka

12.1  什麼是Kafka

12.2  Kafka的架構和主要組件

12.2.1  消息記錄的類別名—topic

12.2.2  Producer與Consumer—數據的生產和消費

12.2.3  其餘組件—Broker、Partition、Offset、Segment

12.3  Kafka的下載與集羣安裝

12.3.1  安裝包的下載與解壓

12.3.2  kafka的安裝配置

12.4  Kafka應用實例

12.4.1  Producer實例

12.4.2  Consumer實例

12.5  小結

13章  開源的內存數據庫—Redis

13.1  Redis簡介

13.1.1  什麼是Redis

13.1.2  Redis的特色

13.2  Redis安裝與配置

13.3  客戶端登錄

13.3.1  密碼爲空登陸

13.3.2  設置密碼登錄

13.4  Redis的數據類型

13.4.1  String

13.4.2  List

13.4.3  Hash

13.4.4  Set

13.5  小結

14章  Ambari和CDH

14.1  Ambari的安裝與集羣管理

14.1.1  認識HDP與Ambari

14.1.2  Ambari的搭建

14.1.3  配置網卡與修改本機名

14.1.4  定義DNS服務器與修改hosts主機映射關係

14.1.5  關閉防火牆並安裝JDK

14.1.6  升級OpenSSL安全套接層協議版本

14.1.7  關閉SELinux強制訪問控制安全系統

14.1.8  SSH免密碼登陸

14.1.9  同步NTP

14.1.10  關閉Linux的THP服務

14.1.11  配置UMASK與配置HTTP服務

14.1.12  安裝本地源製做相關工具與安裝createrepo

14.1.13  禁止離線更新與製做本地源

14.1.14  下載Ambari-server與安裝MySQL

14.1.15  安裝Ambari

14.1.16  安裝Agent與Ambari登陸安裝

14.1.17  安裝部署遇到問題解決方案

14.2  CDH的安裝與集羣管理

14.2.1  什麼是CDH和Cloudera Manager的做用

14.2.2  Cloudera Manager與Ambari對比的優點

14.2.3  CDH安裝和配置網卡

14.2.4  修改本機名與定義DNS服務器

14.2.5  修改hosts主機映射關係

14.2.6  關閉防火牆

14.2.7  安裝JDK

14.2.8  升級OpenSSL安全套接層協議版本

14.2.9  關閉SELinux強制訪問控制安全系統

14.2.10  SSH 免密碼登陸

14.2.11  同步NTP(網絡時間協議Network Time Protocol)安裝

14.2.12  安裝MySQL

14.2.13  安裝Cloudera Manager

14.2.14  添加mysql驅動包和修改Agent配置

14.2.15  初始化CM5數據庫和建立cloudera-scm用戶

14.2.16  準備Parcels

14.2.17  CDH登陸安裝

14.3 小結

第15章  Spark—快速且通用的集羣計算系統

15.1  Spark基礎知識

15.1.1  Spark的特色

15.1.2  關於Spark和Hadoop的比較

15.2  彈性分佈式數據集RDD

15.2.1  RDD的概念

15.2.2  RDD的建立方式

15.2.3  RDD的操做

15.2.4  RDD的執行過程

15.3  Spark做業運行機制

15.4  運行在YARN上的Spark

15.4.1  在YARN上運行Spark

15.4.2  Spark在YARN上的兩種部署模式

15.5  Spark集羣安裝

15.5.1  Spark安裝包的下載

15.5.2  Spark安裝環境

15.5.3  Scala安裝和配置

15.5.4  Spark分佈式集羣配置

15.6  Spark實例詳解

15.6.1  網站用戶瀏覽次數最多的url統計

15.6.2  關於用戶定位案例

15.7  小結

第三篇  Hadoop典型案例

第16章  基於電商產品的大數據業務分析系統案例

16.1  項目背景、實現目標和項目需求

16.2  功能與流程

16.2.1  用戶信息

16.2.2  商品信息

16.2.3  購買記錄

16.3  數據收集

16.3.1  Flume的配置文件

16.3.2  啓動flume

16.3.3  查看採集後的文件

16.3.4  經過後臺命令查看文件

16.3.5  查看文件內容

16.3.6  上傳user.list文件

16.3.7  上傳brand.list目錄

16.4  數據預處理

16.5  數據分析-建立外部表

16.6  創建模型

16.6.1  各年齡段用戶消費總額

16.6.2  查詢各品牌銷售總額

16.6.3  查詢各省份消費總額

16.6.4  使用Sqoop將數據導入到MySQL數據庫

16.7  數據可視化

16.8  小結

第17章  用戶畫像分析

17.1  項目背景

17.2  項目目標與項目開發過程

17.2.1  數據採集

17.2.2  數據預處理

17.2.3  模型構建

17.2.4  數據分析

17.3  核心代碼解讀

17.3.1  項目流程介紹

17.3.2  核心類的解讀

17.3.3  core-site.xml

17.3.4  hdfs-site.xml

17.3.5  UserProfile.properties

17.3.6  LoadConfig.java

17.3.7  ReadFile.java

17.3.8  ReadFromHdfs.java

17.3.9  UserProfile.java

17.3.10  TextArrayWritable.java

17.3.11  UserProfileMapReduce.java

17.3.12  UserProfileMapReduce2.java

17.3.13  UserProfilePutInHbaseMap.java

17.3.14  UserProfilePutInHbaseReduce

17.4  項目部署

17.5  小結

第18章  基於個性化的視頻推薦系統實戰

18.1  項目背景

18.2  項目目標與推薦系統簡介

18.2.1  推薦系統的分類

18.2.2  推薦模型的構建流程

18.2.3  推薦系統核心算法

18.2.4  如何基於Mahout完成推薦

18.2.5  基於Mahout推薦實例

18.3  推薦系統項目架構

18.4  推薦系統模型構建

18.5  核心代碼

18.5.1  公共部分

18.5.2  離線部分

18.5.3  在線部分

18.6  小結

第19章  電信離網用戶挽留案例

19.1  商業理解

19.2  數據理解

19.2.1  收集數據

19.2.2  理解數據

19.2.3  保證數據質量

19.3  數據整理

19.3.1  數據整合

19.3.2  數據過濾

19.4  數據清洗

19.4.1  噪聲識別

19.4.2  離羣值和極端值的定義

19.4.3  離羣值處理方法

19.4.4  數據空值處理示例

19.5  數據轉換

19.5.1  變量轉換

19.5.2  壓縮分類水平數

19.5.3  連續數據離散化

19.5.4  變換啞變量

19.5.5  數據標準化

19.5.6  數據壓縮

19.6  建模

19.6.1  決策樹算法概述

19.6.2  決策樹的訓練步驟

19.6.3  訓練決策樹

19.6.4  C4.5算法

19.6.5  決策樹剪枝

19.7  模型評估

19.7.1  混淆矩陣

19.7.2  ROC曲線

19.8  部署

19.9  用戶離網案例代碼詳解

19.9.1  數據準備

19.9.2  相關性分析

19.9.3  最終建模

19.9.4  模型評估

19.10  小結

相關文章
相關標籤/搜索