分佈式文件系統,機架感知以及掌握數據倉庫搭建過程

時間 2019-11-10

原文原文鏈接

上篇筆記作了一個簡單的瞭解，此次我們須要瞭解下谷歌的三篇論文Google FS、MapReduce、BigTable（必定搜下看看而後過幾遍）之後再來進行下邊的學習 。

各章概述，繼續薰陶

Hadoop部分
Hadoop的起源與背景知識java

1.大數據的核心問題：
       （1）數據的存儲：分佈式文件系統（分佈式存儲）
       （2）數據的計算：分佈式計算
   2.概念：數據倉庫（Data warehouse）
       （1）咱們能夠把Hadoop和Spark當作是數據倉庫的一種實現方式
       （2）數據倉庫就是一個數據庫，通常只作select
       （3）重要的一點：掌握數據倉庫的搭建過程
       （4）數據倉庫又是一種OLAP的應用系統

數據倉庫搭建過程

3.概念：OLTP和OLAP
        （1）OLTP：online transaction processing聯機事務處理
        （2）OLAP：online analytic processing聯機分析處理---->不會修改(刪除)數據
    4.（最重要的內容）Google的3篇論文
        （1）GFS：Google File System ---> HDFS ---> 解決數據的存儲
        （2）MapReduce計算模型 ---> Hadoop MapReduce ---> 解決數據的計算
        （3）BigTable大表 ---> Hbase是NoSQL數據庫

實驗環境

Apache Hadoop的體系結構（重要）：實現Google的思想論文數據庫

1.HDFS:Hadoop Distributed File System
       (1)主從結構
       (2)主節點：NameNode名稱節點
       (3)從節點：DataNode數據節點
       (4)SecondaryNameNode:第二名稱節點

分佈式文件系統與機架感知

2.Yarn:是一個容器，運行MapReduce程序
        (1)主從結構
        (2)主節點：ResourceManager 資源管理器
        (3)從節點：NodeManager 節點管理器
    3.HBase:須要單獨安裝
        (1)主從結構
        (2)主節點：HMaster
        (3)從節點：RegionServer

Hadoop2.X的安裝與配置編程

Hadoop有三種安裝模式
       (1)本地模式  ---> 一臺Linux
       (2)僞分佈模式 ---> 一臺Linux
       (3)全分佈模式 ---> 三臺Linux
       (4)掌握面密碼登陸的原理和配置

Hadoop應用案例分析安全

(1)大數據背景下，企業級系統的架構的變化
       (2)HBase進行日誌分析
       (3)Hadoop在淘寶的應用 瞭解下

HDFS：Hadoop的分佈式文件系統，數據存儲架構

(1)操做HDFS：1.命令行 2.Java API 3.網頁：Web Console
       (2)原理：數據上傳的過程和數據下載的過程
       (3)HDFS的底層實現：RPC和java動態代理
                        RPC：remote procedure call
       (4)高級特性：
           1.回收站
           2.快照snapshot:是一種備份
           3.配額quota:名稱配額和空間配額
           4.安全模式：safemode
           5.權限

MapReduce:是一個計算模型，能夠用java來實現分佈式

1.Demo:經典的WordCount
   2.重點：MapReduce處理數據的過程
   3.原理：Yarn執行MapReduce的過程
   4.MapReduce的高級特性
       (1)序列化
       (2)排序
       (3)分區
       (4)合併
   5.MapReduce的核心：Shuffle(洗牌)
   6.編程案例：
       (1)排序：order by
       (2)去重：distinct
       (3)多表查詢
       (4)倒排索引

Hive：蜂巢，數據分析的引擎：翻譯器 SQL ---> MapReduce
Pig：豬，數據分析的引擎：翻譯器 PigLation語言 ---> MapReduce

HBase：NoSQL數據庫工具

1.是基於Hadoop之上的NoSQL
   2.體系結構：HMaster、RegionServer
   3.搭建：本地模式、僞分佈模式、全分佈模式
   4.操做：命令行、Java API、WebConsole
   5.過濾器：實現複雜的查詢
   6.HBase上的MapReduce

Sqoop:數據採集引擎，採集關係型數據庫中的數據
Flume:數據採集引擎，採集日誌
HUE:基於Web的管理工具
ZooKeeper:至關於一個'數據庫'，實現HA(High Avaiblity高可用性)

Hadoop的集羣和HAoop

1.HDFS的聯盟（Federation）
   2.Hadoop的HA（High Avaiblity高可用性）

Redis：基於內存的NoSQL數據庫，提升性能
Storm：處理流式數據(實時計算)性能
```
集成Storm和Redis
```

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。