分佈式文件系統,機架感知以及掌握數據倉庫搭建過程

上篇筆記作了一個簡單的瞭解,此次我們須要瞭解下谷歌的三篇論文Google FS、MapReduce、BigTable(必定搜下看看而後過幾遍)之後再來進行下邊的學習 。

各章概述,繼續薰陶
  • Hadoop部分
    Hadoop的起源與背景知識java

    1.大數據的核心問題:
           (1)數據的存儲:分佈式文件系統(分佈式存儲)
           (2)數據的計算:分佈式計算
       2.概念:數據倉庫(Data warehouse)
           (1)咱們能夠把Hadoop和Spark當作是數據倉庫的一種實現方式
           (2)數據倉庫就是一個數據庫,通常只作select
           (3)重要的一點:掌握數據倉庫的搭建過程
           (4)數據倉庫又是一種OLAP的應用系統

數據倉庫搭建過程

圖片描述

3.概念:OLTP和OLAP
        (1)OLTP:online transaction processing聯機事務處理
        (2)OLAP:online analytic processing聯機分析處理---->不會修改(刪除)數據
    4.(最重要的內容)Google的3篇論文
        (1)GFS:Google File System ---> HDFS ---> 解決數據的存儲
        (2)MapReduce計算模型 ---> Hadoop MapReduce ---> 解決數據的計算
        (3)BigTable大表 ---> Hbase是NoSQL數據庫
  • 實驗環境

圖片描述

  • Apache Hadoop的體系結構(重要):實現Google的思想論文數據庫

    1.HDFS:Hadoop Distributed File System
           (1)主從結構
           (2)主節點:NameNode名稱節點
           (3)從節點:DataNode數據節點
           (4)SecondaryNameNode:第二名稱節點

分佈式文件系統與機架感知

圖片描述
圖片描述

2.Yarn:是一個容器,運行MapReduce程序
        (1)主從結構
        (2)主節點:ResourceManager 資源管理器
        (3)從節點:NodeManager 節點管理器
    3.HBase:須要單獨安裝
        (1)主從結構
        (2)主節點:HMaster
        (3)從節點:RegionServer
  • Hadoop2.X的安裝與配置編程

    Hadoop有三種安裝模式
           (1)本地模式  ---> 一臺Linux
           (2)僞分佈模式 ---> 一臺Linux
           (3)全分佈模式 ---> 三臺Linux
           (4)掌握面密碼登陸的原理和配置
  • Hadoop應用案例分析安全

    (1)大數據背景下,企業級系統的架構的變化
           (2)HBase進行日誌分析
           (3)Hadoop在淘寶的應用 瞭解下
  • HDFS:Hadoop的分佈式文件系統,數據存儲架構

    (1)操做HDFS:1.命令行 2.Java API 3.網頁:Web Console
           (2)原理:數據上傳的過程和數據下載的過程
           (3)HDFS的底層實現:RPC和java動態代理
                            RPC:remote procedure call
           (4)高級特性:
               1.回收站
               2.快照snapshot:是一種備份
               3.配額quota:名稱配額和空間配額
               4.安全模式:safemode
               5.權限
  • MapReduce:是一個計算模型,能夠用java來實現分佈式

    1.Demo:經典的WordCount
       2.重點:MapReduce處理數據的過程
       3.原理:Yarn執行MapReduce的過程
       4.MapReduce的高級特性
           (1)序列化
           (2)排序
           (3)分區
           (4)合併
       5.MapReduce的核心:Shuffle(洗牌)
       6.編程案例:
           (1)排序:order by
           (2)去重:distinct
           (3)多表查詢
           (4)倒排索引
  • Hive:蜂巢,數據分析的引擎:翻譯器 SQL ---> MapReduce
  • Pig:豬,數據分析的引擎:翻譯器 PigLation語言 ---> MapReduce
  • HBase:NoSQL數據庫工具

    1.是基於Hadoop之上的NoSQL
       2.體系結構:HMaster、RegionServer
       3.搭建:本地模式、僞分佈模式、全分佈模式
       4.操做:命令行、Java API、WebConsole
       5.過濾器:實現複雜的查詢
       6.HBase上的MapReduce
  • Sqoop:數據採集引擎,採集關係型數據庫中的數據
  • Flume:數據採集引擎,採集日誌
  • HUE:基於Web的管理工具
  • ZooKeeper:至關於一個'數據庫',實現HA(High Avaiblity高可用性)
  • Hadoop的集羣和HAoop

    1.HDFS的聯盟(Federation)
       2.Hadoop的HA(High Avaiblity高可用性)
  • Redis:基於內存的NoSQL數據庫,提升性能
  • Storm:處理流式數據(實時計算)性能

    集成Storm和Redis
相關文章
相關標籤/搜索