視頻jourk--hadoop2.x介紹與安裝

1、 hadoop介紹

1.hadoop的由來:(google三篇論文)

  1. (2003)GFS --> HDFSweb

  2. (2004)MapReduce --> MapReduce併發

  3. (2006)BigTable --> HBase(Hadoop DataBase)負載均衡

2.hadoop的著名案例

  1.  Facebook : HiveQL進行數據分析;框架

  2. 淘寶搜索   :Hive自定義篩選;分佈式

  3. eBay         :數據倉庫;oop

  4. Twitter     :Pig高級數據處理,發現可能認識的人;大數據

  5. Amazon   :協同過濾的推薦,及淘寶推薦;優化

  6. Yahoo      :pig,垃圾郵件的識別過濾及用戶特徵建模;google

  7. 天貓          :hive,推薦系統(廣告聯盟),少許嘗試mahout。6:56spa

 3.hadoop的特色

  1. 擴容能力(Scalable):可靠的存儲和處理PB級數據;

  2. 成本低(Economical):廉價機集羣;

  3. 高效率(Efficient):併發;

  4. 可靠行(Reliable):存儲多個副本;

4.hadoop核心

  1. HDFS 海量存儲(通訊RPC);

    1. 2.x比1.x的優化:

      1. NameNodeHA:1.x只有一個,2.x有多個;

      2. federation:

    2.  DataNode:有多個塊Block,每一個塊有128M;

    3. NameNode的Metadata記錄位置:

      1. FileName:文件名

      2. replicas:副本數

      3. block_ids:block塊

      4. id2host:id和主機名關係

    4.  

  2. MapReduce 海量計算:

  3. YARN(Yet Anothor Resource Negotiator):資源調度管理系統;

2、hadoop安裝

 

    1.安裝環境:須要6臺機器

  • 2臺(機器1+機器2--JDK+Hadoop)運行NameNode(HDFS的老大):HA

    • NameNode、DFSZKFailoverController.

    • NameNode、DFSZKFailoverController.

  • 1臺(機器3--JDK+Hadoop)運行ResourceManager(YARN的老大);

    • ResourceManager

  • 3臺(機器4+機器5+機器6--JDK+Hadoop+Zookeeper)運行DataNode,並安裝ZK(奇數個)

    • DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(實時數據同步)、QuorumPeerMain(ZK的節點)。

    

  •  Zookeeper(ZK-2181)是大數據協調管理框架,能夠進行master選舉、負載均衡、分佈式鎖、配置信息維護等;

     2.集羣部署:

相關文章
相關標籤/搜索