Hadoop入門之hdfs

                                                    大數據技術開篇之Hadoop入門【hdfs】node

    學習都是從瞭解到熟悉的過程,而學習一項新的技術的時候都是從這個技術是什麼?能夠幹什麼?怎麼用?如何優化?這幾點開始。今天這篇文章分爲兩個部分。1、hadoop概述  2、hadoop核心技術之一的hdfs的講解。
緩存

【hadoop概述】服務器

1、hadoop是什麼?架構

          Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶能夠在不瞭解分佈式底層細節的狀況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特色,而且設計用來部署在低廉的(low-cost)硬件上;並且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,能夠以流的形式訪問(streaming access)文件系統中的數據。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,而MapReduce則爲海量的數據提供了計算。框架

  簡單概況就是hadoop是一個分佈式系統的基礎架構,經過分佈式來進行高速運算和存儲。分佈式

2、用來幹什麼?工具

  主要用來解決海量數據存儲和海量數據運算的問題
oop

3、當前版本學習

   Apach 版本:主要用於本身學習研究方面,免費開源版本大數據

   Cloudera:收費版本,企業版本。目前公司商用化最多的版本。

     Hortonworks:商業版本,這個版本的優點在於參考文檔相對詳盡,學習起來比較方便

4、hadoop組成

    commons:輔助工具
    hdfs:一個分佈式高吞吐量,高可靠的分佈式文件系統
    mapreduce 一個分佈式離線計算框架
    yarn:做業調度和資源管理的框架。

5、集羣模式

單節點模式,僞集羣,完整集羣。三個模式

                        HDFS 學習

1、hdfs是什麼?

    hdfs一個分佈式高吞吐量,高可靠的分佈式文件系統。

2、hdfs優缺點:

 優勢:
    【1】高容錯性,數據自動保存多個副本,一個副本丟失後能夠自動恢復
    【2】適合大數據的處理
    數據能夠達到gb,Tb,pb級別,文件處理能夠達到百萬以上的規模
    【3】能夠構建在廉價的機器上面,經過多副原本實現可靠性

  缺點:
    【1】不適合低延時數據訪問,好比毫秒級別作不到
    【2】沒法高效對大量小文件進行存儲
    【3】不支持文件的隨機修改,僅支持文件的追加

3、hdfs的組成:

  Client:客戶端
       【1】文件切分。文件上傳時將文件切成一個個block塊
    【2】與NameNode交互,獲取文件的位置信息
    【3】與DataNode交互,讀取或寫入數據
    【4】client提供一些命令來管理Hdfs,好比啓動或者關閉
    【5】client能夠經過命令來訪問Hdfs
  NameNode就是Master,它是一個主管、管理者
    【1】管理數據塊的原信息
    【2】配置副本策略
    【3】處理客戶端請求
  DateNode
    【1】存儲實際的數據塊
    【2】執行數據塊的讀寫操做
  econdaryNameNode:並不是NameNode的熱備。當NameNode掛掉的時候,它並不能立刻替換NameNode並提供服務
    【1】輔助NameNode,分擔其工做量
    【2】按期合併Fsimage和Edits,並推送給NameNode;
    【3】在緊急狀況下,可輔助恢復NameNode。

4、hdfs文件寫入流程

                                                        

 

    

    (1) 客戶端經過Distributed FileSystem模塊NameNode請求上傳文件,NameNode檢查目標文件是否已存在,父目錄是否存在。

    (2) NameNode返回是否能夠上傳。

    (3) 客戶端請求第一個 block上傳到哪幾個datanode服務器上。

    (4) NameNode返回3datanode節點,分別爲dn一、dn二、dn3。

    (5) 客戶端經過FSDataOutputStream模塊請求dn1上傳數據,dn1收到請求會繼續調用dn2,而後dn2調用dn3,將這個通訊管道創建完成。

    (6) dn一、dn二、dn3逐級應答客戶端。

    (7) 客戶端開始往dn1上傳第一個block(先從磁盤讀取數據放到一個本地內存緩存),以packet爲單位,dn1收到一個packet就會傳給dn2,dn2傳給dn3; 

    (8) 當一個block傳輸完成以後,客戶端再次請求NameNode上傳第二個block的服務器。(重複執行3-7步)。

5、hdfs 讀文件流程

             

 

 

 

    (1) 客戶端經過Distributed FileSystemNameNode請求下載文件,NameNode經過查詢元數據,找到文件塊所在的DataNode地址。

 

    (2) 挑選一臺DataNode(就近原則,而後隨機)服務器,請求讀取數據

 

    (3) DataNode開始傳輸數據給客戶端(從磁盤裏面讀取數據輸入流,以packet爲單位來作校驗)。

 

    (4) 客戶端以packet爲單位接收,先在本地緩存,而後寫入目標文件。

6、NN與2NN的工做機制

 

        

 

 

    

    (1) 第一階段:NameNode啓動

 

      a) 第一次啓動NameNode格式化後建立fsimage和edits文件。若是不是第一次啓動,直接加載編輯日誌和鏡像文件到內存。

 

      b) 客戶端對元數據進行增刪改的請求

 

      c) NameNode記錄操做日誌,更新滾動日誌

 

      d) NameNode在內存中對數據進行增刪改查

 

    (2) 第二階段:Secondary NameNode工做

 

      a) Secondary NameNode詢問NameNode是否須要checkpoint直接帶回NameNode是否檢查結果。

 

      b) Secondary NameNode請求執行checkpoint。

 

      c) NameNode滾動正在寫的edits日誌

 

      d) 將滾動前的編輯日誌和鏡像文件拷貝到Secondary NameNode。

 

      e) Secondary NameNode加載編輯日誌和鏡像文件到內存,併合並。

 

      f) 生成新的鏡像文件fsimage.chkpoint。

 

      g) 拷貝fsimage.chkpointNameNode

 

      h) NameNodefsimage.chkpoint從新命名成fsimage。

 

NN2NN工做機制詳解:

fsimagenamenode內存中元數據序列化後造成的文件。

edits:記錄客戶端更新元數據信息的每一步操做(可經過Edits運算出元數據)。

namenode啓動時,先滾動edits並生成一個空的edits.inprogress,而後加載edits(歸檔後的)和fsimage(最新的)到內存中,此時namenode內存就持有最新的元數據信息。client開始對namenode發送元數據的增刪改查的請求,這些請求的操做首先會被記錄在edits.inprogress中(查詢元數據的操做不會被記錄在edits中,由於查詢操做不會更改元數據信息),若是此時namenode掛掉,重啓後會從edits中讀取元數據的信息。而後,namenode會在內存中執行元數據的增刪改查的操做。

因爲edits中記錄的操做會愈來愈多,edits文件會愈來愈大,致使namenode在啓動加載edits時會很慢,因此須要對editsfsimage進行合併(所謂合併,就是將editsfsimage加載到內存中,照着edits中的操做一步步執行,最終造成新的fsimage)。Secondarynamenode:幫助namenode進行editsfsimage的合併工做。

secondarynamenode首先會詢問namenode是否須要checkpoint(觸發checkpoint須要知足兩個條件中的任意一個,定時時間到和edits中數據寫滿了)直接帶回namenode是否檢查結果。secondarynamenode執行checkpoint操做,首先會讓namenode滾動edits並生成一個空的edits.inprogress,滾動edits的目的是給edits打個標記,之後全部新的操做都寫入edits.inprogress,其餘未合併的editsfsimage會拷貝到secondarynamenode的本地,而後將拷貝的editsfsimage加載到內存中進行合併,生成fsimage.chkpoint,而後將fsimage.chkpoint拷貝給namenode,重命名爲fsimage後替換掉原來的fsimagenamenode在啓動時就只須要加載以前未合併的editsfsimage便可,由於合併過的edits中的元數據信息已經被記錄在fsimage中。

 

 

6、DataName工做機制

            

 

 

 

    (1) 一個數據塊在DataNode上以文件形式存儲在磁盤上,包括兩個文件,一個是數據自己,一個是元數據包括數據塊的長度,塊數據校驗和,以及時間戳

    (2) DataNode啓動後向NameNode註冊,經過後,週期性(1小時NameNode上報全部的塊信息。

    (3) 心跳是每3一次,心跳返回結果帶有NameNode給該DataNode的命令如複製塊數據到另外一臺機器,或刪除某個數據塊若是超過10分鐘沒有收到某個DataNode的心跳,則認爲該節點不可用。

 

 

今天的hdfs的分享就到這裏了,下次會分享MapReduce和Yarn的知識。天天進步一點點,你們一塊兒加油。

相關文章
相關標籤/搜索