HBase ——Hadoop Database,是一個高可靠、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。前端
HBase是Google Bigtable的開源實現,相似Google Bigtable利用GFS做爲其文件存儲系統,HBase 利用Hadoop HDFS做爲其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據,HBase一樣利用Hadoop MapReduce來處理HBase中的海量數據;Google BigTable利用Chubby做爲協同服務,HBase使用的是Zookeeper做爲對應。數據庫
HBase位於結構化存儲層,HDFS爲HBase提供了高可靠性的底層存儲支持,MapReduce爲HBase提供了高性能的計算能力,Zookeeper爲HBase提供了穩定服務和failover機制。apache
此外,Pig和Hive爲Hbase提供了高層語言支持,使得在HBase上進行數據統計處理變得簡單。
Sqoop則爲HBase提供了方便的RDBMS數據導入功能。編程
HBase官網: http://hbase.apache.org/緩存
當Table隨着記錄數不斷增長而變大後,會逐漸分裂成多份splits,成爲regions,一個region由[startkey,endkey)表示,不一樣region會被Master分配給相應的RegionServer進行管理。
安全
HBase中有兩張特殊的Table, -ROOT- 和 .META.
- .META. :記錄了用戶表的Region信息,.META.能夠有多個region
- -ROOT-:記錄了.META.表的Region信息,-ROOT-只有一個region
- Zookeeper中記錄了-ROOT-表的location
Client訪問用戶數據以前須要先訪問zookeeper,而後訪問-ROOT-表,接着訪問.META.表,最後才能找到用戶數據的位置去訪問,中間須要屢次網絡操做,不過client端會作cache緩存。網絡
摘要: 從HBase的架構圖上能夠看出,HBase中的存儲包括HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,本篇文章統一介紹他們的做用即存儲結構。 架構
從HBase的架構圖上能夠看出,HBase中的存儲包括HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,本篇文章統一介紹他們的做用即存儲結構。併發
如下是網絡上流傳的HBase存儲架構圖:負載均衡
HBase中的每張表都經過行鍵按照必定的範圍被分割成多個子表(HRegion),默認一個HRegion超過256M就要被分割成兩個,這個過程由HRegionServer管理,而HRegion的分配由HMaster管理。
能夠看到,client訪問hbase上的數據並不須要master參與(尋址訪問zookeeper和region server,數據讀寫訪問region server),master僅僅維護table和region的元數據信息(table的元數據信息保存在zookeeper上),負載很低。
HRegionServer存取一個子表時,會建立一個HRegion對象,而後對錶的每一個列族建立一個Store實例,每一個Store都會有一個MemStore和0個或多個StoreFile與之對應,每一個StoreFile都會對應一個HFile, HFile就是實際的存儲文件。所以,一個HRegion有多少個列族就有多少個Store。
一個HRegionServer會有多個HRegion和一個HLog。
table在行的方向上分隔爲多個Region。Region是HBase中分佈式存儲和負載均衡的最小單元,即不一樣的region能夠分別在不一樣的Region Server上,但同一個Region是不會拆分到多個server上。
Region按大小分隔,每一個表一行是隻有一個region。隨着數據不斷插入表,region不斷增大,當region的某個列族達到一個閾值(默認256M)時就會分紅兩個新的region。
每一個region由如下信息標識:
HRegion定位:
Region被分配給哪一個Region Server是徹底動態的,因此須要機制來定位Region具體在哪一個region server。
HBase使用三層結構來定位region:
-ROOT-表永遠不會被分隔爲多個region,保證了最多須要三次跳轉,就能定位到任意的region。client會講查詢的位置信息保存緩存起來,緩存不會主動失效,所以若是client上的緩存所有失效,則須要進行6次網絡來回,才能定位到正確的region,其中蠶絲用來發現緩存失效,另外三次用來獲取位置信息。
每個region有一個或多個store組成,至少是一個store,hbase會把一塊兒訪問的數據放在一個store裏面,即爲每一個ColumnFamily建一個store,若是有幾個ColumnFamily,也就有幾個Store。一個Store由一個memStore和0或者多個StoreFile組成。
HBase以store的大小來判斷是否須要切分region。
memStore 是放在內存裏的。保存修改的數據即keyValues。當memStore的大小達到一個閥值(默認64MB)時,memStore會被flush到文件,即生成一個快照。目前hbase 會有一個線程來負責memStore的flush操做。
memStore內存中的數據寫到文件後就是StoreFile,StoreFile底層是以HFile的格式保存。
HBase中KeyValue數據的存儲格式,是hadoop的二進制格式文件。
首先HFile文件是不定長的,長度固定的只有其中的兩塊:Trailer和FileInfo。Trailer中又指針指向其餘數據塊的起始點,FileInfo記錄了文件的一些meta信息。
Data Block是hbase io的基本單元,爲了提升效率,HRegionServer中又基於LRU的block cache機制。每一個Data塊的大小能夠在建立一個Table的時候經過參數指定(默認塊大小64KB),大號的Block有利於順序Scan,小號的Block利於隨機查詢。每一個Data塊除了開頭的Magic之外就是一個個KeyValue對拼接而成,Magic內容就是一些隨機數字,目的是煩着數據損壞,結構以下。
HFile結構圖以下:
Data Block段用來保存表中的數據,這部分能夠被壓縮。
Meta Block段(可選的)用來保存用戶自定義的kv段,能夠被壓縮。
FileInfo段用來保存HFile的元信息,本能被壓縮,用戶也能夠在這一部分添加本身的元信息。
Data Block Index段(可選的)用來保存Meta Blcok的索引。
Trailer這一段是定長的。保存了每一段的偏移量,讀取一個HFile時,會首先讀取Trailer,Trailer保存了每一個段的起始位置(段的Magic Number用來作安全check),而後,DataBlock Index會被讀取到內存中,這樣,當檢索某個key時,不須要掃描整個HFile,而只需從內存中找到key所在的block,經過一次磁盤io將整個 block讀取到內存中,再找到須要的key。DataBlock Index採用LRU機制淘汰。
HFile的Data Block,Meta Block一般採用壓縮方式存儲,壓縮以後能夠大大減小網絡IO和磁盤IO,隨之而來的開銷固然是須要花費cpu進行壓縮和解壓縮。目標HFile的壓縮支持兩種方式:gzip、lzo。
另外,針對目前針對現有HFile的兩個主要缺陷:
提出了HFile Version2設計:https://issues.apache.org/jira/secure/attachment/12478329/hfile_format_v2_design_draft_0.1.pdf
其實HLog文件就是一個普通的Hadoop Sequence File, Sequence File的value是key時HLogKey對象,其中記錄了寫入數據的歸屬信息,除了table和region名字外,還同時包括sequence number和timestamp,timestamp是寫入時間,equence number的起始值爲0,或者是最近一次存入文件系統中的equence number。
Sequence File的value是HBase的KeyValue對象,即對應HFile中的KeyValue。
HLog(WAL log):WAL意爲write ahead log,用來作災難恢復使用,HLog記錄數據的全部變動,一旦region server 宕機,就能夠從log中進行恢復。
LogFlusher
前面提到,數據以KeyValue形式到達HRegionServer,將寫入WAL,以後,寫入一個SequenceFile。看過去沒問題,可是由於數據流在寫入文件系統時,常常會緩存以提升性能。這樣,有些本覺得在日誌文件中的數據實際在內存中。這裏,咱們提供了一個LogFlusher的類。它調用HLog.optionalSync(),後者根據hbase.regionserver.optionallogflushinterval
(默認是10秒),按期調用Hlog.sync()。另外,HLog.doWrite()也會根據 hbase.regionserver.flushlogentries
(默認100秒)按期調用Hlog.sync()。Sync() 自己調用HLog.Writer.sync(),它由SequenceFileLogWriter實現。
LogRoller
Log的大小經過$HBASE_HOME/conf/hbase-site.xml 的 hbase.regionserver.logroll.period
限制,默認是一個小時。因此每60分鐘,會打開一個新的log文件。長此以往,會有一大堆的文件須要維護。首先,LogRoller調用HLog.rollWriter(),定時滾動日誌,以後,利用HLog.cleanOldLogs()能夠清除舊的日誌。它首先取得存儲文件中的最大的sequence number,以後檢查是否存在一個log全部的條目的「sequence number」均低於這個值,若是存在,將刪除這個log。
每一個region server維護一個HLog,而不是每個region一個,這樣不一樣region(來自不一樣的table)的日誌會混在一塊兒,這樣作的目的是不斷追加單個文件相對於同時寫多個文件而言,能夠減小磁盤尋址次數,所以能夠提升table的寫性能。帶來麻煩的時,若是一個region server下線,爲了恢復其上的region,須要講region server上的log進行拆分,而後分發到其餘region server上進行恢復。