Hbase架構與原理

時間 2019-12-11

標籤 hbase 架構原理欄目 Hadoop 简体版

原文原文鏈接

Hbase架構與原理

HBase是一個分佈式的、面向列的開源數據庫，該技術來源於 Fay Chang所撰寫的Google論文「Bigtable：一個結構化數據的分佈式存儲系統」。就像Bigtable利用了Google文件系統（File System）所提供的分佈式數據存儲同樣，HBase在Hadoop之上提供了相似於Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不一樣於通常的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。另外一個不一樣的是HBase基於列的而不是基於行的模式。前端

一、Hadoop生太圈

hadoop全部應用都是構建於hdfs（它提供高可靠的底層存儲支持，幾乎已經成爲分佈式文件存儲系統事實上的工業標準）之上的分佈式列存儲系統，主要用於海量結構化數據存儲。經過Hadoop生態圈，能夠看到HBase的身影，可見HBase在Hadoop的生態圈是扮演這一個重要的角色那就是實時、分佈式、高維數據的數據存儲；linux

二、HBase簡介

– HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮、實時讀寫的分佈式數據庫
– 利用Hadoop HDFS做爲其文件存儲系統,利用Hadoop MapReduce來處理HBase中的海量數據,利用Zookeeper做爲其分佈式協同服務
– 主要用來存儲非結構化和半結構化的鬆散數據（列存NoSQL數據庫）shell

Hbase特性：數據庫

強一致性讀寫: HBase 不是 "最終一致性(eventually consistent)" 數據存儲這讓它很適合高速計數聚合類任務。
自動分片(Automatic sharding):HBase表經過region分佈在集羣中。數據增加時，region會自動分割並從新分佈。
RegionServer 自動故障轉移
Hadoop/HDFS 集成: HBase 支持本機外HDFS 做爲它的分佈式文件系統。
MapReduce: HBase 經過MapReduce支持大併發處理， HBase 能夠同時作源和目標.
Java 客戶端 API: HBase 支持易於使用的 Java API 進行編程訪問.
Thrift/REST API:HBase 也支持Thrift和 REST 做爲非Java 前端.
Block Cache 和 Bloom Filters: 對於大容量查詢優化， HBase支持 Block Cache 和 Bloom Filters。
運維管理: HBase提供內置網頁用於運維視角和JMX 度量.

三、HBase數據模型

以關係型數據的思惟下會感受，上面的表格是一個5列4行的數據表格，可是在HBase中這種理解是錯誤的，其實在HBase中上面的表格只是一行數據；編程

Row Key:數組

決定一行數據的惟一標識緩存
RowKey是按照字典順序排序的。服務器
Row key最多隻能存儲64k的字節數據。網絡

Column Family列族（CF一、CF二、CF3） & qualifier列：架構

HBase表中的每一個列都歸屬於某個列族，列族必須做爲表模式(schema) 定義的一部分預先給出。如create ‘test’, ‘course’；
列名以列族做爲前綴，每一個「列族」均可以有多個列成員(column，每一個列族中能夠存放幾千~上千萬個列)；如 CF1:q1, CF2:qw,新的列族成員（列）能夠隨後按需、動態加入，Family下面能夠有多個Qualifier，因此能夠簡單的理解爲，HBase中的列是二級列,也就是說Family是第一級列，Qualifier是第二級列。兩個是父子關係。
權限控制、存儲以及調優都是在列族層面進行的；
HBase把同一列族裏面的數據存儲在同一目錄下，由幾個文件保存。
目前爲止HBase的列族能可以很好處理最多不超過3個列族。

Timestamp時間戳：

在HBase每一個cell存儲單元對同一份數據有多個版本，根據惟一的時間戳來區分每一個版本之間的差別，不一樣版本的數據按照時間倒序排序，最新的數據版本排在最前面。
時間戳的類型是64位整型。
時間戳能夠由HBase(在數據寫入時自動)賦值，此時時間戳是精確到毫秒的當前系統時間。
時間戳也能夠由客戶顯式賦值，若是應用程序要避免數據版本衝突，就必須本身生成具備惟一性的時間戳。

Cell單元格：

由行和列的座標交叉決定；
單元格是有版本的（由時間戳來做爲版本）；
單元格的內容是未解析的字節數組（Byte[]），cell中的數據是沒有類型的，所有是字節碼形式存貯。
由{row key，column(= + )，version}惟一肯定的單元。

四、HBase體系架構

Client

包含訪問HBase的接口並維護cache來加快對HBase的訪問

Zookeeper

保證任什麼時候候，集羣中只有一個master
存貯全部Region的尋址入口。
實時監控Region server的上線和下線信息。並實時通知Master
存儲HBase的schema和table元數據

Master

爲Region server分配region
負責Region server的負載均衡
發現失效的Region server並從新分配其上的region
管理用戶對table的增刪改操做

RegionServer

Region server維護region，處理對這些region的IO請求
Region server負責切分在運行過程當中變得過大的region

HLog(WAL log)：

HLog文件就是一個普通的Hadoop Sequence File，Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數據的歸屬信息，除了table和 region名字外，同時還包括sequence number和timestamp，timestamp是」寫入時間」，sequence number的起始值爲0，或者是最近一次存入文件系統中sequence number。
HLog SequeceFile的Value是HBase的KeyValue對象，即對應HFile中的 KeyValue

Region

HBase自動把表水平劃分紅多個區域(region)，每一個region會保存一個表裏面某段連續的數據；每一個表一開始只有一個region，隨着數據不斷插入表，region不斷增大，當增大到一個閥值的時候，region就會等分會兩個新的region（裂變）；
當table中的行不斷增多，就會有愈來愈多的region。這樣一張完整的表被保存在多個Regionserver上。

Memstore 與 storefile

一個region由多個store組成，一個store對應一個CF（列族）
store包括位於內存中的memstore和位於磁盤的storefile寫操做先寫入memstore，當memstore中的數據達到某個閾值，hregionserver會啓動flashcache進程寫入storefile，每次寫入造成單獨的一個storefile
當storefile文件的數量增加到必定閾值後，系統會進行合併（minor、 major compaction），在合併過程當中會進行版本合併和刪除工做（majar），造成更大的storefile。
當一個region全部storefile的大小和超過必定閾值後，會把當前的region分割爲兩個，並由hmaster分配到相應的regionserver服務器，實現負載均衡。
客戶端檢索數據，先在memstore找，找不到再找storefile
HRegion是HBase中分佈式存儲和負載均衡的最小單元。最小單元就表示不一樣的HRegion能夠分佈在不一樣的HRegion server上。
HRegion由一個或者多個Store組成，每一個store保存一個columns family。
每一個Strore又由一個memStore和0至多個StoreFile組成。

5.Hbase優化

1.預先分區

默認狀況下，在建立 HBase 表的時候會自動建立一個 Region 分區，當導入數據的時候，全部的 HBase 客戶端都向這一個 Region 寫數據，直到這個 Region 足夠大了才進行切分。一種能夠加快批量寫入速度的方法是經過預先建立一些空的 Regions，這樣當數據寫入 HBase 時，會按照 Region 分區狀況，在集羣內作數據的負載均衡。

2.Rowkey優化

HBase 中 Rowkey 是按照字典序存儲，所以，設計 Rowkey 時，要充分利用排序特色，將常常一塊兒讀取的數據存儲到一塊，將最近可能會被訪問的數據放在一塊。

此外，Rowkey 如果遞增的生成，建議不要使用正序直接寫入 Rowkey，而是採用 reverse 的方式反轉Rowkey，使得 Rowkey 大體均衡分佈，這樣設計有個好處是能將 RegionServer 的負載均衡，不然容易產生全部新數據都在一個 RegionServer 上堆積的現象，這一點還能夠結合 table 的預切分一塊兒設計。

3.減小列族數量

不要在一張表裏定義太多的 ColumnFamily。目前 Hbase 並不能很好的處理超過 2~3 個 ColumnFamily 的表。由於某個 ColumnFamily 在 flush 的時候，它鄰近的 ColumnFamily 也會因關聯效應被觸發 flush，最終致使系統產生更多的 I/O。

4.緩存策略

建立表的時候，能夠經過 HColumnDescriptor.setInMemory(true) 將表放到 RegionServer 的緩存中，保證在讀取的時候被 cache 命中。

5.設置存儲生命期

建立表的時候，能夠經過 HColumnDescriptor.setTimeToLive(int timeToLive) 設置表中數據的存儲生命期，過時數據將自動被刪除。

6.硬盤配置

每臺 RegionServer 管理 10~1000 個 Regions，每一個 Region 在 1~2G，則每臺 Server 最少要 10G，最大要1000*2G=2TB，考慮 3 備份，則要 6TB。方案一是用 3 塊 2TB 硬盤，二是用 12 塊 500G 硬盤，帶寬足夠時，後者能提供更大的吞吐率，更細粒度的冗餘備份，更快速的單盤故障恢復。

7.分配合適的內存給RegionServer服務

在不影響其餘服務的狀況下，越大越好。例如在 HBase 的 conf 目錄下的 hbase-env.sh 的最後添加 export HBASE_REGIONSERVER_OPTS="-Xmx16000m$HBASE_REGIONSERVER_OPTS」

其中 16000m 爲分配給 RegionServer 的內存大小。

8.寫數據的備份數

備份數與讀性能成正比，與寫性能成反比，且備份數影響高可用性。有兩種配置方式，一種是將 hdfs-site.xml拷貝到 hbase 的 conf 目錄下，而後在其中添加或修改配置項 dfs.replication 的值爲要設置的備份數，這種修改對全部的 HBase 用戶表都生效，另一種方式，是改寫 HBase 代碼，讓 HBase 支持針對列族設置備份數，在建立表時，設置列族備份數，默認爲 3，此種備份數只對設置的列族生效。

9.WAL（預寫日誌）

可設置開關，表示 HBase 在寫數據前用不用先寫日誌，默認是打開，關掉會提升性能，可是若是系統出現故障(負責插入的 RegionServer 掛掉)，數據可能會丟失。配置 WAL 在調用 JavaAPI 寫入時，設置 Put 實例的WAL，調用 Put.setWriteToWAL(boolean)。

10. 批量寫

HBase 的 Put 支持單條插入，也支持批量插入，通常來講批量寫更快，節省來回的網絡開銷。在客戶端調用JavaAPI 時，先將批量的 Put 放入一個 Put 列表，而後調用 HTable 的 Put(Put 列表) 函數來批量寫。

11. 客戶端一次從服務器拉取的數量

經過配置一次拉去的較大的數據量能夠減小客戶端獲取數據的時間，可是它會佔用客戶端內存。有三個地方可進行配置：

1）在 HBase 的 conf 配置文件中進行配置 hbase.client.scanner.caching；

2）經過調用HTable.setScannerCaching(intscannerCaching) 進行配置；

3）經過調用Scan.setCaching(intcaching) 進行配置。三者的優先級愈來愈高。

12. RegionServer的請求處理I/O線程數

較少的 IO 線程適用於處理單次請求內存消耗較高的 Big Put 場景 (大容量單次 Put 或設置了較大 cache 的Scan，均屬於 Big Put) 或 ReigonServer 的內存比較緊張的場景。

較多的 IO 線程，適用於單次請求內存消耗低，TPS 要求 (每秒事務處理量 (TransactionPerSecond)) 很是高的場景。設置該值的時候，以監控內存爲主要參考。

在 hbase-site.xml 配置文件中配置項爲 hbase.regionserver.handler.count。

13. Region的大小設置

配置項爲 hbase.hregion.max.filesize，所屬配置文件爲 hbase-site.xml.，默認大小 256M。

在當前 ReigonServer 上單個 Reigon 的最大存儲空間，單個 Region 超過該值時，這個 Region 會被自動 split成更小的 Region。小 Region 對 split 和 compaction 友好，由於拆分 Region 或 compact 小 Region 裏的StoreFile 速度很快，內存佔用低。缺點是 split 和 compaction 會很頻繁，特別是數量較多的小 Region 不停地split, compaction，會致使集羣響應時間波動很大，Region 數量太多不只給管理上帶來麻煩，甚至會引起一些Hbase 的 bug。通常 512M 如下的都算小 Region。大 Region 則不太適合常常 split 和 compaction，由於作一次 compact 和 split 會產生較長時間的停頓，對應用的讀寫性能衝擊很是大。

此外，大 Region 意味着較大的 StoreFile，compaction 時對內存也是一個挑戰。若是你的應用場景中，某個時間點的訪問量較低，那麼在此時作 compact 和 split，既能順利完成 split 和 compaction，又能保證絕大多數時間平穩的讀寫性能。compaction 是沒法避免的，split 能夠從自動調整爲手動。只要經過將這個參數值調大到某個很難達到的值，好比 100G，就能夠間接禁用自動 split(RegionServer 不會對未到達 100G 的 Region 作split)。再配合 RegionSplitter 這個工具，在須要 split 時，手動 split。手動 split 在靈活性和穩定性上比起自動split 要高不少，並且管理成本增長很少，比較推薦 online 實時系統使用。內存方面，小 Region 在設置memstore 的大小值上比較靈活，大 Region 則過大太小都不行，過大會致使 flush 時 app 的 IO wait 增高，太小則因 StoreFile 過多影響讀性能。

14.操做系統參數

Linux系統最大可打開文件數通常默認的參數值是1024,若是你不進行修改併發量上來的時候會出現「Too Many Open Files」的錯誤，致使整個HBase不可運行，你能夠用ulimit -n 命令進行修改，或者修改/etc/security/limits.conf和/proc/sys/fs/file-max 的參數，具體如何修改能夠去Google 關鍵字「linux limits.conf 」

15.Jvm配置

修改 hbase-env.sh 文件中的配置參數，根據你的機器硬件和當前操做系統的JVM(32/64位)配置適當的參數

HBASE_HEAPSIZE 4000 HBase使用的 JVM 堆的大小

HBASE_OPTS "‐server ‐XX:+UseConcMarkSweepGC"JVM GC 選項

HBASE_MANAGES_ZKfalse 是否使用Zookeeper進行分佈式管理

16. 持久化

重啓操做系統後HBase中數據全無，你能夠不作任何修改的狀況下，建立一張表，寫一條數據進行，而後將機器重啓，重啓後你再進入HBase的shell中使用 list 命令查看當前所存在的表，一個都沒有了。是否是很杯具？沒有關係你能夠在hbase/conf/hbase-default.xml中設置hbase.rootdir的值，來設置文件的保存位置指定一個文件夾，例如： file:///you/hbase-data/path ，你創建的HBase中的表和數據就直接寫到了你的磁盤上，一樣你也能夠指定你的分佈式文件系統HDFS的路徑例如:hdfs://NAMENODE_SERVER:PORT/HBASE_ROOTDIR，這樣就寫到了你的分佈式文件系統上了。

17. 緩衝區大小

hbase.client.write.buffer

這個參數能夠設置寫入數據緩衝區的大小，當客戶端和服務器端傳輸數據，服務器爲了提升系統運行性能開闢一個寫的緩衝區來處理它，這個參數設置若是設置的大了，將會對系統的內存有必定的要求，直接影響系統的性能。

18. 掃描目錄表

hbase.master.meta.thread.rescanfrequency

定義多長時間HMaster對系統表 root 和 meta 掃描一次，這個參數能夠設置的長一些，下降系統的能耗。

19. split/compaction時間間隔

hbase.regionserver.thread.splitcompactcheckfrequency

這個參數是表示多久去RegionServer服務器運行一次split/compaction的時間間隔，固然split以前會先進行一個compact操做.這個compact操做多是minorcompact也多是major compact.compact後,會從全部的Store下的全部StoreFile文件最大的那個取midkey.這個midkey可能並不處於所有數據的mid中.一個row-key的下面的數據可能會跨不一樣的HRegion。

20. 緩存在JVM堆中分配的百分比

hfile.block.cache.size

指定HFile/StoreFile 緩存在JVM堆中分配的百分比，默認值是0.2，意思就是20%，而若是你設置成0，就表示對該選項屏蔽。

21. ZooKeeper客戶端同時訪問的併發鏈接數

hbase.zookeeper.property.maxClientCnxns

這項配置的選項就是從zookeeper中來的，表示ZooKeeper客戶端同時訪問的併發鏈接數，ZooKeeper對於HBase來講就是一個入口這個參數的值能夠適當放大些。

22. memstores佔用堆的大小參數配置

hbase.regionserver.global.memstore.upperLimit

在RegionServer中全部memstores佔用堆的大小參數配置，默認值是0.4，表示40%，若是設置爲0，就是對選項進行屏蔽。

23. Memstore中緩存寫入大小

hbase.hregion.memstore.flush.size

Memstore中緩存的內容超過配置的範圍後將會寫到磁盤上，例如：刪除操做是先寫入MemStore裏作個標記，指示那個value, column 或 family等下是要刪除的，HBase會按期對存儲文件作一個major compaction，在那時HBase會把MemStore刷入一個新的HFile存儲文件中。若是在必定時間範圍內沒有作major compaction，而Memstore中超出的範圍就寫入磁盤上了。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。