HBase(六): HBase體系結構剖析（上)

時間 2019-12-25

標籤 hbase 體系結構剖析欄目 Hadoop 简体版

原文原文鏈接

HBase隸屬於hadoop生態系統，它參考了谷歌的BigTable建模，實現的編程語言爲 Java, 創建在hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。它僅能經過主鍵(row key)和主鍵的range來檢索數據，主要用來存儲非結構化和半結構化的鬆散數據。與hadoop同樣，Hbase目標主要依靠橫向擴展，經過不斷增長廉價的商用服務器，來增長計算和存儲能力。Hbase數據庫中的表通常有這樣的特色： html

大：一個表能夠有上億行，上百萬列
面向列: 面向列(族)的存儲和權限控制，列(族)獨立檢索
稀疏: 對於爲空(null)的列，並不佔用存儲空間，所以，表能夠設計的很是稀疏

目錄：算法

系統架構
數據模型
RegionServer
nameSpace
HBase尋址

系統架構：數據庫

HBase採用Master/Slave架構搭建集羣，由HMaster節點、HRegionServer節點、ZooKeeper集羣組成，而在底層，它將數據存儲於HDFS中，於是涉及到HDFS的NN、DN等，整體結構以下（注意：在hadoop(四): 本地 hbase 集羣配置 Azure Blob Storage 介紹過，也能夠將底層的存儲配置爲 Azure Blob Storage 或 Amazon Web Services），圖A較清楚表達各組件之間的訪問及內部實現邏輯，圖B更直觀表達hbase 與 hadoop hdfs 部署結構及 hadoop NN 和 HMaster 的 SPOF 解決方案
架構圖A 架構圖B
Client的主要功能：

1. 使用HBase的RPC機制與HMaster和HRegionServer進行通訊
2. 對於管理類操做，Client與HMaster進行RPC
3. 對於數據讀寫類操做，Client與HRegionServer進行RPC

Zookeeper功能：

經過選舉，保證任什麼時候候，集羣中只有一個master，Master與RegionServers 啓動時會向ZooKeeper註冊
實時監控Region server的上線和下線信息,並實時通知給Master
存貯全部Region的尋址入口和HBase的schema和table元數據
Zookeeper的引入實現HMaster主從節點的failover
詳細工做原理以下圖：
2. 在HMaster和HRegionServer鏈接到ZooKeeper後建立Ephemeral節點，並使用Heartbeat機制維持這個節點的存活狀態，若是某個Ephemeral節點失效，則HMaster會收到通知，並作相應的處理
3. HMaster經過監聽ZooKeeper中的Ephemeral節點(默認：/hbase/rs/*)來監控HRegionServer的加入和宕機
4. 在第一個HMaster鏈接到ZooKeeper時會建立Ephemeral節點(默認：/hbasae/master)來表示Active的HMaster，其後加進來的HMaster則監聽該Ephemeral節點，若是當前Active的HMaster宕機，則該節點消失，於是其餘HMaster獲得通知，而將自身轉換成Active的HMaster，在變爲Active的HMaster以前，它會建立在/hbase/back-masters/下建立本身的Ephemeral節點

HMaster功能：

管理HRegionServer，實現其負載均衡
管理和分配HRegion，好比在HRegion split時分配新的HRegion；在HRegionServer退出時遷移其內的HRegion到其餘HRegionServer上
監控集羣中全部HRegionServer的狀態(經過Heartbeat和監聽ZooKeeper中的狀態)
處理schema更新請求 (建立、刪除、修改Table的定義）, 以下圖：

HRegionServer功能：

1. Region server維護Master分配給它的region，處理對這些region的IO請求
2. Region server負責切分在運行過程當中變得過大的region

小結：

client訪問hbase上數據的過程並不須要master參與（尋址訪問zookeeper，數據讀寫訪問regione server），master僅僅維護者table和region的元數據信息，負載很低
HRegion所處理的數據儘可能和數據所在的DataNode在一塊兒，實現數據的本地化

數據模型：編程

Table: 與傳統關係型數據庫相似，HBase以表(Table)的方式組織數據，應用程序將數據存入HBase表中
Row: HBase表中的行經過 RowKey 進行惟一標識，不管是數字仍是字符串，最終都會轉換成字段數據進行存儲；HBase表中的行是按RowKey字典順序排列
Column Family: HBase表由行和列共同組織，同時引入列族的概念，它將一列或多列組織在一塊兒，HBase的列必須屬於某一個列族，在建立表時只需指定表名和至少一個列族
Cell: 行和列的交叉點稱爲單元格，單元格的內容就是列的值，以二進制形式存儲，同時它是版本化的
version: 每一個cell的值可保存數據的多個版本（到底支持幾個版本可在建表時指定），按時間順序倒序排列，時間戳是64位的整數，可在寫入數據時賦值，也可由RegionServer自動賦值
注意：

1. HBase沒有數據類型，任何列值都被轉換成字符串進行存儲
2. 與關係型數據庫在建立表時需明確包含的列及類型不一樣，HBase表的每一行能夠有不一樣的列
3. 相同RowKey的插入操做被認爲是同一行的操做。即相同RowKey的二次寫入操做，第二次可被可爲是對該行某些列的更新操做
4. 列由列族和列名鏈接而成，分隔符是冒號，如 d:Name （d: 列族名， Name: 列名）

以一個示例來講明關係型數據表和HBase表各自的解決方案（示例：博文及做者），關係型數據庫表結構設計及數據以下圖：
（表結構設計）（示例數據）
用HBase設計表結構以下圖：
存儲示例數據以下：
小結：

HBase不支持條件查詢和Order by等查詢，讀取記錄只能按Row key（及其range）或全表掃描
在表建立時只需聲明表名和至少一個列族名，每一個Column Family爲一個存儲單元，在下節物理模型會詳細介紹
在上例中設計了一個HBase表blog，該表有兩個列族：article和author，但在實際應用中強烈建議使用單列族
Column不用建立表時定義即能夠動態新增，同一Column Family的Columns會羣聚在一個存儲單元上，並依Column key排序，所以設計時應將具備相同I/O特性的Column設計在一個Column Family上以提升性能。注意：這個列是能夠增長和刪除的，這和咱們的傳統數據庫很大的區別。因此他適合非結構化數據
HBase經過row和column肯定一份數據，這份數據的值可能有多個版本，不一樣版本的值按照時間倒序排序，即最新的數據排在最前面，查詢時默認返回最新版本。如上例中row key=1的author:nickname值有兩個版本，分別爲1317180070811對應的「一葉渡江」和1317180718830對應的「yedu」（對應到實際業務能夠理解爲在某時刻修改了nickname爲yedu，但舊值仍然存在）。Timestamp默認爲系統當前時間（精確到毫秒），也能夠在寫入數據時指定該值
每一個單元格值經過4個鍵惟一索引，tableName+RowKey+ColumnKey+Timestamp=>value，例如上例中{tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}索引到的惟一值是「yedu」
存儲類型

- TableName 是字符串
- RowKey 和 ColumnName 是二進制值（Java 類型 byte[]）
- Timestamp 是一個 64 位整數（Java 類型 long）
- value 是一個字節數組（Java類型 byte[]）

RegionServer:數組

HRegionServer通常和DN在同一臺機器上運行，實現數據的本地性，如圖B。HRegionServer包含多個HRegion，由WAL(HLog)、BlockCache、MemStore、HFile組成，如圖A，其中圖A是0.94-的架構圖，圖B是0.96+的新架構圖
圖A 圖B
WAL(Write Ahead Log)：它是HDFS上的一個文件，全部寫操做都會先保證將數據寫入這個Log文件後，纔會真正更新MemStore，最後寫入HFile中
採用這種模式，能夠保證HRegionServer宕機後，依然能夠從該Log文件中讀取數據，Replay全部的操做，來保證數據的一致性
一個HRegionServer只有一個WAL實例，即一個HRegionServer的全部WAL寫都是串行，這固然會引發性能問題，在HBase 1.0以後，經過HBASE-5699實現了多個WAL並行寫(MultiWAL)，該實現採用HDFS的多個管道寫，以單個HRegion爲單位
Log文件會按期Roll出新的文件而刪除舊的文件(那些已持久化到HFile中的Log能夠刪除)。WAL文件存儲在/hbase/WALs/${HRegionServer_Name}的目錄中
BlockCache（圖B）：是一個讀緩存，將數據預讀取到內存中，以提高讀的性能
HBase中提供兩種BlockCache的實現：默認on-heap LruBlockCache和BucketCache(一般是off-heap)。一般BucketCache的性能要差於LruBlockCache，然而因爲GC的影響，LruBlockCache的延遲會變的不穩定，而BucketCache因爲是本身管理BlockCache，而不須要GC，於是它的延遲一般比較穩定，這也是有些時候須要選用BucketCache的緣由
HRegion:是一個Table中的一個Region在一個HRegionServer中的表達,是Hbase中分佈式存儲和負載均衡的最小單元
一個Table擁有一個或多個Region，分佈在一臺或多臺HRegionServer上
一臺HRegionServer包含多個HRegion，能夠屬於不一樣的Table
見圖A，HRegion由多個Store(HStore)構成，每一個HStore對應了一個Table在這個HRegion中的一個Column Family，即每一個Column Family就是一個集中的存儲單元
HStore是HBase中存儲的核心，它實現了讀寫HDFS功能，一個HStore由一個MemStore 和0個或多個StoreFile組成
MemStore：是一個寫緩存(In Memory Sorted Buffer)，全部數據的寫在完成WAL日誌寫後，會寫入MemStore中，由MemStore根據必定的算法將數據Flush到底層HDFS文件中(HFile)，一般每一個HRegion中的每一個 Column Family有一個本身的MemStore
HFile(StoreFile)： 用於存儲HBase的數據(Cell/KeyValue)。在HFile中的數據是按RowKey、Column Family、Column排序，對相同的Cell(即這三個值都同樣)，則按timestamp倒序排列
小結：

1. Table中的全部行都按照row key的字典序排列，Table 在行的方向上分割爲多個Hregion，以下圖A
2. region按大小分割的，每一個表一開始只有一個region，隨着數據不斷插入表，region不斷增大，當增大到一個閥值的時候，Hregion就會等分會兩個新的Hregion，以下圖B
4. 圖A 圖B
5. HRegion是Hbase中分佈式存儲和負載均衡的最小單元。最小單元就表示不一樣的Hregion能夠分佈在不一樣的HRegion server上。但一個Hregion是不會拆分到多個server上的，以下圖
7. HRegion雖然是分佈式存儲的最小單元，但並非存儲的最小單元。事實上，HRegion由一個或者多個Store組成，每一個store保存一個columns family，每一個Strore又由一個memStore和0至多個StoreFile組成，以下圖，說明：StoreFile以HFile格式保存在HDFS上

nameSpace：緩存

在HBase中，namespace命名空間指對一組表的邏輯分組，相似RDBMS中的database，方便對錶在業務上劃分。
Apache HBase從0.98.0, 0.95.2兩個版本開始支持namespace級別的受權操做，HBase全局管理員能夠建立、修改和回收namespace的受權
HBase系統默認定義了兩個缺省的namespace，見以下圖的目錄結構：

1. hbase：系統內建表，包括namespace和meta表
2. default：用戶建表時未指定namespace的表都建立在此

HBase尋址：服務器

本節主要討論的問題：Client訪問用戶數據時如何找到某個row key所在的region？
0.94- 版本 Client訪問用戶數據以前須要首先訪問zookeeper，而後訪問-ROOT-表，接着訪問.META.表，最後才能找到用戶數據的位置去訪問，中間須要屢次網絡操做，以下圖：
0.96+ 刪除了root 表，改成zookeeper裏面的文件，以下圖 A，以讀爲例，尋址示意圖如B
圖A 圖B
思考：若是root表信息存儲在zookeeper文件，集羣重建後，文件是如何還原？

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。