HBase二級索引的設計(案例講解)

時間 2019-12-01

標籤 hbase 二級索引設計案例講解欄目 Hadoop 简体版

原文原文鏈接

摘要工具

最近作的一個項目涉及到了多條件的組合查詢，數據存儲用的是HBase，偏偏HBase對於這種場景的查詢特別不給力，通常HBase的查詢都是經過RowKey(要把多條件組合查詢的字段都拼接在RowKey中顯然不太可能)，或者全表掃描再結合過濾器篩選出目標數據(過低效)，因此經過設計HBase的二級索引來解決這個問題spa

查詢需求設計

多個查詢條件構成多維度的組合查詢，須要根據不一樣組合查詢出符合查詢條件的數據排序

HBase的侷限性

HBase自己只提供基於行鍵和全表掃描的查詢，而行鍵索引單一，對於多維度的查詢困難(如：對於價格+天數+酒店+交通的多條件組合查詢困難)，全表掃描效率低下。索引

二級索引的設計

設計思路io

（圖1）設計思路效率

二級索引的本質就是創建各列值與行鍵之間的映射關係im

如(圖1)，當要對F:C1這列創建索引時，只須要創建F:C1各列值到其對應行鍵的映射關係，如C11->RK1等，這樣就完成了對F:C1列值的二級索引的構建，當要查詢符合F:C1=C11對應的F:C2的列值時（即根據 C1=C11來查詢C2的值,圖1青色部分）其查詢步驟以下： 1. 根據C1=C11到索引數據中查找其對應的RK，查詢獲得其對應的RK=RK1 2. 獲得RK1後就天然能根據RK1來查詢C2的值了這是構建二級索引大概思路，其餘組合查詢的聯合索引的創建也相似。數據

邏輯視圖項目

(圖2) 部分數據在HBase中存儲的邏輯視圖

表中有兩個列族，其中一個是列族 INDEX，其並不存儲任何的數據，僅僅是爲了將索引數據與主數據分開存儲（由於在HBase中同一列族的數據會被壓縮在一塊兒存儲），索引數據的行鍵格式爲：RegionStartKey-索引名-索引鍵-Rowkwy,其餘RegionStartKey就是出發點，由於在建立HBase表時就對錶根據出發點進行了預分區，索引鍵爲主數據中某列(多是多列)的列值，Rowkey對應主數據的行鍵；主數據的行鍵格式爲：出發點-目的地-性價比，因此在存儲數據時，同一出發點目的地的數據默認是按性價比排序的；索引數據的行鍵和主數據的行鍵的前綴都是出發點，因此在存儲時相同出發點的索引數據和主數據是存儲在同一個 Region中的，這樣避免了在經過索引獲得RK後又去其餘Region上查詢目標數據，提升了查詢效率。