Hbase入門(三)——數據模型

時間 2019-11-08

標籤 hbase 入門數據模型欄目 Hadoop 简体版

原文原文鏈接

Hbase最核心但也是最難理解的就是數據模型，因爲與傳統的關係型數據庫不一樣，雖然Hbase也有表（Table），也有行（Row）和列（Column），可是與關係型數據庫不一樣的是Hbase有一個列族（Column Family）的概念，它將一列或者多列組織在一塊兒，HBase必須屬於某一個列族。css

行和列交叉點稱爲單元格（Cell），單元格時版本化的。單元格的內容，也就是列的值是不可分割的字節數組。html

HBase沒有數據類型，任何列值都被轉換成字節數組進行存儲。web

HBase表中的行是經過行鍵（Rowkey）進行區分的。行鍵也是用來惟一肯定一行的標識。數據庫

HBase中的行按Rowkey排序，排序方式採用字典順序。數組

這些都是HBase的邏輯結果，他的物理結構也和傳統關係型數據庫有很大不一樣。bash

邏輯模型

HBase的邏輯模型源自Google的BigTable模型。能夠理解爲一個稀疏的，長期存儲的，多維度的和排序的映射表。服務器

如下示例是 BigTable 論文第 2 頁上的一個略微修改的形式。有一個名爲webtable的表包含兩行（com.cnn.www和com.example.www）和三個列族，名爲contents，anchor和people。網站

在此示例中，對於第一行（com.cnn.www），anchor包含兩列（anchor:cssnsi.com，anchor:my.look.ca），contents包含一列（contents:html）。此示例包含具備行鍵com.cnn.www的行的 5 個版本，以及具備行鍵com.example.www的行的一個版本。 contents:html列限定符包含給定網站的整個HTML。 anchor列族的限定符每一個都包含指向該行所表明的站點的外部站點的連接，以及它在其連接的anchor中使用的文本。 people列系列表示與該站點關聯的人員。ui

此表中看起來爲空的單元格在 HBase 中不佔用空間，或實際上不存在。這就是HBase「稀疏」的緣由。表格視圖不是查看 HBase 中數據的惟一方法，甚至也不是最準確的方法。如下表示與多維映射相同的信息。這只是一個出於演示目的的模型，可能並不徹底準確。this

{
  "com.cnn.www": {
    contents: {
      t6: contents:html: "<html>..."
      t5: contents:html: "<html>..."
      t3: contents:html: "<html>..."
    }
    anchor: {
      t9: anchor:cnnsi.com = "CNN"
      t8: anchor:my.look.ca = "CNN.com"
    }
    people: {}
  }
  "com.example.www": {
    contents: {
      t5: contents:html: "<html>..."
    }
    anchor: {}
    people: {
      t5: people:author: "John Doe"
    }
  }
} 
複製代碼

物理模型

雖然Hbase表能夠看做一組稀疏的行，但在物理意義上它們是按照列族存儲的。因此列是能夠隨時添加的。

Hbase是面向列的，存放行的不一樣列的物理文件，一個列族存放在多個HFile中，最重要的是一個列族的數據會被同一個Region管理。

空單元格不佔據物理存儲空間。所以，在時間戳t8處對contents:html列的值的請求將不返回任何值。相似地，在時間戳t9處對anchor:my.look.ca值的請求將不返回任何值。可是，若是未提供時間戳，則將返回特定列的最新值。給定多個版本，最新版本也是第一個版本，由於時間戳按降序存儲。所以，若是沒有指定時間戳，則對行com.cnn.www中全部列的值的請求將是：來自時間戳t6的contents:html的值，來自時間戳t9的anchor:cnnsi.com的值，來自時間戳t8的anchor:my.look.ca。

數據模型操做

四個主要的數據模型操做是 Get，Put，Scan 和 Delete。經過實例化Table進行操做。

版本問題： Rowkey、Column（列族和列）、Version組合在一塊兒稱爲Hbase中的一個單元格。

Rowkey和Column的值是用字節數組表示的，Version則是用一個長整型表示的。

Get

操做返回指定行的屬性，Get是在Scan基礎上實現的。在默認狀況下，若是沒有指定版本，一旦使用Get操做，會返回最近版本的Cell。

要返回多個版本，須要設置Get.setMaxVersions（）

要返回最新版本之外的其餘版本，請參見 Get.setTimeRange（）

默認版本Get示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR);  // returns current version of value 
複製代碼

給定版本的Get示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Get get = new Get(Bytes.toBytes("row1"));
get.setMaxVersions(3);  // will return last 3 versions of row
Result r = table.get(get);
byte[] b = r.getValue(CF, ATTR);  // returns current version of value
List<KeyValue> kv = r.getColumn(CF, ATTR);  // returns all versions of this column 
複製代碼

PUT

執行 put 老是在某個時間戳建立cell的新版本。默認狀況下，系統使用服務器的currentTimeMillis，但您能夠在針對每一列指定版本（=長整數）。這意味着您能夠在過去或未來指定時間，或者將long值用於非時間目的。

隱式版本示例

HBase 將使用當前時間隱式地對如下 Put 進行版本控制。

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put(Bytes.toBytes(row));
put.add(CF, ATTR, Bytes.toBytes( data));
table.put(put); 
複製代碼

顯式版本示例

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...
Put put = new Put( Bytes.toBytes(row));
long explicitTimeInMs = 555;  // just an example
put.add(CF, ATTR, explicitTimeInMs, Bytes.toBytes(data));
table.put(put); 
複製代碼

DELETE

刪除經過 Table.delete]執行。

有三種不一樣類型的內部刪除標記。

刪除：對於特定版本的列。
刪除列：適用於列的全部版本。
刪除系列：適用於特定 ColumnFamily 的全部列

SCAN

掃描表

下面是對錶進行掃描的示例。假設一個表填充了具備鍵「row1」，「row2」，「row3」的行，而後另外一組是具備鍵「abc1」，「abc2」和「abc3」的行。如下示例將展現如何設置 Scan 實例以返回以「row」開頭的行。

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...

Table table = ...      // instantiate a Table instance

Scan scan = new Scan();
scan.addColumn(CF, ATTR);
scan.setRowPrefixFilter(Bytes.toBytes("row"));
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
    // process result...
  }
} finally {
  rs.close();  // always close the ResultScanner!
} 
複製代碼

更多實時計算，Hbase，Flink，Kafka等相關技術博文，歡迎關注實時流式計算