漫談數據倉庫之拉鍊表（原理、設計以及在Hive中的實現）

時間 2019-12-05

標籤漫談數據倉庫鏈表原理設計以及 hive 實現欄目 Hadoop 简体版

原文原文鏈接

0x00 前言

本文將會談一談在數據倉庫中拉鍊表相關的內容，包括它的原理、設計、以及在咱們大數據場景下的實現方式。sql

全文由下面幾個部分組成：數據庫

先分享一下拉鍊表的用途、什麼是拉鍊表。
經過一些小的使用場景來對拉鍊表作近一步的闡釋，以及拉鍊表和經常使用的切片表的區別。
舉一個具體的應用場景，來設計並實現一份拉鍊表，最後並經過一些例子說明如何使用咱們設計的這張表（由於如今Hive的大規模使用，咱們會以Hive場景下的設計爲例）。
分析一下拉鍊表的優缺點，並對前面的提到的一些內容進行補充說明，好比說拉鍊表和流水錶的區別。

0x01 什麼是拉鍊表

拉鍊表是針對數據倉庫設計中表存儲數據的方式而定義的，顧名思義，所謂拉鍊，就是記錄歷史。記錄一個事物從開始，一直到當前狀態的全部變化的信息。架構

咱們先看一個示例，這就是一張拉鍊表，存儲的是用戶的最基本信息以及每條記錄的生命週期。咱們可使用這張表拿到最新的當天的最新數據以及以前的歷史數據。oop

註冊日期	用戶編號	手機號碼	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	432432	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31

咱們暫且不對這張表作細緻的講解，後文會專門來闡述怎麼來設計、實現和使用它。性能

拉鍊表的使用場景

在數據倉庫的數據模型設計過程當中，常常會遇到下面這種表的設計：大數據

有一些表的數據量很大，好比一張用戶表，大約10億條記錄，50個字段，這種表，即便使用ORC壓縮，單張表的存儲也會超過100G，在HDFS使用雙備份或者三備份的話就更大一些。
表中的部分字段會被update更新操做，如用戶聯繫方式，產品的描述信息，訂單的狀態等等。
須要查看某一個時間點或者時間段的歷史快照信息，好比，查看某一個訂單在歷史某一個時間點的狀態。
表中的記錄變化的比例和頻率不是很大，好比，總共有10億的用戶，天天新增和發生變化的有200萬左右，變化的比例佔的很小。

那麼對於這種表我該如何設計呢？下面有幾種方案可選：優化

方案一：天天只留最新的一份，好比咱們天天用Sqoop抽取最新的一份全量數據到Hive中。
方案二：天天保留一份全量的切片數據。
方案三：使用拉鍊表。

爲何使用拉鍊表

如今咱們對前面提到的三種進行逐個的分析。網站

方案一spa

這種方案就不用多說了，實現起來很簡單，天天drop掉前一天的數據，從新抽一份最新的。設計

優勢很明顯，節省空間，一些普通的使用也很方便，不用在選擇表的時候加一個時間分區什麼的。

缺點一樣明顯，沒有歷史數據，先翻翻舊帳只能經過其它方式，好比從流水錶裏面抽。

方案二

天天一份全量的切片是一種比較穩妥的方案，並且歷史數據也在。

缺點就是存儲空間佔用量太大太大了，若是對這邊表天天都保留一份全量，那麼每次全量中會保存不少不變的信息，對存儲是極大的浪費，這點我感觸仍是很深的......

固然咱們也能夠作一些取捨，好比只保留近一個月的數據？可是，需求是無恥的，數據的生命週期不是咱們能徹底左右的。

拉鍊表

拉鍊表在使用上基本兼顧了咱們的需求。

首先它在空間上作了一個取捨，雖然說不像方案一那樣佔用量那麼小，可是它每日的增量可能只有方案二的千分之一甚至是萬分之一。

其實它能知足方案二所能知足的需求，既能獲取最新的數據，也能添加篩選條件也獲取歷史的數據。

因此咱們仍是頗有必要來使用拉鍊表的。

0x02 拉鍊表的設計和實現

如何設計一張拉鍊表

下面咱們來舉個栗子詳細看一下拉鍊表。

咱們接上在《漫談數據倉庫之維度建模》中的電商網站的例子，如今以用戶的拉鍊表來講明。

咱們先看一下在Mysql關係型數據庫裏的user表中信息變化。

在2017-01-01這一天表中的數據是：

註冊日期	用戶編號	手機號碼
2017-01-01	001	111111
2017-01-01	002	222222
2017-01-01	003	333333
2017-01-01	004	444444

在2017-01-02這一天表中的數據是，用戶002和004資料進行了修改，005是新增用戶：

註冊日期	用戶編號	手機號碼	備註
2017-01-01	001	111111
2017-01-01	002	233333	（由222222變成233333）
2017-01-01	003	333333
2017-01-01	004	432432	（由444444變成432432）
2017-01-02	005	555555	（2017-01-02新增）

在2017-01-03這一天表中的數據是，用戶004和005資料進行了修改，006是新增用戶：

註冊日期	用戶編號	手機號碼	備註
2017-01-01	001	111111
2017-01-01	002	233333
2017-01-01	003	333333
2017-01-01	004	654321	（由432432變成654321）
2017-01-02	005	115115	（由555555變成115115）
2017-01-03	006	666666	（2017-01-03新增）

若是在數據倉庫中設計成歷史拉鍊表保存該表，則會有下面這樣一張表，這是最新一天（即2017-01-03）的數據：

註冊日期	用戶編號	手機號碼	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	654321	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31

說明

t_start_date表示該條記錄的生命週期開始時間，t_end_date表示該條記錄的生命週期結束時間。
t_end_date = '9999-12-31'表示該條記錄目前處於有效狀態。
若是查詢當前全部有效的記錄，則select * from user where t_end_date = '9999-12-31'。
若是查詢2017-01-02的歷史快照，則select from user where t_start_date <= '2017-01-02' and t_end_date >= '2017-01-02'。（*此處要好好理解，是拉鍊表比較重要的一塊。**）

在Hive中實現拉鍊表

在如今的大數據場景下，大部分的公司都會選擇以Hdfs和Hive爲主的數據倉庫架構。目前的Hdfs版原本講，其文件系統中的文件是不能作改變的，也就是說Hive的表智能進行刪除和添加操做，而不能進行update。基於這個前提，咱們來實現拉鍊表。

仍是以上面的用戶表爲例，咱們要實現用戶的拉鍊表。在實現它以前，咱們須要先肯定一下咱們有哪些數據源能夠用。

咱們須要一張ODS層的用戶全量表。至少須要用它來初始化。
每日的用戶更新表。

並且咱們要肯定拉鍊表的時間粒度，好比說拉鍊表天天只取一個狀態，也就是說若是一天有3個狀態變動，咱們只取最後一個狀態，這種天粒度的表其實已經能解決大部分的問題了。

另外，補充一下每日的用戶更新表該怎麼獲取，據筆者的經驗，有3種方式拿到或者間接拿到每日的用戶增量，由於它比較重要，因此詳細說明：

咱們能夠監聽Mysql數據的變化，好比說用Canal，最後合併每日的變化，獲取到最後的一個狀態。
假設咱們天天都會得到一份切片數據，咱們能夠經過取兩天切片數據的不一樣來做爲每日更新表，這種狀況下咱們能夠對全部的字段先進行concat，再取md5，這樣就ok了。
流水錶！有每日的變動流水錶。

ods層的user表

如今咱們來看一下咱們ods層的用戶資料切片表的結構：

CREATE EXTERNAL TABLE ods.user (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '註冊日期'
COMMENT '用戶資料表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user';
)

ods層的user_update表

而後咱們還須要一張用戶每日更新表，前面已經分析過該若是獲得這張表，如今咱們假設它已經存在。

CREATE EXTERNAL TABLE ods.user_update (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '註冊日期'
COMMENT '每日用戶資料更新表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user_update';
)

拉鍊表

如今咱們建立一張拉鍊表：

CREATE EXTERNAL TABLE dws.user_his (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '用戶編號',
  t_start_date ,
  t_end_date
COMMENT '用戶資料拉鍊表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/dws/user_his';
)

實現sql語句

而後初始化的sql就不寫了，其實就至關因而拿一天的ods層用戶表過來就行，咱們寫一下每日的更新語句。

如今咱們假設咱們已經已經初始化了2017-01-01的日期，而後須要更新2017-01-02那一天的數據，咱們有了下面的Sql。

而後把兩個日期設置爲變量就能夠了。

INSERT OVERWRITE TABLE dws.user_his
SELECT * FROM
(
    SELECT A.user_num,
           A.mobile,
           A.reg_date,
           A.t_start_time,
           CASE
                WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01'
                ELSE A.t_end_time
           END AS t_end_time
    FROM dws.user_his AS A
    LEFT JOIN ods.user_update AS B
    ON A.user_num = B.user_num
UNION
    SELECT C.user_num,
           C.mobile,
           C.reg_date,
           '2017-01-02' AS t_start_time,
           '9999-12-31' AS t_end_time
    FROM ods.user_update AS C
) AS T