本文將會談一談在數據倉庫中拉鍊表相關的內容,包括它的原理、設計、以及在咱們大數據場景下的實現方式。sql
全文由下面幾個部分組成:數據庫
拉鍊表是針對數據倉庫設計中表存儲數據的方式而定義的,顧名思義,所謂拉鍊,就是記錄歷史。記錄一個事物從開始,一直到當前狀態的全部變化的信息。架構
咱們先看一個示例,這就是一張拉鍊表,存儲的是用戶的最基本信息以及每條記錄的生命週期。咱們可使用這張表拿到最新的當天的最新數據以及以前的歷史數據。oop
註冊日期 | 用戶編號 | 手機號碼 | t_start_date | t_end_date |
---|---|---|---|---|
2017-01-01 | 001 | 111111 | 2017-01-01 | 9999-12-31 |
2017-01-01 | 002 | 222222 | 2017-01-01 | 2017-01-01 |
2017-01-01 | 002 | 233333 | 2017-01-02 | 9999-12-31 |
2017-01-01 | 003 | 333333 | 2017-01-01 | 9999-12-31 |
2017-01-01 | 004 | 444444 | 2017-01-01 | 2017-01-01 |
2017-01-01 | 004 | 432432 | 2017-01-02 | 2017-01-02 |
2017-01-01 | 004 | 432432 | 2017-01-03 | 9999-12-31 |
2017-01-02 | 005 | 555555 | 2017-01-02 | 2017-01-02 |
2017-01-02 | 005 | 115115 | 2017-01-03 | 9999-12-31 |
2017-01-03 | 006 | 666666 | 2017-01-03 | 9999-12-31 |
咱們暫且不對這張表作細緻的講解,後文會專門來闡述怎麼來設計、實現和使用它。性能
在數據倉庫的數據模型設計過程當中,常常會遇到下面這種表的設計:大數據
那麼對於這種表我該如何設計呢?下面有幾種方案可選:優化
如今咱們對前面提到的三種進行逐個的分析。網站
方案一spa
這種方案就不用多說了,實現起來很簡單,天天drop掉前一天的數據,從新抽一份最新的。設計
優勢很明顯,節省空間,一些普通的使用也很方便,不用在選擇表的時候加一個時間分區什麼的。
缺點一樣明顯,沒有歷史數據,先翻翻舊帳只能經過其它方式,好比從流水錶裏面抽。
方案二
天天一份全量的切片是一種比較穩妥的方案,並且歷史數據也在。
缺點就是存儲空間佔用量太大太大了,若是對這邊表天天都保留一份全量,那麼每次全量中會保存不少不變的信息,對存儲是極大的浪費,這點我感觸仍是很深的......
固然咱們也能夠作一些取捨,好比只保留近一個月的數據?可是,需求是無恥的,數據的生命週期不是咱們能徹底左右的。
拉鍊表
拉鍊表在使用上基本兼顧了咱們的需求。
首先它在空間上作了一個取捨,雖然說不像方案一那樣佔用量那麼小,可是它每日的增量可能只有方案二的千分之一甚至是萬分之一。
其實它能知足方案二所能知足的需求,既能獲取最新的數據,也能添加篩選條件也獲取歷史的數據。
因此咱們仍是頗有必要來使用拉鍊表的。
下面咱們來舉個栗子詳細看一下拉鍊表。
咱們接上在《漫談數據倉庫之維度建模》中的電商網站的例子,如今以用戶的拉鍊表來講明。
咱們先看一下在Mysql關係型數據庫裏的user表中信息變化。
在2017-01-01這一天表中的數據是:
註冊日期 | 用戶編號 | 手機號碼 |
---|---|---|
2017-01-01 | 001 | 111111 |
2017-01-01 | 002 | 222222 |
2017-01-01 | 003 | 333333 |
2017-01-01 | 004 | 444444 |
在2017-01-02這一天表中的數據是, 用戶002和004資料進行了修改,005是新增用戶:
註冊日期 | 用戶編號 | 手機號碼 | 備註 |
---|---|---|---|
2017-01-01 | 001 | 111111 | |
2017-01-01 | 002 | 233333 | (由222222變成233333) |
2017-01-01 | 003 | 333333 | |
2017-01-01 | 004 | 432432 | (由444444變成432432) |
2017-01-02 | 005 | 555555 | (2017-01-02新增) |
在2017-01-03這一天表中的數據是, 用戶004和005資料進行了修改,006是新增用戶:
註冊日期 | 用戶編號 | 手機號碼 | 備註 |
---|---|---|---|
2017-01-01 | 001 | 111111 | |
2017-01-01 | 002 | 233333 | |
2017-01-01 | 003 | 333333 | |
2017-01-01 | 004 | 654321 | (由432432變成654321) |
2017-01-02 | 005 | 115115 | (由555555變成115115) |
2017-01-03 | 006 | 666666 | (2017-01-03新增) |
若是在數據倉庫中設計成歷史拉鍊表保存該表,則會有下面這樣一張表,這是最新一天(即2017-01-03)的數據:
註冊日期 | 用戶編號 | 手機號碼 | t_start_date | t_end_date |
---|---|---|---|---|
2017-01-01 | 001 | 111111 | 2017-01-01 | 9999-12-31 |
2017-01-01 | 002 | 222222 | 2017-01-01 | 2017-01-01 |
2017-01-01 | 002 | 233333 | 2017-01-02 | 9999-12-31 |
2017-01-01 | 003 | 333333 | 2017-01-01 | 9999-12-31 |
2017-01-01 | 004 | 444444 | 2017-01-01 | 2017-01-01 |
2017-01-01 | 004 | 432432 | 2017-01-02 | 2017-01-02 |
2017-01-01 | 004 | 654321 | 2017-01-03 | 9999-12-31 |
2017-01-02 | 005 | 555555 | 2017-01-02 | 2017-01-02 |
2017-01-02 | 005 | 115115 | 2017-01-03 | 9999-12-31 |
2017-01-03 | 006 | 666666 | 2017-01-03 | 9999-12-31 |
說明
在如今的大數據場景下,大部分的公司都會選擇以Hdfs和Hive爲主的數據倉庫架構。目前的Hdfs版原本講,其文件系統中的文件是不能作改變的,也就是說Hive的表智能進行刪除和添加操做,而不能進行update。基於這個前提,咱們來實現拉鍊表。
仍是以上面的用戶表爲例,咱們要實現用戶的拉鍊表。在實現它以前,咱們須要先肯定一下咱們有哪些數據源能夠用。
並且咱們要肯定拉鍊表的時間粒度,好比說拉鍊表天天只取一個狀態,也就是說若是一天有3個狀態變動,咱們只取最後一個狀態,這種天粒度的表其實已經能解決大部分的問題了。
另外,補充一下每日的用戶更新表該怎麼獲取,據筆者的經驗,有3種方式拿到或者間接拿到每日的用戶增量,由於它比較重要,因此詳細說明:
ods層的user表
如今咱們來看一下咱們ods層的用戶資料切片表的結構:
CREATE EXTERNAL TABLE ods.user ( user_num STRING COMMENT '用戶編號', mobile STRING COMMENT '手機號碼', reg_date STRING COMMENT '註冊日期' COMMENT '用戶資料表' PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS ORC LOCATION '/ods/user'; )
ods層的user_update表
而後咱們還須要一張用戶每日更新表,前面已經分析過該若是獲得這張表,如今咱們假設它已經存在。
CREATE EXTERNAL TABLE ods.user_update ( user_num STRING COMMENT '用戶編號', mobile STRING COMMENT '手機號碼', reg_date STRING COMMENT '註冊日期' COMMENT '每日用戶資料更新表' PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS ORC LOCATION '/ods/user_update'; )
拉鍊表
如今咱們建立一張拉鍊表:
CREATE EXTERNAL TABLE dws.user_his ( user_num STRING COMMENT '用戶編號', mobile STRING COMMENT '手機號碼', reg_date STRING COMMENT '用戶編號', t_start_date , t_end_date COMMENT '用戶資料拉鍊表' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS ORC LOCATION '/dws/user_his'; )
實現sql語句
而後初始化的sql就不寫了,其實就至關因而拿一天的ods層用戶表過來就行,咱們寫一下每日的更新語句。
如今咱們假設咱們已經已經初始化了2017-01-01的日期,而後須要更新2017-01-02那一天的數據,咱們有了下面的Sql。
而後把兩個日期設置爲變量就能夠了。
INSERT OVERWRITE TABLE dws.user_his SELECT * FROM ( SELECT A.user_num, A.mobile, A.reg_date, A.t_start_time, CASE WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01' ELSE A.t_end_time END AS t_end_time FROM dws.user_his AS A LEFT JOIN ods.user_update AS B ON A.user_num = B.user_num UNION SELECT C.user_num, C.mobile, C.reg_date, '2017-01-02' AS t_start_time, '9999-12-31' AS t_end_time FROM ods.user_update AS C ) AS T
好了,咱們分析了拉鍊表的原理、設計思路、而且在Hive環境下實現了一份拉鍊表,下面對拉鍊表作一些小的補充。
流水錶存放的是一個用戶的變動記錄,好比在一張流水錶中,一天的數據中,會存放一個用戶的每條修改記錄,可是在拉鍊表中只有一條記錄。
這是拉鍊表設計時須要注意的一個粒度問題。咱們固然也能夠設置的粒度更小一些,通常按天就足夠。
拉鍊表固然也會遇到查詢性能的問題,好比說咱們存放了5年的拉鍊數據,那麼這張表勢必會比較大,當查詢的時候性能就比較低了,我的認爲兩個思路來解決:
咱們在這篇文章裏面詳細地分享了一下和拉鍊表相關的知識點,可是仍然會有一會遺漏。歡迎交流。
在後面的使用中又有了一些心得,補充進來:
使用拉鍊表的時候能夠不加t_end_date,即失效日期,可是加上以後,能優化不少查詢。
能夠加上當前行狀態標識,能快速定位到當前狀態。
在拉鍊表的設計中能夠加一些內容,由於咱們天天保存一個狀態,若是咱們在這個狀態裏面加一個字段,好比如當天修改次數,那麼拉鍊表的做用就會更大。