大數據環境下該如何優雅地設計數據分層

時間 2019-11-07

標籤數據環境如何優雅設計分層简体版

原文原文鏈接

0x00 前言

最近出現了好幾回一樣的對話場景：
問：你是作什麼的？
答：最近在搞數據倉庫。
問：哦，你是傳統行業的吧，我是搞大數據的。
答：......前端

發個牢騷，搞大數據的也得建設數據倉庫吧。並且無論是傳統行業仍是如今的互聯網公司，都須要對數據倉庫有必定的重視，而不是談一句本身是搞大數據的就很厲害了。數據倉庫更多表明的是一種對數據的管理和使用的方式，它是一整套包括了etl、調度、建模在內的完整的理論體系。如今所謂的大數據更多的是一種數據量級的增大和工具的上的更新。二者並沒有衝突，相反，而是一種更好的結合。mysql

話說，單純用用Hadoop、Spark、Flume處理處理數據，其實只是學會幾種新的工具，這是搞工具的，只是在數據倉庫中etl中的一部分。git

固然，技術的更新每每能領到一個時代的變革，好比Hadoop的誕生，光是深刻研究一個大數據組件就要花很大的時間和精力。可是在熱潮冷卻以後，咱們更應該考慮地是如何更好地管理和使用本身的數據。github

對於數據的從業者來說，要始終重視緊跟技術的變革，可是切記數據爲王，在追求技術的極致的時候，不要忘了咱們是搞數據的。sql

文章主題

吐槽完畢，本文主要講解數據倉庫的一個重要環節：如何設計數據分層！，其它關於數據倉庫的內容可參考其它的文章數據倉庫數據庫

本文對數據分層的討論適合下面一些場景，超過該範圍場景 or 數據倉庫經驗豐富的大神就沒必要浪費時間看了。數據結構

數據建設剛起步，大部分的數據通過粗暴的數據接入後就直接對接業務。工具
數據建設發展到必定階段，發現數據的使用雜亂無章，各類業務都是從原始數據直接計算而得。oop
各類重複計算，嚴重浪費了計算資源，須要優化性能。性能

文章結構

最初在作數據倉庫的時候遇到了不少坑，因爲自身資源有限，接觸數據倉庫的時候，感受在互聯網行業裏面的數據倉庫成功經驗不多，網上很難找到比較實踐性強的資料。而那幾本經典書籍裏面又過於理論，折騰起來真是生不如死。還好如今過去了那個坎，所以多花一些時間整理本身的思路，幫助其餘的小夥伴少踩一些坑。

爲何要分層？這個問題被好幾個同窗質疑過。所以分層的價值仍是要說清楚的。
分享一下經典的數據分層模型，以及每一層的數據的做用和如何加工得來。
分享兩個數據分層的設計，經過這兩個實際的例子來講明每一層該怎麼存數據。
給出一些建議，不是最好的，可是能夠作參考。

0x01 爲何要分層

咱們對數據進行分層的一個主要緣由就是但願在管理數據的時候，能對數據有一個更加清晰的掌控，詳細來說，主要有下面幾個緣由：

清晰數據結構：每個數據分層都有它的做用域，這樣咱們在使用表的時候能更方便地定位和理解。
數據血緣追蹤：簡單來說能夠這樣理解，咱們最終給業務誠信的是一能直接使用的張業務表，可是它的來源有不少，若是有一張來源表出問題了，咱們但願可以快速準確地定位到問題，並清楚它的危害範圍。
減小重複開發：規範數據分層，開發一些通用的中間層數據，可以減小極大的重複計算。
把複雜問題簡單化。講一個複雜的任務分解成多個步驟來完成，每一層只處理單一的步驟，比較簡單和容易理解。並且便於維護數據的準確性，當數據出現問題以後，能夠不用修復全部的數據，只須要從有問題的步驟開始修復。
屏蔽原始數據的異常。
屏蔽業務的影響，沒必要改一次業務就須要從新接入數據。

數據體系中的各個表的依賴就像是電線的流向同樣，咱們都但願它是很規整，便於管理的。可是，最終的結果大可能是第一幅圖，而非第二幅圖。

0x02 怎樣分層

理論

咱們從理論上來作一個抽象，能夠把數據倉庫分爲下面三個層，即：數據運營層、數據倉庫層和數據產品層。

1. ODS全稱是Operational Data Store，操做數據存儲

「面向主題的」，數據運營層，也叫ODS層，是最接近數據源中數據的一層，數據源中的數據，通過抽取、洗淨、傳輸，也就說傳說中的ETL以後，裝入本層。本層的數據，整體上大可能是按照源頭業務系統的分類方式而分類的。

例如這一層可能包含的數據表爲：人口表（包含每一個人的身份證號、姓名、住址等）、機場登機記錄（包含伺機人身份證號、航班號、伺機日期、起飛城市等）、銀聯的刷卡信息表（包含銀行卡號、刷卡地點、刷卡時間、刷卡金額等）、銀行帳戶表（包含銀行卡號、持卡人身份證號等）等等一系列原始的業務數據。這裏咱們能夠看到，這一層面的數據還具備鮮明的業務數據庫的特徵，甚至還具備必定的關係數據庫中的數據範式的組織形式。

可是，這一層面的數據卻不等同於原始數據。在源數據裝入這一層時，要進行諸如去噪（例如去掉明顯偏離正常水平的銀行刷卡信息）、去重（例如銀行帳戶信息、公安局人口信息中均含有人的姓名，可是隻保留一份便可）、提髒（例若有的人的銀行卡被盜刷，在十分鐘內同時有兩筆分別在中國和日本的刷卡信息，這即是髒數據）、業務提取、單位統1、砍字段（例如用於支撐前端系統工做，可是在數據挖掘中不須要的字段）、業務判別等多項工做。

2. 數據倉庫層(DW)，是數據倉庫的主體

在這裏，從ODS層中得到的數據按照主題創建各類數據模型。例如以研究人的旅遊消費爲主題的數據集中，即可以結合航空公司的登機出行信息，以及銀聯繫統的刷卡記錄，進行結合分析，產生數據集。在這裏，咱們須要瞭解四個概念：維（dimension）、事實（Fact）、指標（Index）和粒度（ Granularity）。

3. 數據產品層（APP），這一層是提供爲數據產品使用的結果數據

在這裏，主要是提供給數據產品和數據分析使用的數據，通常會存放在es、mysql等系統中供線上系統使用，也可能會存在Hive或者Druid中供數據分析和數據挖掘使用。
好比咱們常常說的報表數據，或者說那種大寬表，通常就放在這裏。

技術實踐

這三層技術劃分，相對來講比較粗粒度，後面咱們會專門細分一下。在此以前，先聊一下每一層的數據通常都是怎麼流向的。這裏僅僅簡單介紹幾個經常使用的工具，側重中開源界主流。

1. 數據來源層--> ODS層

這裏其實就是咱們如今大數據技術發揮做用的一個主要戰場。咱們的數據主要會有兩個大的來源：

業務庫，這裏常常會使用sqoop來抽取，好比咱們天天定時抽取一次。在實時方面，能夠考慮用canal監聽mysql的binlog，實時接入便可。
埋點日誌，線上系統會打入各類日誌，這些日誌通常以文件的形式保存，咱們能夠選擇用flume定時抽取，也能夠用用spark streaming或者storm來實時接入，固然，kafka也會是一個關鍵的角色。
其它數據源會比較多樣性，這和具體的業務相關，再也不贅述。

注意： 在這層，理應不是簡單的數據接入，而是要考慮必定的數據清洗，好比異常字段的處理、字段命名規範化、時間字段的統一等，通常這些很容易會被忽略，可是卻相當重要。特別是後期咱們作各類特徵自動生成的時候，會十分有用。後續會有文章來分享。

2. ODS、DW --> App層

這裏面也主要分兩種類型：

每日定時任務型：好比咱們典型的日計算任務，天天凌晨算前一天的數據，早上起來看報表。這種任務常用Hive、Spark或者生擼MR程序來計算，最終結果寫入Hive、Hbase、Mysql、Es或者Redis中。
實時數據：這部分主要是各類實時的系統使用，好比咱們的實時推薦、實時用戶畫像，通常咱們會用Spark Streaming、Storm或者Flink來計算，最後會落入Es、Hbase或者Redis中。

0x03 舉個例子

網上的例子不少，就不列了，只舉個筆者早期參與設計的數據分層例子。分析一下當初的想法，以及這種設計的缺陷。上原圖。

此處@Ruby大神。現實是我只是個打醬油的。盜圖、盜思想。

當初的設計總共分了6層，其中去掉元數據後，還有5層。下面分析一下當初的一個設計思路。

緩衝層(buffer)

概念：又稱爲接口層（stage），用於存儲天天的增量數據和變動數據，如Canal接收的業務變動日誌。
數據生成方式：直接從kafka接收源數據，須要業務表天天生成update,delete,inseret數據，只生成insert數據的業務表，數據直接入明細層
討論方案：只把canal日誌直接入緩衝層，若是其它有拉鍊數據的業務，也入緩衝層。
日誌存儲方式：使用impala外表，parquet文件格式，方便須要MR處理的數據讀取。
日誌刪除方式：長久存儲，可只存儲最近幾天的數據。討論方案：直接長久存儲
表schema：通常按天建立分區
庫與表命名。庫名：buffer,表名：初步考慮格式爲：buffer_日期_業務表名,待定。

明細層（ODS, Operational Data Store,DWD: data warehouse detail）

概念：是數據倉庫的細節數據層，是對STAGE層數據進行沉澱，減小了抽取的複雜性，同時ODS/DWD的信息模型組織主要遵循企業業務事務處理的形式，將各個專業數據進行集中，明細層跟stage層的粒度一致，屬於分析的公共資源
數據生成方式：部分數據直接來自kafka，部分數據爲接口層數據與歷史數據合成。
canal日誌合成數據的方式待研究。
討論方案：canal數據的合成方式爲：天天把明細層的前天全量數據和昨天新數據合成一個新的數據表，覆蓋舊錶。同時使用歷史鏡像，按周/按月/按年存儲一個歷史鏡像到新表。
日誌存儲方式：直接數據使用impala外表，parquet文件格式，canal合成數據爲二次生成數據，建議使用內表，下面幾層都是從impala生成的數據，建議都用內表+靜態/動態分區。
日誌刪除方式：長久存儲。
表schema：通常按天建立分區，沒有時間概念的按具體業務選擇分區字段。
庫與表命名。庫名：ods,表名：初步考慮格式爲ods_日期_業務表名,待定。
舊數據更新方式：直接覆蓋

輕度彙總層(MID或DWB, data warehouse basis)

概念：輕度彙總層數據倉庫中DWD層和DM層之間的一個過渡層次，是對DWD層的生產數據進行輕度綜合和彙總統計（能夠把複雜的清洗，處理包含，如根據PV日誌生成的會話數據）。輕度綜合層與DWD的主要區別在於兩者的應用領域不一樣，DWD的數據來源於生產型系統，並未滿意一些不可預見的需求而進行沉澱；輕度綜合層則面向分析型應用進行細粒度的統計和沉澱
數據生成方式：由明細層按照必定的業務需求生成輕度彙總表。明細層須要複雜清洗的數據和須要MR處理的數據也通過處理後接入到輕度彙總層。
日誌存儲方式：內表，parquet文件格式。
日誌刪除方式：長久存儲。
表schema：通常按天建立分區，沒有時間概念的按具體業務選擇分區字段。
庫與表命名。庫名：dwb,表名：初步考慮格式爲：dwb_日期_業務表名,待定。
舊數據更新方式：直接覆蓋

主題層（DM，date market或DWS, data warehouse service）

概念：又稱數據集市或寬表。按照業務劃分，如流量、訂單、用戶等，生成字段比較多的寬表，用於提供後續的業務查詢，OLAP分析，數據分發等。
數據生成方式：由輕度彙總層和明細層數據計算生成。
日誌存儲方式：使用impala內表，parquet文件格式。
日誌刪除方式：長久存儲。
表schema：通常按天建立分區，沒有時間概念的按具體業務選擇分區字段。
庫與表命名。庫名：dm,表名：初步考慮格式爲：dm_日期_業務表名,待定。
舊數據更新方式：直接覆蓋

應用層(App)

概念：應用層是根據業務須要，由前面三層數據統計而出的結果，能夠直接提供查詢展示，或導入至Mysql中使用。
數據生成方式：由明細層、輕度彙總層，數據集市層生成，通常要求數據主要來源於集市層。
日誌存儲方式：使用impala內表，parquet文件格式。
日誌刪除方式：長久存儲。
表schema：通常按天建立分區，沒有時間概念的按具體業務選擇分區字段。
庫與表命名。庫名：暫定apl，另外根據業務不一樣，不限定必定要一個庫。
舊數據更新方式：直接覆蓋

0x04 如何更優雅一些

前面提到的一種設計其實相對來說已經很詳細了，可是可能層次會有一點點多，並且在區分一張表到底該存放在什麼位置的時候可能還有一點點疑惑。咱們在這一章裏再設計一套數據倉庫的分層，同時在前面的基礎上加上維表和一些臨時表的考慮，來讓咱們的方案更優雅一些。

下圖，作了一些小的改動，咱們去掉了上一節的Buffer層，把數據集市層和輕度彙總層放在同一個層級上，同時獨立出來了維表和臨時表。

這裏解釋一下DWS、DWD、DIM和TMP的做用。

DWS：輕度彙總層，從ODS層中對用戶的行爲作一個初步的彙總，抽象出來一些通用的維度：時間、ip、id，並根據這些維度作一些統計值，好比用戶每一個時間段在不一樣登陸ip購買的商品數等。這裏作一層輕度的彙總會讓計算更加的高效，在此基礎上若是計算僅7天、30天、90天的行爲的話會快不少。咱們但願80%的業務都能經過咱們的DWS層計算，而不是ODS。
DWD：這一層主要解決一些數據質量問題和數據的完整度問題。好比用戶的資料信息來自於不少不一樣表，並且常常出現延遲丟數據等問題，爲了方便各個使用方更好的使用數據，咱們能夠在這一層作一個屏蔽。
DIM：這一層比較單純，舉個例子就明白，好比國家代碼和國家名、地理位置、中文名、國旗圖片等信息就存在DIM層中。
TMP：每一層的計算都會有不少臨時表，專設一個DWTMP層來存儲咱們數據倉庫的臨時表。