簡介: 用戶只需在前端簡單配置下指標,系統便可自動生成大寬表,讓用戶查詢到他所須要的實時數據,數據源支持跨庫並支持多種目標介質。這樣的數據全局實時可視化如何實現?本文從需求分析開始,分享自動生成SQL功能開發中運用到的設計模式和數據結構算法設計。前端
ADC(Alibaba DChain Data Converger)項目的主要目的是作一套工具,用戶在前端簡單配置下指標後,就能在系統自動生成的大寬表裏面查詢到他所須要的實時數據,數據源支持跨庫並支持多種目標介質。說的更高層次一點, 數據的全局實時可視化這個事情自己就是解決供應鏈數據「神龍效應」的有效措施(參考施雲老師的《供應鏈架構師》[1]一書)。作ADC也是爲了這個目標,整個ADC系統架構以下圖所示: 算法
架構解析:sql
其中,SQL生成器的上游和下游主要涉及:數據庫
本文主要從技術角度介紹下SQL生成器相關的內容。設計模式
在項目實施階段,須要從需求分析、技術方案設計、測試聯調幾個步驟展開工做。本文重點不放在軟件開發流程上, 而是就設計模式選擇和數據結構算法設計作下重點講解。數據結構
在需求分析階段, 咱們明確了自動生成SQL模塊所須要考慮的需求點, 主要包含以下幾點:架構
明確需求後, 咱們把SQL生成器整體功能分爲兩塊:併發
之因此把生成SQL階段作成同步是由於同步階段內存操做爲主,若是發現數據有問題沒法生成SQL能作到快速失敗。發佈階段調用基礎資源適配層須要同步等待較長時間, 每一個發佈步驟要作到有狀態記錄, 可回滾或者重試。因此異步實現。SQL生成器同步階段的總體功能細化到小模塊,以下圖所示:異步
檢查階段數據結構和算法
檢查原始數據是否有問題, 沒法生成SQL則快速失敗。
數據同步
計算階段
生成大寬表,填充SQL。
異步發佈階段會把SQL語句發佈到Flink。
添加反向索引的緣由
假若有A、B兩錶鏈接,那麼鏈接方式爲A表的非主鍵鏈接B表主鍵。從時序上來講可能有如下三種狀況:
下面咱們就這三種狀況逐一分析。
場景1:B表數據先於A表數據多天產生
咱們假如B表數據存儲於某個支持高qps的數據庫內,咱們能夠直接讓A表數據到來時直接鏈接此表(維表)來實現連表。
場景2:B表數據後於A表數據多天產生
這種場景比較麻煩。A表數據先行產生,所以過早的落庫,致使B表數據到來時即便鏈接B維表也拿不到數據。這種場景還有一個相似的場景:若是AB鏈接完成後B發生了更新,如何讓B的更新體如今寬表中?
爲了解決這種問題,咱們增長了一個「反向索引表」。假如A的主鍵是id,鏈接鍵是ext_id,那麼咱們能夠將ext_id和id的值存儲在一張表內,當B的數據更新時,用B的主鍵鏈接這種表的ext_id字段,拉取到全部的A表id字段,並將A表id字段從新流入Flink。
對系統總體流程有了解之後, 咱們再來看看系統的設計模式選擇,選擇設計模式時,咱們考慮到數據處理相關的開發工做存在一些共性:
因爲數據處理任務的步奏比較冗長,並且因爲每一個階段的結果與下階段的執行有關係,又不能分開。
參考 PipeLine(流水線)設計模式[2],綜合考慮後咱們系統的總體設計以下圖所示:
首先有一個全局的PipeLineContainer管理多個pipeLine和pipeline context, 每一個pipeline可獨立執行一個任務, 好比pipeline1執行同步生成sql任務。pipeline2執行異步發佈任務。發佈必須在生成SQL結束後執行, pipeline有狀態而且按必定順序串聯。每一個pipeline包含多個可重用的valve(功能)。valve能夠重用, 任意組合,方便完成更多的數據處理任務(好比之後若是要支持Tisplus dump平臺接入, 則簡單拼接現有的valve就能夠)。
SQL生成器關鍵點, 就是把各個表(Meta節點)之間的關係表示出來。Meta之間的關係分爲兩類,分別是全鏈接關聯和左鏈接關聯(由於左鏈接關聯涉及到數據的時序問題, 須要添加反向索引較爲複雜, 因此和全鏈接區分了一下, 爲了簡化問題咱們先執行全鏈接, 再執行左鏈接)。
咱們要解決的問題是, 多個數據源同步數據進來以後, 按必定的優先級關聯, 最終獲得一個大寬表並須要自動發佈。抽象到數據結構層面就是:
下面說明下解決該問題的算法思路。
優先級隊列
由於葉子節點之間鏈接執行優先級不一樣,先放入優先級隊列。以後每次取出高優先級任務執行。相同優先級任務能夠複用, 連續執行屢次。優先級隊列示意圖以下:
構建樹
有了優先級隊列的概念, 咱們來構建樹。構建主要分如下步驟:
1.首先獲得四種優先級的任務, 優先級從高到低分別爲:
2.取優先級1的任務執行,同步進來六個數據源對應六個葉子。
3.取優先級2的任務並執行獲得中間表1,2。
4.取優先級3的任務並執行,發現節點一、4有父節點, 則執行中間節點一、2分別和節點6 Left Join獲得根節點。
5.取優先級4的任務並執行,發佈根節點。
能夠看到最終的數據結構是一棵樹, 經過這種方式咱們能支持複雜sql的自動構建。進一步抽象, 這種「一個隊列驅動一棵樹生成」的模式能夠解決一類問題:
限於篇幅, 本文重點在於介紹自動生成sql功能開發中運用到的主要數據結構和設計模式思想。
目前咱們實現了任意張表關聯sql自動生成併發布, 總體延遲控制在2s之內。以後SQL生成器主要會針對方便接入更多第三方實時計算平臺(好比Tisplus), 下降總體系統延遲工做展開。方便接入主要考驗的是架構的設計, 也是本文着重寫的點(包括數據結構和算法設計、設計模式的選擇)。下降系統延遲則包括消息中間件優化,代碼執行效率提高等。
阿里巴巴供應鏈國際化團隊歡迎廣大有識之士加入,共同打造東半球零售業首選的國際化供應鏈平臺。有意請聯繫:pengcheng.wang@alibaba-inc.com
相關連接
[1]https://book.douban.com/subject/26995807/
[2]https://blog.csdn.net/buyoufa/article/details/51912262