何謂數據異構,上週交易部門商品的同事過來作分享,又看到這個詞,他的PPT裏面是 數據庫異構。其實咱們之前作的事情,也是能夠成爲數據異構。好比咱們將DB裏面的數據持久化到REDIS裏面去,就是一種數據異構的方式。若是要下個定義的話:把數據按需(數據結構、存取方式、存取形式)異地構建存儲。mysql
分庫分表中有一個最爲常見的場景,爲了提高數據庫的查詢能力,咱們都會對數據庫作分庫分表操做。好比訂單庫,開始的時候咱們是按照訂單ID維度去分庫分表,那麼後來的業務需求想按照商家維度去查詢,好比我想查詢某一個商家下的全部訂單,就很是麻煩。這個時候經過數據異構就能很好的解決此問題,好比下圖git
異構維度.pnggithub
總結起來大概有如下幾種場景redis
異構的幾種方向.pngsql
在平常業務開發中大體能夠分爲以上幾種數據去向,DB-DB這種方式,通常常見於分庫分表後,聚合查詢的時候,好比咱們按照訂單ID去分庫分表,那麼這個時候咱們要按照用戶ID去查詢,查詢這個用戶下面的訂單就很是不方便了,固然可使用統一加到內存中去,但這樣不太好。因此咱們就能夠用數據庫異構的方式,從新按照用戶ID的維度來分一個表,像在上面常見應用場景中介紹的那樣。把數據異構到redis、elasticserach、slor中去要解決的問題跟按照多維度來查詢的需求差很少。這些存儲天生都有聚合的功能。固然同時也能夠提升查詢性能,應對大訪問量,好比redis這種抗量銀彈。數據庫
這個很簡單就是將數據庫A,所有拷貝一份到數據庫B,這樣的使用場景是離線統計跑任務腳本的時候能夠。缺點也很突出,不適用於持續增加的數據。緩存
這個是業務場景比較簡單的時候,理想狀況下數據不會發生改變,好比日誌數據,這個時候能夠去標記,好比時間戳,這樣當發生故障的時候還能夠回溯到上一次同步點,開始從新同步數據。服務器
經過實時的訂閱mysql的binlog日誌,消費到這些日誌後,從新構建數據結構插入一個新的數據庫或者是其餘存儲好比es、slor等等。訂閱binlog日誌能夠比較好的能保證數據的一致性。數據結構
業務數據寫入DB的同時,也發送MQ一份,也就是業務裏面實現雙寫。這種方式比較簡單,但也很難保證數據一致性,對簡單的業務場景能夠採用這種方式。ide
canal異構方式.png
binglog是數據的日誌記錄方式,每次對數據的操做都會有binlog日誌。如今開源的訂閱binlog日誌的組件,好比使用比較普遍的canal,它是阿里開源的基於mysql數據庫binlog的增量訂閱和消費組件。因爲cannal服務器目前讀取的binlog事件只保存在內存中,而且只有一個canal客戶端能夠進行消費。因此若是須要多個消費客戶端,能夠引入activemq或者kafka。如上圖綠色虛線框部分。咱們還須要確保全量對比來保證數據的一致性(canal+mq的重試機制基本能夠保證寫入異構庫以後的數據一致性),這個時候能夠有一個全量同步WORKER程序來保證,如上圖深綠色部分。
先來看下mysql主備(主從)複製原理以下圖,在此原理基礎之上咱們再來理解canal的實現原理就一眼能明白了。
mysql主備複製實現原理.jpg
mysql主備(主從)複製原理,從上層來看,複製分紅三步:
canal工做原理.jpg
MQ異構方式.png
mq的方式,就相對簡單,其實是在業務邏輯中寫DB的同時去寫一次MQ,可是這種方式不可以保證數據一致性,就是不能保證跨資源的事務。注:調用第三方遠程RPC的操做必定不要放到事務中。
本文主要敘述了數據異構的使用場景,方法。這裏面涉及到的activemq以及canal並無深刻分析,關於這塊的內容能夠直接參考相關具體文檔,文中已給了連接地址。根據數據異構的定義,將數據異地構建存儲,咱們能夠應用的地方就很是多,文中說的分庫分表以後按照其它維度來查詢的時候,咱們想脫離DB直接用緩存好比redis來抗量的時候。數據異構這種方式都可以很好的幫助咱們來解決諸如此類的問題。
轉載請註明出處,並附上連接 https://my.oschina.net/wangxindong/blog/1531596
參考資料:https://github.com/alibaba/canal