.Net下的分庫分表幫助類——用分庫的思想來分表

    在大型項目中,咱們會遇到分表分庫的情景。 
    分庫,將不一樣模塊對應的表拆分到對應的數據庫下,其實伴隨着公司內分佈式系統的出現,這個過程也是天然而然就發生了,對應商品模塊和用戶模塊,咱們會創建商品服務和用戶服務,各個服務訪問各自的數據庫,系統間的交互,經過遠程調用實現,而不是直接訪問其數據庫。
    可是隨着業務的進一步發展,數據表也會出現瓶頸,好比數據表的記錄已經超過了千萬級,到了這個量級,速度也會慢下來。因此接下來就是分表。 好比用戶表,咱們會分user_1,user_2,user_3,....,咱們會按照用戶的Id取模的方式來定位表,假如用戶表有3個,則Id是5的用戶信息會落在第二張表。 分表的方式多種多樣,好比商品表就適合按照日期來分表,一個月一張。 (分表還有一種是將不一樣的字段,分配到不一樣的表中)
目前我所知道的分表的方式,大概有如下幾種
    1.本身手動控制,來決定操做那張表,好比要查詢Id爲5的用戶信息,則會先5%(表的個數)=N 而後經過字符串拼接user_+"N"的方式獲得表名,而後再訪問數據庫。
    2. sql解析替換,好比要查詢Id爲5的用戶信息,sql爲select * from user,這裏user表其實在數據庫中不存在,是一個邏輯表,在調用的更底層,會解析這個sql語句,找出表名,而後根據分表規則,替換成具體的表名。 這種方式比上面的侵入性要底。
    3. 代理方式,其實和上面的相似,只是具體替換工做是代理服務器作的,在鏈接數據庫服務器的時候,咱們鏈接的是代理,代理再鏈接數據庫,咱們執行一個sql語句,會先發送到代理服務器,代理服務器根據預先指定的分庫分表規則,路由到具體的數據庫。 對於咱們系統來講,就是零侵入。 
    4. 數據庫服務器自己的支持,好比sql server本自己就支持分表。
數據分表看似簡單, 其實也很是困難,好比: 
    在應對Join查詢上,咱們不能再像原來那麼操做。
    在未使用分表規則時的查詢,好比,用戶表是按照Id取模分表的,可是若是有一個查詢是select * from user where loginid='XX' , 那就至關於要並行查詢多張表。 
    在面對批量插入的時候。 
    等等。 當想要把分表作的更通用,更透明時,都會面對這個問題。
個人想法和上面第一種比較相似,我想作的更通用一些,可是表名是始終繞不過去的,後來索性換了一種思路,既然這樣作如此麻煩,那表名就不替換了,替換庫,這就是我標題裏說的,用分庫的思想來分表,同時還獲得另外的一個好處,就是當數據庫服務器IO遇到瓶頸的時候,能夠將這些數據庫中一部分遷移到其餘機器上。
    好比 用戶表(user)須要分紅3個,那我就新建3個數據庫,每一個數據庫中各有一張表(user),當我執行select * from user  where id=5 的時候,我會根據規則,切換數據庫鏈接,這個sql裏面的user表,在對應數據庫裏是真實存在的。 這些數據庫能夠在同一臺機器上,當服務器遇到壓力時,能夠將這3個數據庫分佈到3臺機器上去,比起遷表,遷庫更容易。 
    有了這個思路,接下來就是如何儘量的低浸入,這裏我使用.net的Attribute(固然,也能夠搞成配置文件方式),經過給方法打標籤來提供一些信息,最後就是如何解析這些標籤,我這裏使用AOP, 固然徹底的零侵入是不可能的,可是也只是須要你在訪問數據庫的方法中,多一行代碼,就是獲取數據庫鏈接的。 
 
 咱們先看數據訪問層
這裏數據訪問我用的是dapper,對於須要分庫的的方法,只須要在方法上打上一個標籤ShardingMode,參數包括你分庫的規則,以及你的表的數量,至於須要根據哪一個參數來分,則只須要在這個參數上打上ShardingKey的標籤,若是是對象,則能夠寫上具體的key,其實也就是屬性名。 
    以上面的爲例,我使用的是取模的的方式來分表(ShardingMode = ShardingMode.Mod),表總共有3張,對於第一個方法,由於傳進去的是對象,因此須要標示出具體是按照那個字段來的, 對於第二個方法,由於是簡單類型,則直接打上標籤就能夠。每一個方法中有一行代碼, IDbConnection connection = ShardingConnUtils.GetConnection();,這個算是侵入的代碼,主要是獲取鏈接對象的,
 
下面是核心代碼
 
 
其實核心代碼的思想很簡單,首先是獲取方法上的標籤,根據標籤的值來分別選擇不一樣的分庫規則,而後獲取方法的參數,看參數上是否打了標籤,若是有標籤,再根據參數的值,計算出具體分到哪張表。 注意上面的最後一行,ShardingConnUtils.SetConnectionIndex(),其實就是設置對應的數據庫鏈接的,具體的值,會放在ThreadLocal中。 在操做數據庫的方法中,就能夠經過ShardingConnUtils.GetConnection()方法取得對應的鏈接。 
 
最後就是如何攔截方法來獲取這些標籤,這裏就該AOP出場了,這裏我使用了sheepaspect,
這裏能夠看到我定義了一個切面,主要是攔截方法上有ShardingModeAttribute標籤的方法,當這類方法在執行的時候,會先執行  ShardingCore.Process(jp.Method,jp.Args); 來決定是哪一個數據庫鏈接,最後再執行具體的方法。
 
最後的執行
須要先註冊數據庫鏈接,以用於後面的切換,剩下的就和普通的方法調用沒什麼區別了。 
 
    1. 能夠看到我在定義要攔截哪些方法的時候,是隻有ShardingModeAttribute標籤的方法,我無心作一個通用的數據庫鏈接管理框架,對於普通的單表操做,數據庫鏈接仍是由大家本身管理。
    2. 對join查詢, 批量插入等操做,尚未辦法支持,但其實在高併發項目中,Join查詢不多用。 對於未使用分表規則時的查詢,徹底能夠再創建一個內存映射規則解決,對於批量插入,能夠考慮本身控制。 
    3. 對於分庫的規則,我只實現了取模的方式,其餘的若是要實現也是很是簡單的,同時分庫規則多種多樣,能夠按照本身的需求來實現。 
    這裏AOP框架是關鍵但不是重點, .Net的AOP框架有多種選擇,好比PostSharp,RealProxy,EntLib,能夠選擇任意一種。 之前我並無關注.Net AOP, 可是經過此次的項目,個人思路一下次都打開了,咱們能夠實現不少的東西:
    好比在分佈式調用上,咱們能夠控制方法重試, 由於分佈式調用有必定概率的失敗,只要保證冪等性,咱們能夠失敗重試 。
    其次,咱們能夠定義性能監控,咱們能夠在方法執行前記錄一個時間,方法執行後記錄一個時間,這樣就能夠算出方法執行的耗時,同時記錄方法調用的次數,最後彙總到一塊兒,就能夠看出整個系統的性能瓶頸在哪裏,也能夠知道系統的繁忙程度。 配合docker,能夠自動擴充咱們的系統。 
    最後,咱們能夠對攔截的方法作try catch 來記錄未捕獲的異常,聚集到一塊兒作一個異常報警系統。 
 
代碼我已經上傳到gtihub,地址是  https://github.com/zhaoyb/DBSharding 
若是你們對這個項目感興趣,能夠到上面看看。
相關文章
相關標籤/搜索