數據庫之互聯網經常使用分庫分表方案

時間 2019-12-05

標籤數據庫互聯網經常使用分庫分表方案欄目 SQL 简体版

原文原文鏈接

1、數據庫瓶頸

不論是IO瓶頸，仍是CPU瓶頸，最終都會致使數據庫的活躍鏈接數增長，進而逼近甚至達到數據庫可承載活躍鏈接數的閾值。在業務Service來看就是，可用數據庫鏈接少甚至無鏈接可用。接下來就能夠想象了吧（併發量、吞吐量、崩潰）。html

一、IO瓶頸

第一種：磁盤讀IO瓶頸，熱點數據太多，數據庫緩存放不下，每次查詢時會產生大量的IO，下降查詢速度 -> 分庫和垂直分表。git

第二種：網絡IO瓶頸，請求的數據太多，網絡帶寬不夠 -> 分庫。github

二、CPU瓶頸

第一種：SQL問題，如SQL中包含join，group by，order by，非索引字段條件查詢等，增長CPU運算的操做 -> SQL優化，創建合適的索引，在業務Service層進行業務計算。算法

第二種：單表數據量太大，查詢時掃描的行太多，SQL效率低，CPU率先出現瓶頸 -> 水平分表。數據庫

2、分庫分表

一、水平分庫

1.概念：以字段爲依據，按照必定策略（hash、range等），將一個庫中的數據拆分到多個庫中。 2.結果：緩存

每一個庫的結構都同樣;
每一個庫的數據都不同，沒有交集;
全部庫的並集是全量數據;

3.場景：系統絕對併發量上來了，分表難以根本上解決問題，而且尚未明顯的業務歸屬來垂直分庫。 4.分析：庫多了，io和cpu的壓力天然能夠成倍緩解。網絡

二、水平分表

1.概念：以字段爲依據，按照必定策略（hash、range等），將一個表中的數據拆分到多個表中。 2.結果：併發

每一個表的結構都同樣
每一個表的數據都不同，沒有交集;
全部表的並集是全量數據;

3.場景：系統絕對併發量並無上來，只是單表的數據量太多，影響了SQL效率，加劇了CPU負擔，以致於成爲瓶頸。 4.分析：表的數據量少了，單次SQL執行效率高，天然減輕了CPU的負擔。函數

三、垂直分庫

1.概念：以表爲依據，按照業務歸屬不一樣，將不一樣的表拆分到不一樣的庫中。 2.結果：工具

每一個庫的結構都不同；
每一個庫的數據也不同，沒有交集；
全部庫的並集是全量數據；

3.場景：系統絕對併發量上來了，而且能夠抽象出單獨的業務模塊。 4.分析：到這一步，基本上就能夠服務化了。例如，隨着業務的發展一些公用的配置表、字典表等愈來愈多，這時能夠將這些表拆到單獨的庫中，甚至能夠服務化。再有，隨着業務的發展孵化出了一套業務模式，這時能夠將相關的表拆到單獨的庫中，甚至能夠服務化。

四、垂直分表

1.概念：以字段爲依據，按照字段的活躍性，將表中字段拆到不一樣的表（主表和擴展表）中。 2.結果：

每一個表的結構都不同；
每一個表的數據也不同，通常來講，每一個表的字段至少有一列交集，通常是主鍵，用於關聯數據；
全部表的並集是全量數據；

3.場景：系統絕對併發量並無上來，表的記錄並很少，可是字段多，而且熱點數據和非熱點數據在一塊兒，單行數據所需的存儲空間較大。以致於數據庫緩存的數據行減小，查詢時會去讀磁盤數據產生大量的隨機讀IO，產生IO瓶頸。

4.分析：能夠用列表頁和詳情頁來幫助理解。垂直分表的拆分原則是將熱點數據（可能會冗餘常常一塊兒查詢的數據）放在一塊兒做爲主表，非熱點數據放在一塊兒做爲擴展表。這樣更多的熱點數據就能被緩存下來，進而減小了隨機讀IO。拆了以後，要想得到所有數據就須要關聯兩個表來取數據。但記住，千萬別用join，由於join不只會增長CPU負擔而且會講兩個表耦合在一塊兒（必須在一個數據庫實例上）。關聯數據，應該在業務Service層作文章，分別獲取主表和擴展表數據而後用關聯字段關聯獲得所有數據。

3、分庫分表工具↑

sharding-sphere：jar，前身是sharding-jdbc；
TDDL：jar，Taobao Distribute Data Layer；
Mycat：中間件。

注：工具的利弊，請自行調研，官網和社區優先。

4、分庫分表步驟↑

根據容量（當前容量和增加量）評估分庫或分表個數 -> 選key（均勻）-> 分表規則（hash或range等）-> 執行（通常雙寫）-> 擴容問題（儘可能減小數據的移動）。

5、分庫分表問題↑

一、非partition key的查詢問題（水平分庫分表，拆分策略爲經常使用的hash法）

端上除了partition key只有一個非partition key做爲條件查詢

映射法

基因法

注：寫入時，基因法生成userid，如圖。關於xbit基因，例如要分8張表，23=8，故x取3，即3bit基因。根據userid查詢時可直接取模路由到對應的分庫或分表。根據username查詢時，先經過usernamecode生成函數生成username_code再對其取模路由到對應的分庫或分表。id生成經常使用snowflake算法。