不用找了，大廠在用的分庫分表方案，都在這裏！

時間 2020-02-25

標籤不用找了大廠在用分庫分表方案都在這裏简体版

原文原文鏈接

1、數據庫瓶頸↑

不論是IO瓶頸，仍是CPU瓶頸，最終都會致使數據庫的活躍鏈接數增長，進而逼近甚至達到數據庫可承載活躍鏈接數的閾值。在業務Service來看就是，可用數據庫鏈接少甚至無鏈接可用。接下來就能夠想象了吧（併發量、吞吐量、崩潰）。算法

第一種：磁盤讀IO瓶頸，熱點數據太多，數據庫緩存放不下，每次查詢時會產生大量的IO，下降查詢速度 -> 分庫和垂直分表。數據庫

第二種：網絡IO瓶頸，請求的數據太多，網絡帶寬不夠 -> 分庫。緩存

第一種：SQL問題，如SQL中包含join，group by，order by，非索引字段條件查詢等，增長CPU運算的操做 -> SQL優化，創建合適的索引，在業務Service層進行業務計算。微信

第二種：單表數據量太大，查詢時掃描的行太多，SQL效率低，CPU率先出現瓶頸 -> 水平分表。網絡

概念：以表爲依據，按照業務歸屬不一樣，將不一樣的表拆分到不一樣的庫中。
結果：
- 每一個庫的結構都不同；
- 每一個庫的數據也不同，沒有交集；
- 全部庫的並集是全量數據；
場景：系統絕對併發量上來了，而且能夠抽象出單獨的業務模塊。
分析：到這一步，基本上就能夠服務化了。例如，隨着業務的發展一些公用的配置表、字典表等愈來愈多，這時能夠將這些表拆到單獨的庫中，甚至能夠服務化。再有，隨着業務的發展孵化出了一套業務模式，這時能夠將相關的表拆到單獨的庫中，甚至能夠服務化。

概念：以字段爲依據，按照字段的活躍性，將表中字段拆到不一樣的表（主表和擴展表）中。
結果：
- 每一個表的結構都不同；
- 每一個表的數據也不同，通常來講，每一個表的字段至少有一列交集，通常是主鍵，用於關聯數據；
- 全部表的並集是全量數據；
場景：系統絕對併發量並無上來，表的記錄並很少，可是字段多，而且熱點數據和非熱點數據在一塊兒，單行數據所需的存儲空間較大。以致於數據庫緩存的數據行減小，查詢時會去讀磁盤數據產生大量的隨機讀IO，產生IO瓶頸。
分析：能夠用列表頁和詳情頁來幫助理解。垂直分表的拆分原則是將熱點數據（可能會冗餘常常一塊兒查詢的數據）放在一塊兒做爲主表，非熱點數據放在一塊兒做爲擴展表。這樣更多的熱點數據就能被緩存下來，進而減小了隨機讀IO。拆了以後，要想得到所有數據就須要關聯兩個表來取數據。但記住，千萬別用join，由於join不只會增長CPU負擔而且會講兩個表耦合在一塊兒（必須在一個數據庫實例上）。關聯數據，應該在業務Service層作文章，分別獲取主表和擴展表數據而後用關聯字段關聯獲得所有數據。

注：工具的利弊，請自行調研，官網和社區優先。函數

根據容量（當前容量和增加量）評估分庫或分表個數 -> 選key（均勻）-> 分表規則（hash或range等）-> 執行（通常雙寫）-> 擴容問題（儘可能減小數據的移動）。工具

基於水平分庫分表，拆分策略爲經常使用的hash法。優化

端上除了partition key只有一個非partition key做爲條件查詢
- 映射法
- 基因法
  注：寫入時，基因法生成user_id，如圖。關於xbit基因，例如要分8張表，2³=8，故x取3，即3bit基因。根據user_id查詢時可直接取模路由到對應的分庫或分表。根據user_name查詢時，先經過user_name_code生成函數生成user_name_code再對其取模路由到對應的分庫或分表。id生成經常使用snowflake算法。3d
端上除了partition key不止一個非partition key做爲條件查詢
- 映射法
- 冗餘法
  注：按照order_id或buyer_id查詢時路由到db_o_buyer庫中，按照seller_id查詢時路由到db_o_seller庫中。感受有點本末倒置！有其餘好的辦法嗎？改變技術棧呢？
後臺除了partition key還有各類非partition key組合條件查詢
- NoSQL法
- 冗餘法