MySql分庫分表與分區的區別和思考

時間 2019-12-01

標籤 mysql 分庫分表分區區別思考欄目 MySQL 简体版

原文原文鏈接

一.分分合合

　　說過不少次，不要拘泥於某一個技術的一點，技術是相通的。重要的是編程思想，思想是最重要的。當數據量大的時候，須要具備分的思想去細化粒度。當數據量太碎片的時候，須要具備合的思想來粗化粒度。html

1.1 分

　　不少技術都運用了分的編程思想，這裏來舉幾個例子，這些都是分的思想mysql

集中式服務發展到分佈式服務
從Collections.synchronizedMap(x)到1.7ConcurrentHashMap再到1.8ConcurrentHashMap，細化鎖的粒度的同時依舊保證線程安全
從AtomicInteger到LongAdder，ConcurrentHashMap的size()方法。用分散思想，減小cas次數，加強多線程對一個數的累加
JVM的G1 GC算法，將堆分紅不少Region來進行內存管理
Hbase的RegionServer中，將數據分紅多個Region進行管理
平時開發是否是線程池都資源隔離

2.2 合

　　不少技術也運用到了合的編程思想，這裏舉幾個例子，這些都是合的思想算法

TLAB（Thread Local Allocation Buffers），線程本地分配緩存。避免多線程衝突，提升對象分配效率
逃逸分析，將變量的實例化內存直接在棧裏分配，無需進入堆，線程結束棧空間被回收。減小臨時對象在堆內分配數量
CMS GC算法下，雖然使用標記清除，可是也有配置支持整理內存碎片。如：-XX:UseCMS-CompactAtFullCollection（FullGC後是否整理，Stop The World會變長）和-XX:CMSFullGCs-BeforeCompaction（幾回FullGC以後進行壓縮整理）
鎖粗化，當JIT發現一系列連續的操做都是對同一對象反覆加鎖和釋放鎖，會加大鎖同步的範圍
kafka的網絡數據傳輸有一些數據配置，減小網絡開銷。如：batch.size和linger.ms等等
平時開發是否是都個叫批量獲取接口

二.分區

　　本文一切基於MySql InnoDBsql

　　說了這麼多，接下來講主體，先說分區，由於以前博主寫過一篇MySql分區的博客因此這裏不會多費筆墨來寫，具體見：http://www.javashuo.com/article/p-myhkzsfl-ho.html數據庫

2.1 實現方式

　　具體如何實現上面連接裏有寫，這裏只需記住若是表中存在主鍵或惟一索引時，分區列必須是惟一索引的一個組成部分。編程

　　這個是數據庫分的，應用透明，代碼無需修改任何東西。緩存

2.2 內部文件

　　先去data目錄，若是不知道目錄位置的能夠執行：安全

　　接下來看下內部文件：網絡

　　從上圖咱們能夠看出，有2中類型的文件，.frm文件和.ibd文件多線程

.frm文件：表結構文件
.ibd文件：InnoDB中，索引和數據都在同個文件.ibdata（你的執行結果多是.MYD索引文件和.MYI數據文件，不要緊，這是MyIsAm存儲引擎，對應着InnoDB的.ibd文件）。由於Order這張表分爲5個區，因此有5個這樣的文件
.par文件：你執行的結果可能有.par文件也可能沒有。注意：從MySql 5.7.6開始，再也不建立.par分區定義文件。分區定義存儲在內部數據字典中。

2.3 數據處理

　　分區表後，提升了MySql性能。若是一張表的話，那就只有一個.ibd文件，一顆大的B+樹。若是分表後，將按分區規則，分紅不一樣的區，也就是一個大的B+樹，分紅多個小的樹。

　　（PS：若是想研究一顆彙集索引B+樹能夠放多少行數據，請看：http://www.javashuo.com/article/p-cktkdfzo-bh.html）

　　讀的效率確定提高了，若是走分區鍵索引的話，先走對應分區的輔助索引B+樹，再走對應分區的彙集索引B+樹。

　　若是沒有走分區鍵，將會在全部分區都會執行一次。會形成屢次邏輯IO！平時開發若是想查看sql語句的分區查詢可使用explain partitons select xxxxx語句。能夠看到一句select語句走了幾個分區。

mysql> explain partitions select * from TxnList where startTime>'2016-08-25 00:00:00' and startTime<'2016-08-25 23:59:00';  
+----+-------------+-------------------+------------+------+---------------+------+---------+------+-------+-------------+  
| id | select_type | table             | partitions | type | possible_keys | key  | key_len | ref  | rows  | Extra       |  
+----+-------------+-------------------+------------+------+---------------+------+---------+------+-------+-------------+  
|  1 | SIMPLE      | ClientActionTrack | p20160825  | ALL  | NULL          | NULL | NULL    | NULL | 33868 | Using where |  
+----+-------------+-------------------+------------+------+---------------+------+---------+------+-------+-------------+  
row in set (0.00 sec)

三.分庫分表

　　當一張表隨着時間和業務的發展，庫裏表的數據量會愈來愈大。數據操做也隨之會愈來愈大。一臺物理機的資源有限，最終能承載的數據量、數據的處理能力都會受到限制。這時候就會使用分庫分表來承接超大規模的表，單機放不下的那種。

　　區別於分區的是，分區通常都是放在單機裏的，用的比較多的是時間範圍分區，方便歸檔。只不過度庫分表須要代碼實現，分區則是mysql內部實現。分庫分表和分區並不衝突，能夠結合使用。

3.1 實現

3.1.1 分庫分表標準

存儲佔用100G+
數據增量天天200w+
單表條數1億條+

3.1.2 分庫分表字段

　　分庫分表字段取值很是重要

在大多數場景該字段是查詢字段
數值型

　　通常使用userId，能夠知足上述條件

3.2 分佈式數據庫中間件

　　分佈式數據庫中間件分爲兩種，proxy和客戶端式架構。proxy模式有MyCat、DBProxy等，客戶端式架構有TDDL、Sharding-JDBC等。那麼proxy和客戶端式架構有何區別呢？各自有什麼優缺點呢？其實看一張圖即可知曉。

　　proxy模式的話咱們的select和update語句都是發送給代理，由這個代理來操做具體的底層數據庫。因此必需要求代理自己須要保證高可用，不然數據庫沒有宕機，proxy掛了，那就走遠了。

　　客戶端模式一般在鏈接池上作了一層封裝，內部與不一樣的庫鏈接，sql交給smart-client進行處理。一般僅支持一種語言，若是其餘語言要使用，須要開發多語言客戶端。

　　各自的優缺點以下：

3.3 內部文件

　　找了一個分庫分表+分區的例子，基本上和分區表的差很少，只是多了多了不少表的.ibd文件，上面有文件的解釋：

[miaojiaxing@Grim testmydata]# ls | grep 'base_info'
base_info_00.frm
base_info_00#P#p_2018.ibd
base_info_00#P#p_2019.ibd
base_info_00#P#p_2020.ibd
base_info_00#P#p_2021.ibd
base_info_00#P#p_init.ibd
base_info_00#P#p_max.ibd
base_info_01.frm
base_info_01#P#p_2018.ibd
base_info_01#P#p_2019.ibd
base_info_01#P#p_2020.ibd
base_info_01#P#p_2021.ibd
base_info_01#P#p_init.ibd
base_info_01#P#p_max.ibd
base_info.frm
base_info.ibd