筆者以爲,分庫分表確實好的。可是,動不動搞分庫分表,太麻煩了。分庫分表雖然是提升數據庫性能的常規辦法,可是太麻煩了。因此,嘗試研究mysql的分區到底如何。html
以前寫過一篇文章,http://www.cnblogs.com/wangtao_20/p/7115962.html 討論過訂單表的分庫分表,折騰起來工做量挺大的,須要多少技術去折騰。作過的人才知道有多麻煩mysql
要按照什麼字段切分,切分數據後,要遷移數據;分庫分表後,會涉及到跨庫、跨表查詢,爲了解決查詢問題,又得用其餘方案來彌補(好比爲了應對查詢得作用戶訂單關係索引表)。工做量確實不小。算法
從網上也能夠看到,大部分實施過的人(成功的)的經驗總結:水平分表,不是必須的,能不作,儘可能不作。sql
一、探討分區的原理數據庫
瞭解分區到底在作什麼,存儲的數據文件有什麼變化,這樣知道分區是怎麼提升性能的。服務器
實際上:每一個分區都有本身獨立的數據、索引文件的存放目錄。本質上,一個分區,實際上對應的是一個磁盤文件。因此分區越多,文件數越多。架構
如今使用innodb存儲較多,mysql默認的存儲引擎從mysiam變爲了innodb了。併發
以innodb來討論:函數
innodb存儲引擎一張表,對應兩個文件:表名.ibd、表名.frm。性能
若是分區後,一個分區就單獨一個ibd文件,以下圖:
將fs_punch_in_log表拆分紅4個分區,上圖中看到,每一個分區就變成一個單獨的數據文件了。mysql會使用"#p#p1"來命名數據文件,1是分區的編號。總共4個分區,最大值是4。
分表的原理,實際上相似,一個表對應一個數據文件。分表後,數據分散到多個文件去了。性能就提升了。
分區後的查詢語句
語句仍是按照原來的使用。但爲了提升性能。仍是儘可能避免跨越多個分區匹配數據。
以下圖,因爲表是按照id字段分區的。數據分散在多個分區。如今使用user_id做爲條件去查詢。mysql不知道到底分配在哪一個分區。因此要去所有分區掃描,若是每一個分區的數據量大,這樣就耗時很長了。
分區思路和分區語句
id字段的值範圍來分區:在1-2千萬分到p0分區,4千萬到-6千萬p1分區。6千萬到8千萬p2分區。依此推算下去。這樣能夠分紅不少的分區了。
爲了保持線性擴容方便。那麼只能使用range範圍來算了。
sql以下
CREATE TABLE `fs_punch_in_log` ( `id` bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT '主鍵自增' , `user_id` varchar(50) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT '簽到的用戶id' , `punch_in_time` int(10) UNSIGNED NULL DEFAULT NULL COMMENT '打卡簽到時間戳' , PRIMARY KEY (`id`) )
partition BY RANGE (id) (
PARTITION p1 VALUES LESS THAN (40000000),
PARTITION p2 VALUES LESS THAN (80000000),
PARTITION p3 VALUES LESS THAN (120000000),
PARTITION p4 VALUES LESS THAN MAXVALUE
);
以上語句通過筆者測驗,注意點:
狀況:若是表結構已經定義好了,裏面有數據了,怎麼進行分區呢?使用alter語句修改便可,通過筆者測驗了。
ALTER TABLE `fs_punch_in_log` PARTITION BY RANGE (id) ( PARTITION p1 VALUES LESS THAN (40000000), PARTITION p2 VALUES LESS THAN (80000000), PARTITION p3 VALUES LESS THAN (120000000), PARTITION p4 VALUES LESS THAN MAXVALUE )
注:因爲表裏面已經存在數據了,進行從新分區,mysql會把數據按照分區規則從新移動一次,生成新的文件。若是數據量比較大,耗時間比較長。
2、四種分區類型
mysql分區包括四種分區方式:hash分區、按range分區、按key分區、list分區。
四種有點多,實際上,爲了好記,把類再縮小點,就兩大類方式進行分區:一種是計算hash值、一種是按照範圍值。
其實分庫分表的時候,也會用到兩大類,hash運算分、按值範圍分。
一、HASH分區
有常規hash和線性hash兩種方式。
怎麼算出新插入一行數據,須要放到分區1,仍是分區4呢? id的值除以4,餘下1,這一行數據就分到1分區。
常規hash,可讓數據很是平均的分佈每個分區。好比分爲4個取,取餘數,餘數老是0-3之間的值(總到這幾個分區去)。分配打散比較均勻。
可是也是有缺點的:因爲分區的規則在建立表的時候已經固定了,數據就已經打散到各個分區。如今若是須要新增分區、減小分區,運算規則變化了,原來已經入庫的數據,就須要適應新的運算規則來作遷移。
實際上在分庫分表的時候,使用hash方式,也是數據量遷移的問題。不過還好。
針對這個狀況,增長了線性hash的方式。
實際上線性hash算法,就是咱們memcache接觸到的那種一致性hash算法。使用虛擬節點的方式,解決了上面hash方式分區時,當新增長分區後,涉及到的數據須要大量遷移的問題。也不是不須要遷移,而是須要遷移的數據量小。
在技術實現上:線性哈希功能使用的一個線性的2的冪(powers-of-two)運算法則,而常規哈希使用的是求哈希函數值的模數。
線性哈希分區和常規哈希分區在語法上的惟一區別在於,在「PARTITION BY」子句中添加「LINEAR」關鍵字。
二者也有有相同的地方:
考慮之後遷移數據量少,使用線性hash。
二、按照range範圍分區
範圍分區,能夠自由指定範圍。好比指定1-2000是一個分區,2000到5000千又是一個分區。範圍徹底能夠本身定。後面我要添加新的分區,很容易嗎?
三、按key分區
相似於按HASH分區,區別在於KEY分區只支持計算一列或多列,且MySQL服務器提供其自身的哈希函數。必須有一列或多列包含整數值。
四、按list方式分區
能夠把list當作是在range方式的基礎上的改進版。list和range本質都是基於範圍,本身控制範圍。
range是列出範圍,好比1-2000範圍算一個分區,這樣是一個連續的值。
而list分區方式是枚舉方式。能夠指定在1,5,8,9,20這些值都分在第一個分區。從list單詞的字面意思命名暗示就是列表,指定列表中出現的值都分配在第幾個分區。
3、如何根據業務選擇分區類型
一、什麼時候選擇分區,什麼時候選擇分表
分表仍是比分區更加靈活。在代碼中能夠本身控制。通常分表會與分庫結合起來使用的。在進行分表的時候,順帶連分庫方案也一塊兒搞定了。
分表分庫,性能和併發能力要比分區要強。分表後,有個麻煩點:本身須要修改代碼去不一樣的表操做數據。