mysql 分庫分表的方法

分表後怎麼作全文搜索php

1.merge方式分表(很差)html

2. 使用 sql unionmysql

3 使用Sphinx全文檢索引擎linux

一,先說一下爲何要分表程序員

當一張的數據達到幾百萬時,你查詢一次所花的時間會變多,若是有聯合查詢的話,我想有可能會死在那兒了。分表的目的就在於此,減少數據庫的負擔,縮短查詢時間。算法

根據我的經驗,mysql執行一個sql的過程以下:
1,接收到sql;2,把sql放到排隊隊列中 ;3,執行sql;4,返回執行結果。在這個執行過程當中最花時間在什麼地方呢?第一,是排隊等待的時間,第二,sql的執行時間。其實這二個是一回事,等待的同時,確定有sql在執行。因此咱們要縮短sql的執行時間。sql

mysql中有一種機制是表鎖定和行鎖定,爲何要出現這種機制,是爲了保證數據的完整 性,我舉個例子來講吧,若是有二個sql都要修改同一張表的同一條數據,這個時候怎麼辦呢,是否是二個sql均可以同時修改這條數據呢?很顯然mysql 對這種狀況的處理是,一種是表鎖定(myisam存儲引擎),一個是行鎖定(innodb存儲引擎)。表鎖定表示大家都不能對這張表進行操做,必須等我對 表操做完才行。行鎖定也同樣,別的sql必須等我對這條數據操做完了,才能對這條數據進行操做。若是數據太多,一次執行的時間太長,等待的時間就越長,這 也是咱們爲何要分表的緣由。數據庫

 

垂直分割服務器

就是將一個大表分爲多個小表.把主碼和一些列放到一個表,而後把主碼和另外的列放到另外一個表中。
若是一個表中某些列經常使用,而另一些列不經常使用,則能夠採用垂直分割,另外垂直分割可使得數據行變小,一個數據頁就能存放更多的數據,在查詢時就會減小I/O次數。其缺點是須要管理冗餘列,查詢全部數據須要join操做。好比物料有不少屬性,不一樣的部門有不一樣的屬性需求,好比財務部門有財務的屬性要求,採購部門有采購的屬性要求,按部門要求不一樣拆分爲不一樣的表,僅將基本的公共屬性放在主表中,根據不一樣的部門要求建不一樣的表及查詢視圖,性能要好一些微信

 

常見的分表維度考慮

按時間分表

這種分表方式有必定的侷限性,當數據有較強的實效性,如微博發送記錄、微信消息記錄等,這種數據不多有用戶會查詢幾個月前的數據,如就能夠按月分表。

數據遷移的方式

當一些好久以前的數據,不多再查詢。好比員工工資表,咱們能夠只存今年的工資狀況。而歷史數據咱們能夠遷移到一張salary_old表中,保證數據不會丟失。但也能夠用來查詢。天天按期把今年中的最先一天的記錄納入舊錶中。這樣一方面能夠解決性能問題,最多也只須要讀2張表就完成了。

按熱度拆分

典型的像貼吧這種有高點擊率的詞條,也有低點擊率的詞條,若是一個詞條一張表,那得多少表啊,因此通常這種狀況就會對高點擊率的詞條生成 一張表,低熱度的詞條都放在一張大表裏,待低熱度的詞條達到必定的貼數後,好比1W條,再把低熱度的表單獨拆分紅一張表。

 

二,分表

1,作mysql集羣,例如:利用mysql cluster ,mysql proxy,mysql replication,drdb等等

有人會問mysql集羣,根分表有什麼關係嗎?雖然它不是實際意義上的分表,可是它啓到 了分表的做用,作集羣的意義是什麼呢?爲一個數據庫減輕負擔,說白了就是減小sql排隊隊列中的sql的數量,舉個例子:有10個sql請求,若是放在一 個數據庫服務器的排隊隊列中,他要等很長時間,若是把這10個sql請求,分配到5個數據庫服務器的排隊隊列中,一個數據庫服務器的隊列中只有2個,這樣 等待時間是否是大大的縮短了呢?這已經很明顯了。因此我把它列到了分表的範圍之內,我作過一些mysql的集羣:

linux mysql proxy 的安裝,配置,以及讀寫分離

mysql replication 互爲主從的安裝及配置,以及數據同步

優勢:擴展性好,沒有多個分表後的複雜操做(php代碼)

缺點:單個表的數據量仍是沒有變,一次操做所花的時間仍是那麼多,硬件開銷大。

2,預先估計會出現大數據量而且訪問頻繁的表,將其分爲若干個表

使用MD5哈希

作法是對UID進行md5加密,而後取前幾位(咱們這裏取前兩位),而後就能夠將不一樣的UID哈希到不一樣的用戶表(user_xx)中了

Java代碼   收藏代碼
  1. <?php  
  2. function get_hash_table($table, $userid)  
  3. {  
  4.     $str = crc32($userid);  
  5.     if ($str < 0) {  
  6.         $hash = "0" . substr(abs($str), 0, 1);  
  7.     } else {  
  8.         $hash = substr($str, 0, 2);  
  9.     }  
  10.     return $table . "_" . $hash;  
  11. }  
  12. //echo get_hash_table('message', 'user18991'); //結果爲message_10  
  13. //echo get_hash_table('message', 'user34523'); //結果爲message_13  
  14. function calc_hash_db($u, $s = 4) {  
  15.     $h = sprintf("%u", crc32($u));  
  16.     $h1 = intval(fmod($h, $s));  
  17.     return $h1;  
  18. }  
  19.   
  20. for ($i = 1; $i < 40; $i++) {  
  21.     echo calc_hash_tbl($i);  
  22.     echo "<br>";  
  23.     echo calc_hash_db($i);  
  24.     echo "<br>";  
  25. }  
  26.   
  27. function calc_hash_tbl($u, $n = 256, $m = 16) {  
  28.     $h = sprintf("%u", crc32($u));  
  29.     $h1 = intval($h / $n);  
  30.     $h2 = $h1 % $n;  
  31.     $h3 = base_convert($h2, 10, $m);  
  32.     $h4 = sprintf("%02s", $h3);  
  33.   
  34.     return $h4;  
  35. }  
  36. #################  
  37. function getTable( $uid ){  
  38.     $ext = substr ( md5($uid) ,0 ,2 );  
  39.     return "user_".$ext;  
  40. }  
  41. ###################  
  42. private function getDbNo($email)  
  43. {  
  44.     $m = md5($email);  
  45.     $n = hexdec(substr($m, 0, 16));  
  46.     $tableNo = fmod($n, 1000);  
  47.     $dbNo = $tableNo % 100;  
  48.     return array($dbNo, $tableNo);  
  49. }  

經過這個技巧,咱們能夠將不一樣的UID分散到256中用戶表中,分別是user_00,user_01 ……    user_ff。由於UID是數字且遞增,根據md5的算法,能夠將用戶數據幾乎很均勻的分別到不一樣的user表中。

可是這裏有個問題是,若是咱們的系統的用戶愈來愈多,勢必單張表的數據量愈來愈大,並且根據這種算法沒法擴展表,這又會回到文章開頭出現的問題了。

使用移位

Java代碼   收藏代碼
  1. /** 
  2.  * 根據UID分表算法 
  3.  * 
  4.  * @param int $uid  //用戶ID 
  5.  * @param int $bit    //表後綴保留幾位 
  6.  * @param int $seed //向右移動位數 
  7.  */  
  8. function getTable( $uid , $bit , $seed ){  
  9.     return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );  
  10.     return "user_" . sprintf( "%04d", ($uid >> 20) );  
  11.   
  12. }  

這裏,咱們將uid向右移動20位,這樣咱們就能夠把大約前100萬的用戶數據放在第一個表user_0000,第二個100萬的用戶數據放在第二 個表user_0001中,這樣一直下去,若是咱們的用戶愈來愈多,直接添加用戶表就好了。因爲咱們保留的表後綴是四位,這裏咱們能夠添加1萬張用戶表, 即user_0000,user_0001 …… user_9999。一萬張表,每張表100萬數據,咱們能夠存100億條用戶記錄。固然,若是你的用戶數據比這還多,也沒關係,你只要改變保留表後綴來 增長能夠擴展的表就好了,如若是有1000億條數據,每一個表存100萬,那麼你須要10萬張表,咱們只要保留表後綴爲6位便可。

上面兩種方法,都要對咱們當前系統的用戶數據量作出可能最大的預估,而且對數據庫單個表的最大承受量作出預估。

好比第二種方案,若是咱們預估咱們系統的用戶是100億,單張表的最優數據量是100萬,那麼咱們就須要將UID移動20來確保每一個表是100萬的數據,保留用戶表(user_xxxx)四位來擴展1萬張表。

又如第一種方案,每張表100萬,md5後取前兩位,就只能有256張表了,系統總數據庫就是:256*100萬;若是你係統的總數據量的比這還多,那你實現確定要MD5取前三位或者四位甚至更多位了。

兩種方法都是將數據水平切分到不一樣的表中,相對第一種方法,第二種方法更具擴展性。

 

3,利用merge存儲引擎來實現分表

我以爲這種方法比較適合,那些沒有事先考慮,而已經出現了得,數據查詢慢的狀況。這個時 候若是要把已有的大數據量表分開比較痛苦,最痛苦的事就是改代碼,由於程序裏面的sql語句已經寫好了,如今一張表要分紅幾十張表,甚至上百張表,這樣 sql語句是否是要重寫呢?舉個例子,我很喜歡舉子

mysql>show engines;的時候你會發現mrg_myisam其實就是merge。

Java代碼   收藏代碼
  1. CREATE TABLE IF NOT EXISTS `user1` (    
  2.     `id` int(11) NOT NULL AUTO_INCREMENT,    
  3.     `name` varchar(50) DEFAULT NULL,    
  4.     `sex` int(1) NOT NULL DEFAULT '0',    
  5.     PRIMARY KEY (`id`)    
  6.   ) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;    
  7. Query OK, 0 rows affected (0.05 sec)  
  8.   
  9.  CREATE TABLE IF NOT EXISTS `user2` (    
  10.     `id` int(11) NOT NULL AUTO_INCREMENT,    
  11.     `name` varchar(50) DEFAULT NULL,    
  12.     `sex` int(1) NOT NULL DEFAULT '0',    
  13.     PRIMARY KEY (`id`)    
  14.   ) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;    
  15. Query OK, 0 rows affected (0.01 sec)  
  16.   
  17. mysql> INSERT INTO `user1` (`name`, `sex`) VALUES('張映', 0);  
  18. Query OK, 1 row affected (0.00 sec)  
  19.   
  20. mysql> INSERT INTO `user2` (`name`, `sex`) VALUES('tank', 1);  
  21. Query OK, 1 row affected (0.00 sec)  
  22.   
  23. CREATE TABLE IF NOT EXISTS `alluser` (  
  24.     `id` int(11) NOT NULL AUTO_INCREMENT,  
  25.     `name` varchar(50) DEFAULT NULL,  
  26.     `sex` int(1) NOT NULL DEFAULT '0',  
  27.     INDEX(id)  
  28.   ) TYPE=MERGE UNION=(user1,user2) INSERT_METHOD=LAST AUTO_INCREMENT=1 ;  
  29. Query OK, 0 rows affected, 1 warning (0.00 sec)  
  30.   
  31. mysql> select id,name,sex from alluser;  
  32. +----+--------+-----+  
  33. | id | name   | sex |  
  34. +----+--------+-----+  
  35. |  1 | 張映 |   0 |  
  36. |  1 | tank   |   1 |  
  37. +----+--------+-----+  
  38. 2 rows in set (0.00 sec)  
  39.   
  40. mysql> INSERT INTO `alluser` (`name`, `sex`) VALUES('tank2', 0);  
  41. Query OK, 1 row affected (0.00 sec)  
  42.   
  43. mysql> select id,name,sex from user2  
  44.  -> ;  
  45. +----+-------+-----+  
  46. | id | name  | sex |  
  47. +----+-------+-----+  
  48. |  1 | tank  |   1 |  
  49. |  2 | tank2 |   0 |  
  50. +----+-------+-----+  
  51. 2 rows in set (0.00 sec)  

從上面的操做中,我不知道你有沒有發現點什麼?假如我有一張用戶表user,有50W條數據,如今要拆成二張表user1和user2,每張表25W條數據,

INSERT INTO user1(user1.id,user1.name,user1.sex)SELECT (user.id,user.name,user.sex)FROM user where user.id <= 250000

INSERT INTO user2(user2.id,user2.name,user2.sex)SELECT (user.id,user.name,user.sex)FROM user where user.id > 250000

這樣我就成功的將一張user表,分紅了二個表,這個時候有一個問題,代碼中的sql語 句怎麼辦,之前是一張表,如今變成二張表了,代碼改動很大,這樣給程序員帶來了很大的工做量,有沒有好的辦法解決這一點呢?辦法是把之前的user表備份 一下,而後刪除掉,上面的操做中我創建了一個alluser表,只把這個alluser表的表名改爲user就好了。可是,不是全部的mysql操做都能 用的

a,若是你使用 alter table 來把 merge 表變爲其它表類型,到底層表的映射就被丟失了。取而代之的,來自底層 myisam 表的行被複制到已更換的表中,該表隨後被指定新類型。

b,網上看到一些說replace不起做用,我試了一下能夠起做用的。暈一個先

Java代碼   收藏代碼
  1. mysql> UPDATE alluser SET sex=REPLACE(sex, 0, 1) where id=2;    
  2. Query OK, 1 row affected (0.00 sec)    
  3.  Rows matched: 1  Changed: 1  Warnings: 0    
  4.      
  5.  mysql> select * from alluser;    
  6.  +----+--------+-----+    
  7.  | id | name   | sex |    
  8.  +----+--------+-----+    
  9.  |  1 | 張映 |   0 |    
  10.  |  1 | tank   |   1 |    
  11.  |  2 | tank2  |   1 |    
  12.  +----+--------+-----+    
  13.  3 rows in set (0.00 sec)    

c,一個 merge 表不能在整個表上維持 unique 約束。當你執行一個 insert,數據進入第一個或者最後一個 myisam 表(取決於 insert_method 選項的值)。mysql 確保惟一鍵值在那個 myisam 表裏保持惟一,但不是跨集合裏全部的表。

d,當你建立一個 merge 表之時,沒有檢查去確保底層表的存在以及有相同的機構。當 merge 表被使用之時,mysql 檢查每一個被映射的表的記錄長度是否相等,但這並不十分可靠。若是你從不類似的 myisam 表建立一個 merge 表,你很是有可能撞見奇怪的問題。

好睏睡覺了,c和d在網上看到的,沒有測試,你們試一下吧。

優勢:擴展性好,而且程序代碼改動的不是很大

缺點:這種方法的效果比第二種要差一點

 

三,總結一下

上面提到的三種方法,我實際作過二種,第一種和第二種。第三種沒有作過,因此說的細一 點。哈哈。作什麼事都有一個度,超過個度就過變得不好,不能一味的作數據庫服務器集羣,硬件是要花錢買的,也不要一味的分表,分出來1000 表,mysql的存儲歸根到底還以文件的形勢存在硬盤上面,一張表對應三個文件,1000個分表就是對應3000個文件,這樣檢索起來也會變的很慢 。個人 建議是

方法1和方法2結合的方式來進行分表

方法1和方法3結合的方式來進行分表

個人二個建議適合不一樣的狀況,根據我的狀況而定,我以爲會有不少人選擇方法1和方法3結合的方式

 

分庫分表產生的問題,及注意事項1. 分庫分表維度的問題假如用戶購買了商品,須要將交易記錄保存取來,若是按照用戶的緯度分表,則每一個用戶的交易記錄都保存在同一表中,因此很快很方便的查找到某用戶的購買狀況,可是某商品被購買的狀況則頗有可能分佈在多張表中,查找起來比較麻煩。反之,按照商品維度分表,能夠很方便的查找到此商品的購買狀況,但要查找到買人的交易記錄比較麻煩。 因此常見的解決方式有:     a.經過掃表的方式解決,此方法基本不可能,效率過低了。     b.記錄兩份數據,一份按照用戶緯度分表,一份按照商品維度分表。     c.經過搜索引擎解決,但若是實時性要求很高,又得關係到實時搜索。2. 聯合查詢的問題聯合查詢基本不可能,由於關聯的表有可能不在同一數據庫中。 3.   避免跨庫事務避免在一個事務中修改db0中的表的時候同時修改db1中的表,一個是操做起來更復雜,效率也會有必定影響。4.   儘可能把同一組數據放到同一DB服務器上例如將賣家a的商品和交易信息都放到db0中,當db1掛了的時候,賣家a相關的東西能夠正常使用。也就是說避免數據庫中的數據依賴另外一數據庫中的數據。

相關文章
相關標籤/搜索