分區php
分區就是把一個數據表的文件和索引分散存儲在不一樣的物理文件中。mysql
mysql支持的分區類型包括Range、List、Hash、Key,其中Range比較經常使用:sql
RANGE分區:基於屬於一個給定連續區間的列值,把多行分配給分區。數據庫
LIST分區:相似於按RANGE分區,區別在於LIST分區是基於列值匹配一個離散值集合中的某個值來進行選擇。服務器
HASH分區:基於用戶定義的表達式的返回值來進行選擇的分區,該表達式使用將要插入到表中的這些行的列值進行計算。這個函數能夠包含MySQL 中有效的、產生非負整數值的任何表達式。網絡
KEY分區:相似於按HASH分區,區別在於KEY分區只支持計算一列或多列,且MySQL服務器提供其自身的哈希函數。必須有一列或多列包含整數值。less
案例:函數
創建一個user 表 以id進行分區 id 小於10的在user_1分區id小於20的在user_2分區工具
create table user( id int not null auto_increment, username varchar(10), primary key(id) )engine = innodb charset=utf8 partition by range (id)( partition user_1 values less than (10), partition user_2 values less than (20) );
創建後添加分區:性能
maxvalue 表示最大值 這樣大於等於20的id 都出存儲在user_3分區
alter table user add partition( partition user_3 values less than maxvalue );
刪除分區:
alter table user drop partition user_3;
如今打開mysql的數據目錄
能夠看見多了user#P#user_1.ibd 和user#P#user_2.ibd 這兩個文件
若是表使用的存儲引擎是MyISAM類型,就是:
user#P#user_1.MYD,user#P#user_1.MYI和user#P#user_2.MYD,user#P#user_2.MYI
因而可知,mysql經過分區把數據保存到不一樣的文件裏,同時索引也是分區的。相對於未分區的表來講,分區後單獨的數據庫文件索引文件的大小都明顯下降,效率則明顯的提示了。能夠插入一條數據而後分析查詢語句驗證一下:
insert into user values(null,'測試'); explain partitions select * from user where id =1;
能夠看見僅僅在user_1分區執行了這條查詢。
具體分區的效率是多少還須要看數據量。在分區時能夠經過 DATA DIRECTORY 和 INDEX DIRECTORY 選項吧不一樣的分區放到不一樣的磁盤上進一步提升系統的I/O吞吐量。
分區類型的選擇,一般使用Range類型,不過有些狀況,好比主從結構中,主服務器不多使用‘select’查詢,在主服務器上使用 Range類型分區一般沒有太大的意義,此時使用Hash類型分區更好例如:
partition by hash(id) partitions 10;
當插入數據時,根據id吧數據平均散到各個分區上,因爲文件小,效率高,更新操做變得更快。
在分區時使用的字段,一般狀況下按時間字段分區,具體狀況以需求而定。劃分應用的方式有不少種,好比按時間或用戶,哪一種用的多,就選擇哪一種分區。若是使用主從結構可能就更加靈活,有的從服務器使用時間,有的使用用戶。不過如此一來當執行查詢時,程序應該負責選擇真確的服務器查詢,寫個mysql proxy腳本應該能夠透明的實現。
分區的限制:
1.主鍵或者惟一索引必須包含分區字段,如primary key (id,username),不過innoDB的大組建性能很差。
2.不少時候,使用分區就不要在使用主鍵了,不然可能影響性能。
3.只能經過int類型的字段或者返回int類型的表達式來分區,一般使用year或者to_days等函數(mysql 5.6 對限制開始放開了)。
4.每一個表最多1024個分區,並且多分區會大量消耗內存。
5.分區的表不支持外鍵,相關的邏輯約束須要使用程序來實現。
6.分區後,可能會形成索引失效,須要驗證分區可行性。
分區模式詳解:
* Range(範圍) – 這種模式容許DBA將數據劃分不一樣範圍。例如DBA能夠將一個表經過年份劃分紅三個分區,80年代(1980's)的數據,90年代(1990's)的數據以及任何在2000年(包括2000年)後的數據。
CREATE TABLE users ( id INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, usersname VARCHAR(30) NOT NULL DEFAULT '', email VARCHAR(30) NOT NULL DEFAULT '' ) PARTITION BY RANGE (id) ( PARTITION p0 VALUES LESS THAN (3000000), PARTITION p1 VALUES LESS THAN (6000000), PARTITION p2 VALUES LESS THAN (9000000), PARTITION p3 VALUES LESS THAN MAXVALUE );
在這裏,將用戶表分紅4個分區,以每300萬條記錄爲界限,每一個分區都有本身獨立的數據、索引文件的存放目錄。
還能夠將這些分區所在的物理磁盤分開徹底獨立,能夠提升磁盤IO吞吐量。
CREATE TABLE users ( id INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, usersname VARCHAR(30) NOT NULL DEFAULT '', email VARCHAR(30) NOT NULL DEFAULT '' ) PARTITION BY RANGE (id) ( PARTITION p0 VALUES LESS THAN (3000000) DATA DIRECTORY = '/data0/data' INDEX DIRECTORY = '/data0/index', PARTITION p1 VALUES LESS THAN (6000000) DATA DIRECTORY = '/data1/data' INDEX DIRECTORY = '/data1/index', PARTITION p2 VALUES LESS THAN (9000000) DATA DIRECTORY = '/data2/data' INDEX DIRECTORY = '/data2/index', PARTITION p3 VALUES LESS THAN MAXVALUE DATA DIRECTORY = '/data3/data' INDEX DIRECTORY = '/data3/index' );
* List(預約義列表) – 這種模式容許系統經過DBA定義的列表的值所對應的行數據進行分割。例如:DBA根據用戶的類型進行分區。
CREATE TABLE user ( id INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, name VARCHAR(30) NOT NULL DEFAULT '' , user_type int not null ) PARTITION BY LIST (user_type ) ( PARTITION p0 VALUES IN (0,4,8,12) , PARTITION p1 VALUES IN (1,5,9,13) , PARTITION p2 VALUES IN (2,6,10,14), PARTITION p3 VALUES IN (3,7,11,15) );
分紅4個區,一樣能夠將分區設置的獨立的磁盤中。
* Key(鍵值) – 上面Hash模式的一種延伸,這裏的Hash Key是MySQL系統產生的。
CREATE TABLE user ( id INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, name VARCHAR(30) NOT NULL DEFAULT '', email VARCHAR(30) NOT NULL DEFAULT '' ) PARTITION BY KEY (id) PARTITIONS 4 ( PARTITION p0, PARTITION p1, PARTITION p2, PARTITION p3 );
* Hash(哈希) – 這中模式容許DBA經過對錶的一個或多個列的Hash Key進行計算,最後經過這個Hash碼不一樣數值對應的數據區域進行分區,。例如DBA能夠創建一個對錶主鍵進行分區的表。
CREATE TABLE user ( id INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, username VARCHAR(30) NOT NULL DEFAULT '', email VARCHAR(30) NOT NULL DEFAULT '' ) PARTITION BY HASH (id) PARTITIONS 4 ( PARTITION p0 , PARTITION p1, PARTITION p2, PARTITION p3 );
分紅4個區,一樣能夠將分區設置的獨立的磁盤中。
= 分區管理 =
刪除分區
ALERT TABLE users DROP PARTITION p0;
重建分區
RANGE 分區重建
ALTER TABLE users REORGANIZE PARTITION p0,p1 INTO (PARTITION p0 VALUES LESS THAN (6000000));
將原來的 p0,p1 分區合併起來,放到新的 p0 分區中。
LIST 分區重建
ALTER TABLE users REORGANIZE PARTITION p0,p1 INTO (PARTITION p0 VALUES IN(0,1,4,5,8,9,12,13));
將原來的 p0,p1 分區合併起來,放到新的 p0 分區中。
HASH/KEY 分區重建
ALTER TABLE users REORGANIZE PARTITION COALESCE PARTITION 2;
用 REORGANIZE 方式重建分區的數量變成2,在這裏數量只能減小不能增長。想要增長能夠用 ADD PARTITION 方法。
新增分區
新增 RANGE 分區
alter table user add partition(partition user_3 values less than maxvalue);
新增 LIST 分區
ALTER TABLE category ADD PARTITION (PARTITION p4 VALUES IN (16,17,18,19));
新增 HASH/KEY 分區
ALTER TABLE users ADD PARTITION PARTITIONS 8;
將分區總數擴展到8個。
給已有的表加上分區
alter table results partition by RANGE (month(ttime)) (PARTITION p0 VALUES LESS THAN (1), PARTITION p1 VALUES LESS THAN (2) , PARTITION p2 VALUES LESS THAN (3) , PARTITION p3 VALUES LESS THAN (4) , PARTITION p4 VALUES LESS THAN (5) , PARTITION p5 VALUES LESS THAN (6) , PARTITION p6 VALUES LESS THAN (7) , PARTITION p7 VALUES LESS THAN (8) , PARTITION p8 VALUES LESS THAN (9) , PARTITION p9 VALUES LESS THAN (10) , PARTITION p10 VALUES LESS THAN (11), PARTITION p11 VALUES LESS THAN (12), PARTITION P12 VALUES LESS THAN (13) );
分表
分表和分區相似,區別是,分區是把一個邏輯表文件分紅幾個物理文件後進行存儲,而分表則是把原先的一個表分紅幾個表。進行分表查詢時能夠經過union或者視圖。
分表又分垂直分割和水平分割,其中水平分分割最爲經常使用。水平分割一般是指切分到另一個數據庫或表中。例如對於一個會員表,按對3的模進行分割:
table = id%3
若是id%3 = 0 則將用戶數據放入到user_0表中,如id%3=1就放入user_1表中,依次類推。
在這裏有個問題,這個uid應該是全部會員按序增加的,可他是怎麼獲得的呢?使用auto_increment是不行的,這樣就用到序列了。
對於一些流量統計系統,其數據量比較大,而且對過往數據的關注度不高,這時按年、月、日進行分表,將每日統計信息放到一個以日期命名的表中;或者按照增量進行分表,如每一個表100萬數據,超過100萬就放入第二個表。還能夠按Hash進行分表,可是按日期和取模餘數分表最爲常見,也容易擴展。
分表後可能會遇到新的問題,那就是查詢,分頁和統計。通用的方法是在程序中進行處理,輔助視圖。
使用分表案例:
案例1:
對會員數據對5取模,放在5個表中,如何查詢會員數據:
1.已知id查詢會員數據,代碼以下:
<?php //查詢單個會員數據 $customer_table = 'customer'.$id%5; $sql = 'select * from '.$customer_table.' where customer_id = '.$id; //查詢所有會員數據 $sql = ''; $tbale = ['customer0','customer1','customer2','customer3','customer4']; foreach($table as $v){ $sql .='select * from '.$v.' union'; } $sql = substr($sql,0,-5); ?>
這樣就能夠查詢某一個會員的數據或者所有會員的數據了。同理,分頁的話在這個大集合中使用limit 就能夠了。可是這樣作又會有一個疑問,把全部的表連起來查詢和部分表沒有什麼區別,其實在實際的應用中,不可能查看全部的會員資料,一次查看20個而後分頁。徹底沒有必要作union,僅查詢一個表就能夠了,惟一須要考慮的是在分頁零界點時的銜接。其實,這個銜接是否那麼重要?即便偶爾出現幾條數據的差別,也不會對業務有任何的影響。
2.和其它表進行關聯和1相似。
3.根據會員姓名搜索用戶信息。在這種需求下,須要搜索全部的表,並對結果進行彙總。雖然這樣作產生了屢次的查詢,但並不表明效率低。好的sql語句執行10次也比差的sql語句執行一次快。
案例2:
在一個流量監控系統中,因爲網絡流量巨大,統計數據很龐大,須要按天分表。先要獲得任意日,周,月的數據。
1.須要任意一天的數據。直接查詢當天的數據表便可。
2.須要幾天的數據。分愛查詢這幾天的數據,而後進行彙總。
3.須要查詢一週的數據。對一週的數據按期彙總到一個week表,從這個表裏面查詢。這個彙總過程能夠由一個外部程序完成,也能夠由按期的腳本完成。
4.查詢一個月的數據。彙總本月全部的數據到month表,在此表查詢。
5.查詢5個月內的詳細數據。不支持。僅支持最多3個月的詳細數據。數據沒3個月已歸檔一次。在大數據的處理中,必須作出一些犧牲。對於超出3個月的數據,僅提供統計數據,詳細數據須要查看歸檔。90天或者180天,給數據保存設個界限,也是大部分這類系統的常規作法,超出90天的數據就再也不提供數據詳單了。好比,移動的通話記錄最多保存半年,即180天,超過這個範圍的數據不在提供查詢。若是你實在須要,可能就要聯繫移動的工程師了。
分表前應該儘可能按照實際業務來分表,參考依據就是哪些字段在查詢中起到做用,那就這些字段來分表,而且須要在分表前就估算好規模,也就是先肯定好規則在分表。
對於分表後的操做,依然是聯合查詢,視圖等基本操做,或者使用merge引擎合併數據並在此表中查詢。複雜一些操做須要藉助存儲過程來完成,藉助外部工具實現對分表的管理。
對於比較龐大的數據,不管是否進行分表,都必須考慮功能和效率的平衡性,並在功能上作出讓步。咱們不能事事遷就用戶,而應該對某些影響效率的功能作出限制。例如移動公司的180天限制、論壇禁止對老帖進行回覆等。