原文版權 html
當MySQL單表記錄數過大時,增刪改查性能都會急劇降低,能夠參考如下步驟來優化:前端
除非單表數據將來會一直不斷上漲,不然不要一開始就考慮拆分,拆分會帶來邏輯、部署、運維的各類複雜度,通常以整型值爲主的表在千萬級
如下,字符串爲主的表在五百萬
如下是沒有太大問題的。而事實上不少時候MySQL單表的性能依然有很多優化空間,甚至能正常支撐千萬級以上的數據量:node
TINYINT
、SMALLINT
、MEDIUM_INT
做爲整數類型而非INT
,若是非負則加上UNSIGNED
VARCHAR
的長度只分配真正須要的空間TIMESTAMP
而非DATETIME
,WHERE
和ORDER BY
命令上涉及的列創建索引,可根據EXPLAIN
來查看是否用了索引仍是全表掃描WHERE
子句中對字段進行NULL
值判斷,不然將致使引擎放棄使用索引而進行全表掃描UNIQUE
,由程序保證約束SELECT id WHERE age + 1 = 10
,任何對列的操做都將致使表掃描,它包括數據庫教程函數、計算表達式等等,查詢時要儘量將操做移至等號右邊SELECT *
OR
改寫成IN
:OR
的效率是n級別,IN
的效率是log(n)級別,in的個數建議控制在200之內%xxx
式查詢JOIN
'123'
和'123'
比,123
和123
比WHERE
子句中使用!=或<>操做符,不然將引擎放棄使用索引而進行全表掃描BETWEEN
不用IN
:SELECT id FROM t WHERE num BETWEEN 1 AND 5
LIMIT
來分頁,每頁數量也不要太大目前普遍使用的是MyISAM和InnoDB兩種引擎:python
MyISAM引擎是MySQL 5.1及以前版本的默認引擎,它的特色是:mysql
BLOB
和TEXT
的前500個字符索引,支持全文索引InnoDB在MySQL 5.5後成爲默認索引,它的特色是:git
整體來說,MyISAM適合SELECT
密集型的表,而InnoDB適合INSERT
和UPDATE
密集型的表github
可使用下面幾個工具來作基準測試:web
具體的調優參數內容較多,具體可參考官方文檔,這裏介紹一些比較重要的參數:sql
show status like 'key_read%'
,保證key_reads / key_read_requests
在0.1%如下最好show status like 'Innodb_buffer_pool_read%'
,保證(Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests
越高越好(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))
進行調整,通常不建議太大,256MB可能已經差很少了,大型的配置型靜態數據可適當調大. 能夠經過命令show status like 'Qcache_%'
查看目前系統Query catch使用大小ORDER BY
的速度,首先看是否可讓MySQL使用索引而不是額外的排序階段。若是不能,能夠嘗試增長sort_buffer_size變量的大小Scale up,這個很少說了,根據MySQL是CPU密集型仍是I/O密集型,經過提高CPU和內存、使用SSD,都能顯著提高MySQL性能數據庫
也是目前經常使用的優化,從庫讀主庫寫,通常不要採用雙主或多主引入不少複雜性,儘可能採用文中的其餘方案來提升性能。同時目前不少拆分的解決方案同時也兼顧考慮了讀寫分離
緩存能夠發生在這些層次:
Persistence Object
Data Transfer Object
能夠根據實際狀況在一個層次或多個層次結合加入緩存。這裏重點介紹下服務層的緩存實現,目前主要有兩種方式:
MySQL在5.1版引入的分區是一種簡單的水平拆分,用戶須要在建表的時候加上分區參數,對應用是透明的無需修改代碼
對用戶來講,分區表是一個獨立的邏輯表,可是底層由多個物理子表組成,實現分區的代碼其實是經過對一組底層表的對象封裝,但對SQL層來講是一個徹底封裝底層的黑盒子。MySQL實現分區的方式也意味着索引也是按照分區的子表定義,沒有全局索引
用戶的SQL語句是須要針對分區表作優化,SQL條件中要帶上分區條件的列,從而使查詢定位到少許的分區上,不然就會掃描所有分區,能夠經過EXPLAIN PARTITIONS
來查看某條SQL語句會落在那些分區上,從而進行SQL優化,以下圖5條記錄落在兩個分區上:
mysql> explain partitions select count(1) from user_partition where id in (1,2,3,4,5);
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| 1 | SIMPLE | user_partition | p1,p4 | range | PRIMARY | PRIMARY | 8 | NULL | 5 | Using where; Using index |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
1 row in set (0.00 sec)
複製代碼
分區的好處是:
分區的限制和缺點:
分區的類型:
分區適合的場景有:
CREATE TABLE members (
firstname VARCHAR(25) NOT NULL,
lastname VARCHAR(25) NOT NULL,
username VARCHAR(16) NOT NULL,
email VARCHAR(35),
joined DATE NOT NULL
)
PARTITION BY RANGE( YEAR(joined) ) (
PARTITION p0 VALUES LESS THAN (1960),
PARTITION p1 VALUES LESS THAN (1970),
PARTITION p2 VALUES LESS THAN (1980),
PARTITION p3 VALUES LESS THAN (1990),
PARTITION p4 VALUES LESS THAN MAXVALUE
);
複製代碼
查詢時加上時間範圍條件效率會很是高,同時對於不須要的歷史數據能很容的批量刪除。
另外MySQL有一種早期的簡單的分區實現 - 合併表(merge table),限制較多且缺少優化,不建議使用,應該用新的分區機制來替代
垂直分庫是根據數據庫裏面的數據表的相關性進行拆分,好比:一個數據庫裏面既存在用戶數據,又存在訂單數據,那麼垂直拆分能夠把用戶數據放到用戶庫、把訂單數據放到訂單庫。垂直分表是對數據表進行垂直拆分的一種方式,常見的是把一個多字段的大表按經常使用字段和很是用字段進行拆分,每一個表裏面的數據記錄數通常狀況下是相同的,只是字段不同,使用主鍵關聯
好比原始的用戶表是:
垂直拆分後是:
垂直拆分的優勢是:
缺點是:
水平拆分是經過某種策略將數據分片來存儲,分庫內分表和分庫兩部分,每片數據會分散到不一樣的MySQL表或庫,達到分佈式的效果,可以支持很是大的數據量。前面的表分區本質上也是一種特殊的庫內分表
庫內分表,僅僅是單純的解決了單一表數據過大的問題,因爲沒有把表的數據分佈到不一樣的機器上,所以對於減輕MySQL服務器的壓力來講,並無太大的做用,你們仍是競爭同一個物理機上的IO、CPU、網絡,這個就要經過分庫來解決
前面垂直拆分的用戶表若是進行水平拆分,結果是:
實際狀況中每每會是垂直拆分和水平拆分的結合,即將Users_A_M
和Users_N_Z
再拆成Users
和UserExtras
,這樣一共四張表
水平拆分的優勢是:
缺點是:
這裏特別強調一下分片規則的選擇問題,若是某個表的數據有明顯的時間特徵,好比訂單、交易記錄等,則他們一般比較合適用時間範圍分片,由於具備時效性的數據,咱們每每關注其近期的數據,查詢條件中每每帶有時間字段進行過濾,比較好的方案是,當前活躍的數據,採用跨度比較短的時間段進行分片,而歷史性的數據,則採用比較長的跨度存儲。
整體上來講,分片的選擇是取決於最頻繁的查詢SQL的條件,由於不帶任何Where語句的查詢SQL,會遍歷全部的分片,性能相對最差,所以這種SQL越多,對系統的影響越大,因此咱們要儘可能避免這種SQL的產生。
因爲水平拆分牽涉的邏輯比較複雜,當前也有了很多比較成熟的解決方案。這些方案分爲兩大類:客戶端架構和代理架構。
經過修改數據訪問層,如JDBC、Data Source、MyBatis,經過配置來管理多個數據源,直連數據庫,並在模塊內完成數據的分片整合,通常以Jar包的方式呈現
這是一個客戶端架構的例子:
能夠看到分片的實現是和應用服務器在一塊兒的,經過修改Spring JDBC層來實現
客戶端架構的優勢是:
缺點是:
經過獨立的中間件來統一管理全部數據源和數據分片整合,後端數據庫集羣對前端應用程序透明,須要獨立部署和運維代理組件
這是一個代理架構的例子:
代理組件爲了分流和防止單點,通常以集羣形式存在,同時可能須要Zookeeper之類的服務組件來管理
代理架構的優勢是:
缺點是:
出品方 | 架構模型 | 支持數據庫 | 分庫 | 分表 | 讀寫分離 | 外部依賴 | 是否開源 | 實現語言 | 支持語言 | 最後更新 | Github星數 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
MySQL Fabric | MySQL官方 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | python | 無限制 | 4個月前 | 35 |
Cobar | 阿里巴巴 | 代理架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | 無限制 | 兩年前 | 1287 |
Cobar Client | 阿里巴巴 | 客戶端架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | Java | 三年前 | 344 |
TDDL | 淘寶 | 客戶端架構 | 無限制 | 有 | 有 | 有 | Diamond | 只開源部分 | Java | Java | 未知 | 519 |
Atlas | 奇虎360 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | C | 無限制 | 10個月前 | 1941 |
Heisenberg | 百度熊照 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 2個月前 | 197 |
TribeDB | 我的 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | NodeJS | 無限制 | 3個月前 | 126 |
ShardingJDBC | 噹噹 | 客戶端架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | Java | 當天 | 1144 |
Shark | 我的 | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Java | Java | 兩天前 | 84 |
KingShard | 我的 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 兩天前 | 1836 |
OneProxy | 平民軟件 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 否 | 未知 | 無限制 | 未知 | 未知 |
MyCat | 社區 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 兩天前 | 1270 |
Vitess | Youtube | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 當天 | 3636 |
Mixer | 我的 | 代理架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Golang | 無限制 | 9個月前 | 472 |
JetPants | Tumblr | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Ruby | Ruby | 10個月前 | 957 |
HibernateShard | Hibernate | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 4年前 | 57 |
MybatisShard | MakerSoft | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 11個月前 | 119 |
Gizzard | 代理架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | 無限制 | 3年前 | 2087 |
如此多的方案,如何進行選擇?能夠按如下思路來考慮:
ORDER BY
,那麼支持該功能的優先考慮按照上述思路,推薦如下選擇:
目前也有一些開源數據庫兼容MySQL協議,如:
但其工業品質和MySQL尚有差距,且須要較大的運維投入,若是想將原始的MySQL遷移到可水平擴展的新數據庫中,能夠考慮一些雲數據庫:
在MySQL上作Sharding是一種戴着鐐銬的跳舞,事實上不少大表自己對MySQL這種RDBMS的需求並不大,並不要求ACID,能夠考慮將這些表遷移到NoSQL,完全解決水平擴展問題,例如: