當MySQL單表記錄數過大時,增刪改查性能都會急劇降低html
除非單表數據將來會一直不斷上漲,不然不要一開始就考慮拆分,拆分會帶來邏輯、部署、運維的各類複雜度,通常以整型值爲主的表在千萬級如下,字符串爲主的表在五百萬如下是沒有太大問題的。前端
而事實上不少時候 MySQL 單表的性能依然有很多優化空間,甚至能正常支撐千萬級以上的數據量。node
TINYINT
、 SMALLINT
、 MEDIUM_INT
做爲整數類型而非 INT
,若是非負則加上 UNSIGNED
VARCHAR
的長度只分配真正須要的空間TIMESTAMP
而非 DATETIME
NULL
字段,很難查詢優化且佔用額外索引空間WHERE
和 ORDER BY
命令上涉及的列創建索引,可根據 EXPLAIN
來查看是否用了索引仍是全表掃描WHERE
子句中對字段進行 NULL
值判斷,不然將致使引擎放棄使用索引而進行全表掃描UNIQUE
,由程序保證約束SELECT id WHERE age+1=10
,任何對列的操做都將致使表掃描,它包括數據庫教程函數、計算表達式等等,查詢時要儘量將操做移至等號右邊SELECT *
OR
改寫成 IN
: OR
的效率是 n 級別, IN
的效率是 log(n) 級別,IN
的個數建議控制在 200 之內%xxx
式查詢JOIN
WHERE
子句中使用 !=
或 <>
操做符,不然將引擎放棄使用索引而進行全表掃描BETWEEN
不用 IN
: SELECT id FROM t WHERE num BETWEEN 1 AND 5
LIMIT
來分頁,每頁數量也不要太大目前普遍使用的是 MyISAM 和 InnoDB 兩種引擎:python
MyISAM 引擎是 MySQL 5.1 及以前版本的默認引擎,它的特色是:mysql
BLOB
和 TEXT
的前 500 個字符索引,支持全文索引InnoDB 在 MySQL 5.5 後成爲默認索引,它的特色是:git
整體來說,MyISAM 適合
SELECT
密集型的表,而 InnoDB 適合INSERT
和UPDATE
密集型的表github
可使用下面幾個工具來作基準測試:web
具體的調優參數內容較多,具體可參考官方文檔,這裏介紹一些比較重要的參數:sql
show status like'key_read%'
,保證 key_reads / key_read_requests 在 0.1% 如下最好show status like'Innodb_buffer_pool_read%'
,保證 (Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests 越高越好select
語句。當某個表的數據有任何任何變化,都會致使全部引用了該表的 select
語句在 Query Cache 中的緩存數據失效。因此,當咱們的數據變化很是頻繁的狀況下,使用 Query Cache 可能會得不償失。根據命中率 (Qcache_hits / (Qcache_hits + Qcache_inserts) * 100)) 進行調整,通常不建議太大,256MB 可能已經差很少了,大型的配置型靜態數據可適當調大. 能夠經過命令 show status like'Qcache_%'
查看目前系統 Query Catch 使用大小ORDER BY
的速度,首先看是否可讓 MySQL 使用索引而不是額外的排序階段。若是不能,能夠嘗試增長 sortbuffersize 變量的大小Scale up,這個很少說了,根據 MySQL 是 CPU 密集型仍是 I/O 密集型,經過提高 CPU 和內存、使用 SSD,都能顯著提高 MySQL 性能。數據庫
也是目前經常使用的優化,從庫讀主庫寫,通常不要採用雙主或多主引入不少複雜性,儘可能採用文中的其餘方案來提升性能。 同時目前不少拆分的解決方案同時也兼顧考慮了讀寫分離。
緩存能夠發生在這些層次:
能夠根據實際狀況在一個層次或多個層次結合加入緩存。 這裏重點介紹下服務層的緩存實現,目前主要有兩種方式:
MySQL 在 5.1 版引入的分區是一種簡單的水平拆分,用戶須要在建表的時候加上分區參數,對應用是透明的無需修改代碼
對用戶來講,分區表是一個獨立的邏輯表,可是底層由多個物理子表組成,實現分區的代碼其實是經過對一組底層表的對象封裝,但對 SQL 層來講是一個徹底封裝底層的黑盒子。MySQL 實現分區的方式也意味着索引也是按照分區的子表定義,沒有全局索引。
用戶的 SQL 語句是須要針對分區表作優化,SQL 條件中要帶上分區條件的列,從而使查詢定位到少許的分區上,不然就會掃描所有分區,能夠經過 EXPLAIN PARTITIONS
來查看某條 SQL 語句會落在那些分區上,從而進行 SQL 優化,以下圖 5 條記錄落在兩個分區上:
最適合的場景數據的時間序列性比較強,則能夠按時間來分區,以下所示:
查詢時加上時間範圍條件效率會很是高,同時對於不須要的歷史數據能很容的批量刪除。
若是數據有明顯的熱點,並且除了這部分數據,其餘數據不多被訪問到,那麼能夠將熱點數據單獨放在一個分區,讓這個分區的數據可以有機會都緩存在內存中,查詢時只訪問一個很小的分區表,可以有效使用索引和緩存
另外 MySQL 有一種早期的簡單的分區實現 - 合併表(merge table),限制較多且缺少優化,不建議使用,應該用新的分區機制來替代
垂直分庫是根據數據庫裏面的數據表的相關性進行拆分。 好比:一個數據庫裏面既存在用戶數據,又存在訂單數據,那麼垂直拆分能夠把用戶數據放到用戶庫、把訂單數據放到訂單庫。 垂直分表是對數據表進行垂直拆分的一種方式,常見的是把一個多字段的大表按經常使用字段和很是用字段進行拆分,每一個表裏面的數據記錄數通常狀況下是相同的,只是字段不同,使用主鍵關聯
好比原始的用戶表是:
垂直拆分後是:
概述
水平拆分是經過某種策略將數據分片來存儲,分庫內分表和分庫兩部分,每片數據會分散到不一樣的 MySQL 表或庫,達到分佈式的效果,可以支持很是大的數據量。前面的表分區本質上也是一種特殊的庫內分表
庫內分表,僅僅是單純的解決了單一表數據過大的問題,因爲沒有把表的數據分佈到不一樣的機器上,所以對於減輕 MySQL 服務器的壓力來講,並無太大的做用,你們仍是競爭同一個物理機上的 IO、CPU、網絡,這個就要經過分庫來解決
前面垂直拆分的用戶表若是進行水平拆分,結果是:
實際狀況中每每會是垂直拆分和水平拆分的結合,即將 Users_A_M 和 Users_N_Z 再拆成 Users 和 UserExtras,這樣一共四張表
Select *
的方式,大量數據結果集下,會消耗大量帶寬和 CPU 資源,查詢儘可能避免返回大量結果集,而且儘可能爲頻繁使用的查詢語句創建索引。這裏特別強調一下分片規則的選擇問題,若是某個表的數據有明顯的時間特徵,好比訂單、交易記錄等,則他們一般比較合適用時間範圍分片,由於具備時效性的數據,咱們每每關注其近期的數據,查詢條件中每每帶有時間字段進行過濾,比較好的方案是,當前活躍的數據,採用跨度比較短的時間段進行分片,而歷史性的數據,則採用比較長的跨度存儲。
整體上來講,分片的選擇是取決於最頻繁的查詢 SQL 的條件,由於不帶任何 Where
語句的查詢 SQL,會遍歷全部的分片,性能相對最差,所以這種 SQL 越多,對系統的影響越大,因此咱們要儘可能避免這種 SQL 的產生。
因爲水平拆分牽涉的邏輯比較複雜,當前也有了很多比較成熟的解決方案。這些方案分爲兩大類:
經過修改數據訪問層,如 JDBC、Data Source、MyBatis,經過配置來管理多個數據源,直連數據庫,並在模塊內完成數據的分片整合,通常以 Jar 包的方式呈現
這是一個客戶端架構的例子:
能夠看到分片的實現是和應用服務器在一塊兒的,經過修改 Spring JDBC 層來實現
經過獨立的中間件來統一管理全部數據源和數據分片整合,後端數據庫集羣對前端應用程序透明,須要獨立部署和運維代理組件
這是一個代理架構的例子:
代理組件爲了分流和防止單點,通常以集羣形式存在,同時可能須要 Zookeeper 之類的服務組件來管理
框架 | 出品方 | 架構模型 | 支持數據庫 | 分庫 | 分表 | 讀寫分離 | 外部依賴 | 是否開源 | 實現語言 | 支持語言 | GitHub星數 |
---|---|---|---|---|---|---|---|---|---|---|---|
MySQL Fabric | MySQL官方 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | python | 無限制 | 35 |
Cobar | 阿里巴巴 | 代理架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | 無限制 | 1287 |
Cobar Client | 阿里巴巴 | 客戶端架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | Java | 344 |
TDDL | 淘寶 | 客戶端架構 | 無限制 | 有 | 有 | 有 | Diamond | 只開源部分 | Java | Java | 519 |
Atlas | 奇虎360 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | C | 無限制 | 1941 |
Heisenberg | 百度熊照 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 197 |
TribeDB | 我的 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | NodeJS | 無限制 | 126 |
Sharding JDBC | 噹噹 | 客戶端架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | Java | 1144 |
Shark | 我的 | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Java | Java | 84 |
KingShard | 我的 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 1836 |
OneProxy | 平民軟件 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 否 | 未知 | 無限制 | 未知 |
MyCat | 社區 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 1270 |
Vitess | Youtube | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 3636 |
Mixer | 我的 | 代理架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Golang | 無限制 | 472 |
JetPants | Tumblr | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Ruby | Ruby | 957 |
HibernateShard | Hibernate | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 57 |
MybatisShard | MakerSoft | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 119 |
Gizzard | 代理架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | 無限制 | 2087 |
如此多的方案,如何進行選擇?能夠按如下思路來考慮:
ORDER BY
,那麼支持該功能的優先考慮按照上述思路,推薦如下選擇:
目前也有一些開源數據庫兼容 MySQL 協議,如:
但其工業品質和 MySQL 尚有差距,且須要較大的運維投入,若是想將原始的 MySQL 遷移到可水平擴展的新數據庫中,能夠考慮一些雲數據庫:
在 MySQL 上作 Sharding 是一種戴着鐐銬的跳舞,事實上不少大表自己對 MySQL 這種 RDBMS 的需求並不大,並不要求 ACID,能夠考慮將這些表遷移到 NoSQL,完全解決水平擴展問題,例如: