神奇的 SQL 之 ICP → 索引條件下推

開心一刻

  樓主:來,咱們先排練一遍html

  小夥伴們:好mysql

  嘿、哈、嚯sql

  樓主:很是好,就是這個節奏,咱們開始吧ide

  樓主:啊、啊、啊,疼 ! 大家是否是故意的 ?性能

回表與覆蓋索引

  正式講 ICP 以前了,咱們先將相關的概念捋一捋,知道的就當回顧,不知道的就當瞭解了,這有助於對 ICP 的理解優化

  建個示例表 tbl_index ui

CREATE TABLE tbl_index (
    c1 INT,
    c2 INT,
    c3 CHAR(1),
    PRIMARY KEY(c1),
    KEY idx_c2 (c2)
);spa

  覆蓋索引

    若是 where 條件的列和 select 的列都在一個索引中,經過這個索引就能夠完成查詢,這就叫就叫覆蓋索引;固然,覆蓋索引基本針對的是組合索引(InnoDB 的聚簇索引有點特殊,具體能夠看下面的圖)3d

    針對上面的 tbl_index, select c2 from tbl_index where c2 = 4; 是覆蓋索引查詢,可是這條 SQL 沒有意義,若是咱們在 tbl_index 表上增長索引 index idx_c2_c3 (c2,c3) ,那麼 select c3 from tbl_index where c2 = 4; 走覆蓋索引查詢仍是頗有意義的,那問題又來了,覆蓋索引的意義何在 ? 咱們往下看netty

  回表

    經過某個索引沒法直接完成 SQL 查詢(where 條件的列和 select 的列不所有存在於任何一個索引中),那麼此時須要獲取完整的數據記錄來完成這次查詢,從索引項記錄到獲取對應的完整數據記錄的過程就叫回表;概念可能說的有些抽象,咱們結合 MySQL 來看看具體什麼是回表

    InnoDB 的回表

    InnoDB 的索引結構有些特殊,非聚簇索引(二級索引)回表到聚簇索引的過程相似以下

    InnoDB的聚簇索引即數據,索引和數據是存在一塊兒的;那麼直接走聚簇索引查詢的 SQL 是不存在回表一說的,好比 select * from tbl_index where c1 = 10; ,只有從二級索引出發,而且二級索引獨自完成不了查詢的時候纔會回表到聚簇索引完成查詢

    MyISAM 的回表

    有這樣一種說法: MyISAM 中的索引都是二級索引 ,其實說的是聚簇索引和二級索引的結構基本一致,只是聚簇索引有個惟一性約束

    MyISAM 聚簇索引和二級索引,以及它們的回表過程相似以下

    MyISAM 的回表過程指的是根據葉子節點中的數據記錄的地址來獲取完整記錄的過程,不管是聚簇索引仍是二級索引均可能存在回表的過程;MyISAM 的回表與 InnoDB 仍是有差異的

  不管是 InnoDB 的回表仍是 MyISAM 的回表,頗有可能會形成額外的磁盤 IO,這會嚴重影響查詢效率,覆蓋索引的目的就是儘可能可以一次完成 SQL 查詢,避免有回表過程,從而提升效率

  如何確認 MySQL 是進行了覆蓋索引查詢,仍是進行了回表查詢 ?

  看 MySQL 的執行計劃,若是 Extra 中只有 using index 則說明使用了覆蓋索引查詢,若是 Extra 中出現了 using index condition 或 using index & using where 則說明進行了回表查詢

ICP

  Index Condition Pushdown,MySQL 5.6 中引入的一種優化策略

  那麼到底是將什麼從哪 Push Down 到哪,優化了什麼?要弄清楚這 4 個問題,咱們須要先弄清楚 where 條件的提取與應用,具體可查看:神奇的 SQL 之 WHERE 條件的提取與應用

  where 條件會被提取成 3 部分: Index KeyIndex Filter,Table Filter ,在 MySQL 5.6 以前,並不區分 Index Filter 與 Table Filter,通通將 Index First Key 與 Index Last Key 範圍內的索引記錄,回表讀取完整記錄,而後返回給 MySQL Server 層進行過濾,而在 MySQL 5.6 以後,Index Filter 與 Table Filter 分離,Index Filter 降低到引擎層(InnoDB和MyISAM)的索引層面進行過濾,減小了回表與返回 MySQL Server 層的記錄交互開銷,提升了 SQL 的執行效率

  ICP 優化過程

    假設咱們有表: tbl_icp 

create table tbl_icp (a int primary key, b int, c int, d int, e varchar(50));
create index idx_bcd on tbl_icp(b, c, d);
insert into tbl_icp values (4,3,1,1,'a');
insert into tbl_icp values (1,1,1,2,'d');
insert into tbl_icp values (8,8,7,8,'h');
insert into tbl_icp values (2,2,1,2,'g');
insert into tbl_icp values (5,2,2,5,'e');
insert into tbl_icp values (3,3,2,1,'c');
insert into tbl_icp values (7,4,0,5,'b');
insert into tbl_icp values (6,5,2,4,'f');
View Code

    若沒有使用 ICP,則 SQL 查詢相似以下

    沒有使用 ICP 時,引擎層會將知足 Index Key 範圍限制的全部數據記錄(示例中一共 6 條)逐條返回給 Server 層,而後由 server 層應用 Index Filter 和 Table Filter (MySQL 5.6 以前不區分 Index Filter 和 Table Filter),最後將知足條件的數據返回給客戶端;

    若使用 ICP,則 SQL 查詢相似以下

    使用了 ICP,Server 層會將 Index Filter 下推到引擎層,引擎層在對 Index First Key 與 Index Last Key 範圍內的索引項逐條進行過濾的時候,會應用上 Index Filter,對不知足 Index Filter 條件的索引項直接過濾掉,無需回表操做,也無需返回給 Server 層,從而提供執行效率;上圖中的索引項: 3 1 1 、 3 2 1 不知足 Index Filter 中的 d != 1 , 4 0 5 不知足 c > 0 ,因此這 3 個索引項無需進行回表操做,也不須要返回給 Server 層

  相信到這裏,你們對 ICP 的 4 個問題應該就比較清楚了

  ICP 的適用條件

    雖然說 ICP 能提升 SQL 執行效率,但也不是任何狀況下都適用的,它只適用於某些狀況

    一、當 SQL 須要全表訪問時,ICP 的優化策略可用於 range, ref, eq_ref,  ref_or_null 類型的數據訪問方式

    二、只適用於 InnoDB 和 MyISAM 兩種存儲引擎

    三、在 InnoDB 中,ICP 只適用於二級索引

      ICP 的目的就是爲了減小回表致使的磁盤 I/O,而 InnoDB 的聚簇索引的葉子節點存放的就是完整的數據記錄,只要索引數據被讀到內存了,那麼索引項對應的完整數據記錄也就讀到內存了,那麼經過索引項獲取數據記錄的過程就在內存中進行了,無需進行磁盤 I/O;也就說聚簇索引上應用 ICP,不會減小磁盤 I/O,也就沒有使用的意義了

    四、不支持覆蓋索引

      其實和第 3 點同樣,由於覆蓋索引無需回表,ICP 也就沒意義了

    五、不支持子查詢條件的下推

    六、不支持存儲過程條件、觸發器條件的下推

  至於 ICP 的優化效果,取決於在存儲引擎內經過 ICP 篩選掉的數據的比例,過濾掉的數據比例大,那就性能提高大,反之則性能提高小

總結

  一、索引覆蓋與回表

    這兩個每每是一塊兒來考慮的,由於覆蓋索引的目的就是減小因回表產生的磁盤 I/O,從而提升執行效率

    在實際應用中,咱們每每也須要考慮儘量用覆蓋索引來完成咱們的 SQL 查詢

  二、ICP的四個問題

    將什麼從哪 Push Down 到哪,優化了什麼

    將 Index Filter 從 Server 層 Push Down 到了引擎層,減小了因回表產生的磁盤 I/O,也減小了與 Server 層的交互,提升了 SQL 執行效率

  三、疑問點

    爲何這麼明顯的優化策略到 MySQL 5.6 才引入,我的感受很容易就能考慮到呀,MySQL 的開發者們是腫麼肥事 ?

    多是樓主在巨人的肩膀上,站着說話不腰疼吧......

參考

  Index Condition Pushdown Optimization

  Index Condition Pushdown

  MySQL的索引

相關文章
相關標籤/搜索