帶你從頭至尾捋一遍MySQL索引結構(2)

前言

Hello我又來了,快年末了,做爲一個有抱負的碼農,我想給本身攢一個年終總結。索性此次把數據庫中最核心的也是最難搞懂的內容,也就是索引,分享給你們。html

這篇博客我會談談對於索引結構我本身的見解,以及分享如何從零開始一層一層向上最終理解索引結構,書接上文。數據庫

多頁模式

在多頁模式下,MySQL終於能夠完成多數據的存儲了,就是採用開闢新頁的方式,將多條數據放在不一樣的頁中,而後一樣採用鏈表的數據結構,將每一頁鏈接起來。那麼能夠思考第四個問題:多頁狀況下是否對查詢效率有影響呢?數據結構

多頁模式對於查詢效率的影響

針對這個問題,既然問出來了,那麼答案是確定的,多頁會對查詢效率產生必定的影響,影響主要就體如今,多頁其本質也是一個鏈表結構,只要是鏈表結構,查詢效率必定不會高。post

假設數據又很是多條,數據庫就會開闢很是多的新頁,而這些新頁就會像鏈表同樣鏈接在一塊兒,當咱們要在這麼多頁中查詢某條數據時,它仍是會從頭節點遍歷到存在咱們要查找的那條數據所存在的頁上,咱們好不容易經過頁目錄優化了頁中數據的查詢效率,如今又出現了以頁爲單位的鏈表,這不是前功盡棄了嗎?優化

如何優化多頁模式

因爲多頁模式會影響查詢的效率,那麼確定須要有一種方式來優化多頁模式下的查詢。相信有同窗已經猜出來了,既然咱們能夠用頁目錄來優化頁內的數據區,那麼咱們也能夠採起相似的方式來優化這種多頁的狀況。url

是的,頁內數據區和多頁模式本質上都是鏈表,那麼的確能夠採用相同的方式來對其進行優化,它就是目錄頁。spa

因此咱們對比頁內數據區,來分析如何優化多頁結構。在單頁時,咱們採用了頁目錄的目錄項來指向一行數據,這條數據就是存在於這個目錄項中的最小數據,那麼就能夠經過頁目錄來查找所需數據。3d

因此對於多頁結構也能夠採用這種方式,使用一個目錄項來指向某一頁,而這個目錄項存放的就是這一頁中存放的最小數據的索引值。和頁目錄不一樣的地方在於,這種目錄管理的級別是頁,而頁目錄管理的級別是行。指針

那麼分析到這裏,咱們多頁模式的結構就會是下圖所示的這樣:code

存在一個目錄頁來管理頁目錄,目錄頁中的數據存放的就是指向的那一頁中最小的數據。

這裏要注意的一點是:其實目錄頁的本質也是頁,普通頁中存的數據是項目數據,而目錄頁中存的數據是普通頁的地址。

假設咱們要查找id=19的數據,那麼按照之前的查找方式,咱們須要從第一頁開始查找,發現不存在那麼再到第二頁查找,一直找到第四頁才能找到id=19的數據,可是若是有了目錄頁,就可使用id=19與目錄頁中存放的數據進行比較,發現19大於任何一條數據,因而進入id=16指向的頁進行查找,直接而後再經過頁內的頁目錄行級別的數據的查找,很快就能夠找到id爲19的數據了。隨着數據愈來愈多,這種結構的效率相對於普通的多頁模式,優點也就愈來愈明顯。

迴歸正題,相信有對MySQL比較瞭解的同窗已經發現了,咱們畫的最終的這幅圖,就是MySQL中的一種索引結構——B+樹。

B+樹的引入

咱們將咱們畫的存在目錄頁的多頁模式圖宏觀化,能夠造成下面的這張圖:

這就是咱們兜兜轉轉由簡到繁造成的一顆B+樹。和常規B+樹有些許不一樣,這是一棵MySQL意義上的B+樹,MySQL的一種索引結構,其中的每一個節點就能夠理解爲是一個頁,而葉子節點也就是數據頁,除了葉子節點之外的節點就是目錄頁。

這一點在圖中也能夠看出來,非葉子節點只存放了索引,而只有葉子節點中存放了真實的數據,這也是符合B+樹的特色的。

B+樹的優點

  • 因爲葉子節點上存放了全部的數據,而且有指針相連,每一個葉子節點在邏輯上是相連的,因此對於範圍查找比較友好。

  • B+樹的全部數據都在葉子節點上,因此B+樹的查詢效率穩定,通常都是查詢3次。

  • B+樹有利於數據庫的掃描。

  • B+樹有利於磁盤的IO,由於他的層高基本不會由於數據擴大而增高(三層樹結構大概能夠存放兩千萬數據量。

頁的完整結構

說完了頁的概念和頁是如何一步一步地組合稱爲B+樹的結構以後,相信你們對於頁都有了一個比較清楚的認知,因此這裏就要開始說說官方概念了,基於咱們上文所說的,給出一個完整的頁結構,也算是對上文中本身理解頁結構的一種補充。

上圖爲 Page 數據結構,File Header 字段用於記錄 Page 的頭信息,其中比較重要的是 FIL_PAGE_PREV 和 FIL_PAGE_NEXT 字段,經過這兩個字段,咱們能夠找到該頁的上一頁和下一頁,實際上全部頁經過兩個字段能夠造成一條雙向鏈表。

Page Header 字段用於記錄 Page 的狀態信息。接下來的 Infimum 和 Supremum 是兩個僞行記錄,Infimum(下确界)記錄比該頁中任何主鍵值都要小的值,Supremum (上確界)記錄比該頁中任何主鍵值都要大的值,這個僞記錄分別構成了頁中記錄的邊界。

 

User Records 中存放的是實際的數據行記錄,具體的行記錄結構將在本文的第二節中詳細介紹。Free Space 中存放的是空閒空間,被刪除的行記錄會被記錄成空閒空間。Page Directory 記錄着與二叉查找相關的信息。File Trailer 存儲用於檢測數據完整性的校驗和等數據。

引用來源:https://www.cnblogs.com/bdsir/p/8745553.html

基於B+樹聊聊MySQL的其它知識點

看到這裏,咱們已經瞭解了MySQL從單條數據開始,到經過頁來減小磁盤IO次數,而且在頁中實現了頁目錄來優化頁中的查詢效率,而後使用多頁模式來存儲大量的數據,最終使用目錄頁來實現多頁模式的查詢效率並造成咱們口中的索引結構——B+樹。既然說到這裏了,那咱們就來聊聊MySQL的其餘知識點。

聚簇索引和非聚簇索引

所謂聚簇索引,就是將索引和數據放到一塊兒,找到索引也就找到了數據,咱們剛纔看到的B+樹索引就是一種聚簇索引,而非聚簇索引就是將數據和索引分開,查找時須要先查找到索引,而後經過索引回表找到相應的數據。InnoDB有且只有一個聚簇索引,而MyISAM中都是非聚簇索引。

聯合索引的最左前綴匹配原則

在MySQL數據庫中不只能夠對某一列創建索引,還能夠對多列創建一個聯合索引,而聯合索引存在一個最左前綴匹配原則的概念,若是基於B+樹來理解這個最左前綴匹配原則,相對來講就會容易很不少了。

首先咱們基於文首的這張表創建一個聯合索引:

create index idx_obj on user(age asc,height asc,weight asc)

咱們已經瞭解了索引的數據結構是一顆B+樹,也瞭解了B+樹優化查詢效率的其中一個因素就是對數據進行了排序,那麼咱們在建立idx_obj這個索引的時候,也就至關於建立了一顆B+樹索引,而這個索引就是依據聯合索引的成員來進行排序,這裏是age,height,weight。

看過我以前那篇博客的同窗知道,InnoDB中只要有主鍵被定義,那麼主鍵列被做爲一個聚簇索引,而其它索引都將被做爲非聚簇索引,因此天然而然的,這個索引就會是一個非聚簇索引。

因此根據這些咱們能夠得出結論:

  • idx_obj這個索引會根據age,height,weight進行排序

  • idx_obj這個索引是一個非聚簇索引,查詢時須要回表

根據這兩個結論,首先須要瞭解的就是,如何排序?

單列排序很簡單,比大小嘛,誰都會,可是多列排序是基於什麼原則的呢(重點)?

實際上在MySQL中,聯合索引的排序有這麼一個原則,從左往右依次比較大小,就拿剛纔創建的索引舉例子,他會先去比較age的大小,若是age的大小相同,那麼比較height的大小,若是height也沒法比較大小, 那麼就比較weight的大小,最終對這個索引進行排序。

那麼根據這個排序咱們也能夠畫出一個B+樹,這裏就不像上文畫的那麼詳細了,簡化一下:

數據:

B+樹:

注意:此時因爲是非聚簇索引,因此葉子節點不在有數據,而是存了一個主鍵索引,最終會經過主鍵索引來回表查詢數據。

B+樹的結構有了,就能夠經過這個來理解最左前綴匹配原則了。

咱們先寫一個查詢語句

SELECT * FROM user WHERE age=1 and height = 2 and weight = 7

毋庸置疑,這條語句必定會走idx_obj這個索引。

那麼咱們再看一個語句:

SELECT * FROM user WHERE height=2 and weight = 7

思考一下,這條SQL會走索引嗎?

答案是否認的,那麼咱們分析的方向就是,爲何這條語句不會走索引。

上文中咱們提到了一個多列的排序原則,是從左到右進行比較而後排序的,而咱們的idx_obj這個索引從左到右依次是age,height,weight,因此當咱們使用height和weight來做爲查詢條件時,因爲age的缺失,那麼就沒法從age來進行比較了。

看到這裏可能有小夥伴會有疑問,那若是直接用height和weight來進行比較不能夠嗎?顯然是不能夠的,能夠舉個例子,咱們把缺失的這一列寫做一個問號,那麼這條語句的查詢條件就變成了?27,那麼咱們從這課B+樹的根節點開始,根節點上有127和365,那麼以height和weight來進行比較的話,走的必定是127這一邊,可是若是缺失的列數字是大於3的呢?好比427,527,627,那麼若是走索引來查詢數據,將會丟失數據,錯誤查詢。因此這種狀況下是絕對不會走索引進行查詢的。這就是最左前綴匹配原則的成因。

  1.  最左前綴匹配原則,MySQL會一直向右匹配直到遇到範圍查詢(>、<、between、like)就中止匹配,好比 a=3 and b=4 and c>5 and d=6,若是創建(a,b,c,d)順序的索引,d是沒法使用索引的,若是創建(a,b,d,c)的索引則均可以使用到,a、b、d的順序能夠任意調整。 
  2.     =和in能夠亂序,好比 a=1 and b=2 and c=3 創建(a,b,c)索引能夠任意順序,MySQL的查詢優化器會幫你優化成索引能夠識別的形式。

根據咱們瞭解的能夠得出結論:

只要沒法進行排序比較大小的,就沒法走聯合索引。

能夠再看幾個語句:

SELECT * FROM user WHERE age=1 and height = 2

這條語句是能夠走idx_obj索引的,由於它能夠經過比較 (12?<365)。

SELECT * FROM user WHERE age=1 and weight=7

這條語句也是能夠走ind_obj索引的,由於它也能夠經過比較(1?7<365),走左子樹,可是實際上weight並無用到索引,由於根據最左匹配原則,若是有兩頁的age都等於1,那麼會去比較height,可是height在這裏並不做爲查詢條件,因此MySQL會將這兩頁全都加載到內存中進行最後的weight字段的比較,進行掃描查詢。

SELECT * FROM user where age>1

這條語句不會走索引,可是能夠走索引。這句話是什麼意思呢?這條SQL很特殊,因爲其存在能夠比較的索引,因此它走索引也能夠查詢出結果,可是因爲這種狀況是範圍查詢而且是全字段查詢,若是走索引,還須要進行回表,MySQL查詢優化器就會認爲走索引的效率比全表掃描還要低,因此MySQL會去優化它,讓他直接進行全表掃描。

SELECT * FROM user WEHRE age=1 and height>2 and weight=7

這條語句是能夠走索引的,由於它能夠經過age進行比較,可是weight不會用到索引,由於height是範圍查找,與第二條語句相似,若是有兩頁的height都大於2,那麼MySQL會將兩頁的數據都加載進內存,而後再來經過weight匹配正確的數據。

爲何InnoDB只有一個聚簇索引,而不將全部索引都使用聚簇索引?

由於聚簇索引是將索引和數據都存放在葉子節點中,若是全部的索引都用聚簇索引,則每個索引都將保存一份數據,會形成數據的冗餘,在數據量很大的狀況下,這種數據冗餘是很消耗資源的。

補充兩個關於索引的點

這兩個點也是上次寫關於索引的博客時漏下的,這裏補上。

1.什麼狀況下會發生明明建立了索引,可是執行的時候並無經過索引呢?

科普時間:查詢優化器 一條SQL語句的查詢,能夠有不一樣的執行方案,至於最終選擇哪一種方案,須要經過優化器進行選擇,選擇執行成本最低的方案。

在一條單表查詢語句真正執行以前,MySQL的查詢優化器會找出執行該語句全部可能使用的方案,對比以後找出成本最低的方案。這個成本最低的方案就是所謂的執行計劃。

優化過程大體以下:

一、根據搜索條件,找出全部可能使用的索引
二、計算全表掃描的代價
三、計算使用不一樣索引執行查詢的代價
四、對比各類執行方案的代價,找出成本最低的那一個 。

參考:https://juejin.im/post/5d23ef4ce51d45572c0600bc

根據咱們剛纔的那張表的非聚簇索引,這條語句就是因爲查詢優化器的做用,形成沒有走索引:

SELECT * FROM user where age>1

2.在稀疏索引狀況下一般須要經過葉子節點的指針回表查詢數據,什麼狀況下不須要回表?

科普時間:覆蓋索引 覆蓋索引(covering index)指一個查詢語句的執行只用從索引中就可以取得,沒必要從數據表中讀取。也能夠稱之爲實現了索引覆蓋。

當一條查詢語句符合覆蓋索引條件時,MySQL只須要經過索引就能夠返回查詢所須要的數據,這樣避免了查到索引後再返回表操做,減小I/O提升效率。

如,表covering_index_sample中有一個普通索引 idx_key1_key2(key1,key2)。當咱們經過SQL語句:select key2 from covering_index_sample where key1 = 'keytest';的時候,就能夠經過覆蓋索引查詢,無需回表。

參考:https://juejin.im/post/5d23ef4ce51d45572c0600bc

例如:

SELECT age FROM user where age = 1

這句話就不須要進行回表查詢。

結語

本篇文章着重聊了一下關於MySQL的索引結構,從零開始慢慢構建了一個B+樹索引,而且根據這個過程談了B+樹是如何一步一步去優化查詢效率的。

簡單地概括一下就是:

排序:優化查詢的根本,插入時進行排序實際上就是爲了優化查詢的效率。
頁:用於減小IO次數,還能夠利用程序局部性原理,來稍微提升查詢效率。
頁目錄:用於規避鏈表的軟肋,避免在查詢時進行鏈表的掃描。
多頁:數據量增長的狀況下開闢新頁來保存數據。
目錄頁:「特殊的頁目錄」,其中保存的數據是頁的地址。查詢時能夠經過目錄頁快速定位到頁,避免多頁的掃描。

 

END

相關文章
相關標籤/搜索