MySQL索引底層實現原理

時間 2019-11-24

標籤 mysql 索引底層實現原理欄目 MySQL 简体版

原文原文鏈接

優秀博文：html

MySQL索引背後的數據結構及算法原理

B樹、B-樹、B+樹、B*樹【轉】,mysql索引

MySQL 和 B 樹的那些事

索引的本質

MySQL官方對索引的定義爲：索引（Index）是幫助MySQL高效獲取數據的數據結構。提取句子主幹，就能夠獲得索引的本質：索引是數據結構。java

咱們知道，數據庫查詢是數據庫的最主要功能之一。咱們都但願查詢數據的速度能儘量的快，所以數據庫系統的設計者會從查詢算法的角度進行優化。最基本的查詢算法固然是順序查找（linear search），這種複雜度爲O(n)的算法在數據量很大時顯然是糟糕的，好在計算機科學的發展提供了不少更優秀的查找算法，例如二分查找（binary search）、二叉樹查找（binary tree search）等。若是稍微分析一下會發現，每種查找算法都只能應用於特定的數據結構之上，例如二分查找要求被檢索數據有序，而二叉樹查找只能應用於二叉查找樹上，可是數據自己的組織結構不可能徹底知足各類數據結構（例如，理論上不可能同時將兩列都按順序進行組織），因此，在數據以外，數據庫系統還維護着知足特定查找算法的數據結構，這些數據結構以某種方式引用（指向）數據，這樣就能夠在這些數據結構上實現高級查找算法。這種數據結構，就是索引。node

看一個例子：
mysql

上圖展現了一種可能的索引方式。左邊是數據表，一共有兩列七條記錄，最左邊的是數據記錄的物理地址（注意邏輯上相鄰的記錄在磁盤上也並非必定物理相鄰的）。爲了加快Col2的查找，能夠維護一個右邊所示的二叉查找樹，每一個節點分別包含索引鍵值和一個指向對應數據記錄物理地址的指針，這樣就能夠運用二叉查找在\(O(log_2^n)\)的複雜度內獲取到相應數據。算法

雖然這是一個貨真價實的索引，可是實際的數據庫系統幾乎沒有使用二叉查找樹或其進化品種紅黑樹（red-black tree）實現的，緣由會在下文介紹。sql

二叉排序樹

在介紹B樹以前，先來看另外一棵神奇的樹——二叉排序樹（Binary Sort Tree），首先它是一棵樹，「二叉」這個描述已經很明顯了，就是樹上的一根樹枝開兩個叉，因而遞歸下來就是二叉樹了（下圖所示），而這棵樹上的節點是已經排好序的，具體的排序規則以下：數據庫

若左子樹不空，則左子樹上全部節點的值均小於它的根節點的值
若右子樹不空，則右字數上全部節點的值均大於它的根節點的值
它的左、右子樹也分別爲二叉排序數（遞歸定義）

從圖中能夠看出，二叉排序樹組織數據時，用於查找是比較方便的，由於每次通過一次節點時，最多能夠減小一半的可能，不過極端狀況會出現全部節點都位於同一側，直觀上看就是一條直線，那麼這種查詢的效率就比較低了，所以須要對二叉樹左右子樹的高度進行平衡化處理，因而就有了平衡二叉樹（Balenced Binary Tree）。數據結構

所謂「平衡」，說的是這棵樹的各個分支的高度是均勻的，它的左子樹和右子樹的高度之差絕對值小於1，這樣就不會出現一條支路特別長的狀況。因而，在這樣的平衡樹中進行查找時，總共比較節點的次數不超過樹的高度，這就確保了查詢的效率（時間複雜度爲O(logn)）性能

B樹

仍是直接看圖比較清楚，圖中所示，B樹事實上是一種平衡的多叉查找樹，也就是說最多能夠開m個叉（m>=2），咱們稱之爲m階b樹，爲了體現本博客的良心之處，不一樣於其餘地方都能看到2階B樹，這裏特地畫了一棵5階B樹。mysql索引

總的來講，m階B樹知足如下條件：

每一個節點至多能夠擁有m棵子樹。
根節點，只有至少有2個節點（要麼極端狀況，就是一棵樹就一個根節點，單細胞生物，便是根，也是葉，也是樹)。
非根非葉的節點至少有的Ceil(m/2)個子樹(Ceil表示向上取整，圖中5階B樹，每一個節點至少有3個子樹，也就是至少有3個叉)。
非葉節點中的信息包括[n,A0,K1,A1,K2,A2,…,Kn,An]，，其中n表示該節點中保存的關鍵字個數，K爲關鍵字且Ki<Ki+1，A爲指向子樹根節點的指針。
從根到葉子的每一條路徑都有相同的長度，也就是說，葉子節在相同的層，而且這些節點不帶信息，實際上這些節點就表示找不到指定的值，也就是指向這些節點的指針爲空。

B樹的查詢過程和二叉排序樹比較相似，從根節點依次比較每一個結點，由於每一個節點中的關鍵字和左右子樹都是有序的，因此只要比較節點中的關鍵字，或者沿着指針就能很快地找到指定的關鍵字，若是查找失敗，則會返回葉子節點，即空指針。

例如查詢圖中字母表中的K：

從根節點P開始，K的位置在P以前，進入左側指針。
左子樹中，依次比較C、F、J、M，發現K在J和M之間。
沿着J和M之間的指針，繼續訪問子樹，並依次進行比較，發現第一個關鍵字K即爲指定查找的值。

B樹搜索的簡單僞算法以下：

BTree_Search(node, key) {
    if(node == null) return null;
    foreach(node.key)
    {
        if(node.key[i] == key) return node.data[i];
            if(node.key[i] > key) return BTree_Search(point[i]->node);
    }
    return BTree_Search(point[i+1]->node);
}

data = BTree_Search(root, my_key);

B樹的特色能夠總結爲以下：

關鍵字集合分佈在整顆樹中。
任何一個關鍵字出現且只出如今一個節點中。
搜索有可能在非葉子節點結束。
其搜索性能等價於在關鍵字集合內作一次二分查找。
B樹在插入刪除新的數據記錄會破壞B-Tree的性質，由於在插入刪除時，須要對樹進行一個分裂、合併、轉移等操做以保持B-Tree性質。

Plus版 — B+樹

做爲B樹的增強版，B+樹與B樹的差別在於

有n棵子樹的節點含有n個關鍵字（也有認爲是n-1個關鍵字）。
全部的關鍵字所有存儲在葉子節點上，且葉子節點自己根據關鍵字自小而大順序鏈接。
非葉子節點能夠當作索引部分，節點中僅含有其子樹（根節點）中的最大（或最小）關鍵字。

B+樹的查找過程，與B樹相似，只不過查找時，若是在非葉子節點上的關鍵字等於給定值，並不終止，而是繼續沿着指針直到葉子節點位置。所以在B+樹，無論查找成功與否，每次查找都是走了一條從根到葉子節點的路徑。

B+樹的特性以下：

全部關鍵字都存儲在葉子節上，且鏈表中的關鍵字剛好是有序的。
不可能非葉子節點命中返回。
非葉子節點至關於葉子節點的索引，葉子節點至關因而存儲（關鍵字）數據的數據層。
更適合文件索引系統。

帶有順序訪問指針的B+Tree

通常在數據庫系統或文件系統中使用的B+Tree結構都在經典B+Tree的基礎上進行了優化，增長了順序訪問指針。

如上圖所示，在B+Tree的每一個葉子節點增長一個指向相鄰葉子節點的指針，就造成了帶有順序訪問指針的B+Tree。作這個優化的目的是爲了提升區間訪問的性能，例如圖4中若是要查詢key爲從18到49的全部數據記錄，當找到18後，只需順着節點和指針順序遍歷就能夠一次性訪問到全部數據節點，極大提到了區間查詢效率。

MySQL爲何使用B樹（B+樹）

紅黑樹等數據結構也能夠用來實現索引，可是文件系統以及數據庫系統廣泛採用B樹或者B+樹，這一節將結合計算機組成原理相關知識討論B-/+Tree做爲索引的理論基礎。

通常來講，索引自己也很大，不可能所有存儲在內存中，所以索引每每以索引文件的形式存儲在磁盤上。這樣的話，索引查找過程當中就要產生磁盤I/O消耗，相對於內存存取，I/O存取的消耗要高几個數量級，因此評價一個數據結構做爲索引的優劣最重要的指標就是在查找過程當中磁盤I/O操做次數的漸進複雜度。換句話說，索引的結構組織要儘可能減小查找過程當中磁盤I/O的存取次數。下面先介紹內存和磁盤存取原理，而後再結合這些原理分析B-/+Tree做爲索引的效率。

主存存取原理

目前計算機使用的主存基本都是隨機讀寫存儲器（RAM），現代RAM的結構和存取原理比較複雜，這裏本文拋卻具體差異，抽象出一個十分簡單的存取模型來講明RAM的工做原理。

從抽象角度看，主存是一系列的存儲單元組成的矩陣，每一個存儲單元存儲固定大小的數據。每一個存儲單元有惟一的地址，現代主存的編址規則比較複雜，這裏將其簡化成一個二維地址：經過一個行地址和一個列地址能夠惟必定位到一個存儲單元。上圖展現了一個4 x 4的主存模型。

主存的存取過程以下：

當系統須要讀取主存時，則將地址信號放到地址總線上傳給主存，主存讀到地址信號後，解析信號並定位到指定存儲單元，而後將此存儲單元數據放到數據總線上，供其它部件讀取。

寫主存的過程相似，系統將要寫入單元地址和數據分別放在地址總線和數據總線上，主存讀取兩個總線的內容，作相應的寫操做。

這裏能夠看出，主存存取的時間僅與存取次數呈線性關係，由於不存在機械操做，兩次存取的數據的「距離」不會對時間有任何影響，例如，先取A0再取A1和先取A0再取D3的時間消耗是同樣的。

磁盤存取原理

上文說過，索引通常以文件形式存儲在磁盤上，索引檢索須要磁盤I/O操做。與主存不一樣，磁盤I/O存在機械運動耗費，所以磁盤I/O的時間消耗是巨大的。

下圖是磁盤的總體結構示意圖：

一個磁盤由大小相同且同軸的圓形盤片組成，磁盤能夠轉動（各個磁盤必須同步轉動）。在磁盤的一側有磁頭支架，磁頭支架固定了一組磁頭，每一個磁頭負責存取一個磁盤的內容。磁頭不能轉動，可是能夠沿磁盤半徑方向運動（實際是斜切向運動），每一個磁頭同一時刻也必須是同軸的，即從正上方向下看，全部磁頭任什麼時候候都是重疊的（不過目前已經有多磁頭獨立技術，可不受此限制）。

下圖是磁盤結構的示意圖：

盤片被劃分紅一系列同心環，圓心是盤片中心，每一個同心環叫作一個磁道，全部半徑相同的磁道組成一個柱面。磁道被沿半徑線劃分紅一個個小的段，每一個段叫作一個扇區，每一個扇區是磁盤的最小存儲單元。爲了簡單起見，咱們下面假設磁盤只有一個盤片和一個磁頭。

當須要從磁盤讀取數據時，系統會將數據邏輯地址傳給磁盤，磁盤的控制電路按照尋址邏輯將邏輯地址翻譯成物理地址，即肯定要讀的數據在哪一個磁道，哪一個扇區。爲了讀取這個扇區的數據，須要將磁頭放到這個扇區上方，爲了實現這一點，磁頭須要移動對準相應磁道，這個過程叫作尋道，所耗費時間叫作尋道時間，而後磁盤旋轉將目標扇區旋轉到磁頭下，這個過程耗費的時間叫作旋轉時間。

局部性原理與磁盤預讀

因爲存儲介質的特性，磁盤自己存取就比主存慢不少，再加上機械運動耗費，磁盤的存取速度每每是主存的幾百分分之一，所以爲了提升效率，要儘可能減小磁盤I/O。爲了達到這個目的，磁盤每每不是嚴格按需讀取，而是每次都會預讀，即便只須要一個字節，磁盤也會從這個位置開始，順序向後讀取必定長度的數據放入內存。這樣作的理論依據是計算機科學中著名的局部性原理：

當一個數據被用到時，其附近的數據也一般會立刻被使用。

因此，程序運行期間所須要的數據一般應當比較集中。

因爲磁盤順序讀取的效率很高（不須要尋道時間，只需不多的旋轉時間），所以對於具備局部性的程序來講，預讀能夠提升I/O效率。

預讀的長度通常爲頁（page）的整倍數。頁是計算機管理存儲器的邏輯塊，硬件及操做系統每每將主存和磁盤存儲區分割爲連續的大小相等的塊，每一個存儲塊稱爲一頁（在許多操做系統中，頁得大小一般爲4k），主存和磁盤以頁爲單位交換數據。當程序要讀取的數據不在主存中時，會觸發一個缺頁異常，此時系統會向磁盤發出讀盤信號，磁盤會找到數據的起始位置並向後連續讀取一頁或幾頁載入內存中，而後異常返回，程序繼續運行。

B-/+Tree索引的性能分析

到這裏終於能夠分析B-/+Tree索引的性能了。

上文說過通常使用磁盤I/O次數評價索引結構的優劣。先從B-Tree分析，根據B-Tree的定義，可知檢索一次最多須要訪問h個節點。數據庫系統的設計者巧妙利用了磁盤預讀原理，將一個節點的大小設爲等於一個頁，這樣每一個節點只須要一次I/O就能夠徹底載入。爲了達到這個目的，在實際實現B-Tree還須要使用以下技巧：

每次新建節點時，直接申請一個頁的空間，這樣就保證一個節點物理上也存儲在一個頁裏，加之計算機存儲分配都是按頁對齊的，就實現了一個node只需一次I/O。

B-Tree中一次檢索最多須要h-1次I/O（根節點常駐內存），漸進複雜度爲\(O(h)=O(log_dN)\)。通常實際應用中，出度d是很是大的數字，一般超過100，所以h很是小（一般不超過3）。（h表示樹的高度 & 出度d表示的是樹的度，即樹中各個節點的度的最大值）

綜上所述，用B-Tree做爲索引結構效率是很是高的。

而紅黑樹這種結構，h明顯要深的多。因爲邏輯上很近的節點（父子）物理上可能很遠，沒法利用局部性，因此紅黑樹的I/O漸進複雜度也爲O(h)，效率明顯比B-Tree差不少。

上文還說過，B+Tree更適合外存索引，緣由和內節點出度d有關。從上面分析能夠看到，d越大索引的性能越好，而出度的上限取決於節點內key和data的大小：

\[ d_{max}=floor(pagesize/(keysize+datasize+pointsize))\]

floor表示向下取整。因爲B+Tree內節點去掉了data域，所以能夠擁有更大的出度，擁有更好的性能。

MySQL索引實現

在MySQL中，索引屬於存儲引擎級別的概念，不一樣存儲引擎對索引的實現方式是不一樣的，本文主要討論MyISAM和InnoDB兩個存儲引擎的索引實現方式。

MyISAM索引實現

MyISAM引擎使用B+Tree做爲索引結構，葉節點的data域存放的是數據記錄的地址。下圖是MyISAM索引的原理圖：

這裏設表一共有三列，假設咱們以Col1爲主鍵，則上圖是一個MyISAM表的主索引（Primary key）示意。能夠看出MyISAM的索引文件僅僅保存數據記錄的地址。在MyISAM中，主索引和輔助索引（Secondary key）在結構上沒有任何區別，只是主索引要求key是惟一的，而輔助索引的key能夠重複。若是咱們在Col2上創建一個輔助索引，則此索引的結構以下圖所示：

一樣也是一棵B+樹，data域保存數據記錄的地址。所以，MyISAM中索引檢索的算法爲首先按照B+Tree搜索算法搜索索引，若是指定的Key存在，則取出其data域的值，而後以data域的值爲地址，讀取相應數據記錄。

MyISAM的索引方式也叫作「非彙集」的，之因此這麼稱呼是爲了與InnoDB的彙集索引區分。

InnoDB索引實現

雖然InnoDB也使用B+Tree做爲索引結構，但具體實現方式卻與MyISAM大相徑庭。

第一個重大區別是InnoDB的數據文件自己就是索引文件。從上文知道，MyISAM索引文件和數據文件是分離的，索引文件僅保存數據記錄的地址。而在InnoDB中，表數據文件自己就是按B+Tree組織的一個索引結構，這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵，所以InnoDB表數據文件自己就是主索引。

上圖是InnoDB主索引（同時也是數據文件）的示意圖，能夠看到葉節點包含了完整的數據記錄。這種索引叫作彙集索引。由於InnoDB的數據文件自己要按主鍵彙集，因此InnoDB要求表必須有主鍵（MyISAM能夠沒有），若是沒有顯式指定，則MySQL系統會自動選擇一個能夠惟一標識數據記錄的列做爲主鍵，若是不存在這種列，則MySQL自動爲InnoDB表生成一個隱含字段做爲主鍵，這個字段長度爲6個字節，類型爲長整型。

第二個與MyISAM索引的不一樣是InnoDB的輔助索引data域存儲相應記錄主鍵的值而不是地址。換句話說，InnoDB的全部輔助索引都引用主鍵做爲data域。例如，上圖爲定義在Col3上的一個輔助索引：

這裏以英文字符的ASCII碼做爲比較準則。彙集索引這種實現方式使得按主鍵的搜索十分高效，可是輔助索引搜索須要檢索兩遍索引：首先檢索輔助索引得到主鍵，而後用主鍵到主索引中檢索得到記錄。

瞭解不一樣存儲引擎的索引實現方式對於正確使用和優化索引都很是有幫助，例如知道了InnoDB的索引實現後，就很容易明白爲何不建議使用過長的字段做爲主鍵，由於全部輔助索引都引用主索引，過長的主索引會令輔助索引變得過大。再例如，用非單調的字段做爲主鍵在InnoDB中不是個好主意，由於InnoDB數據文件自己是一棵B+Tree，非單調的主鍵會形成在插入新記錄時數據文件爲了維持B+Tree的特性而頻繁的分裂調整，十分低效，而使用自增字段做爲主鍵則是一個很好的選擇。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。