面試官:請你描述一下mysql中索引。
我:哦。。索引大概相似字典中的目錄,使用索引可以加快咱們的查詢效率。
面試官:還有呢?
我:沒了。
面試官:回去等通知。
我:好的。。html
你只看到了索引的第二層,你覺得它在第一層,實際上它是第五層——LOL金牌講師大司馬千層博弈論java
本片文章將從底層數據結構到應用帶你瞭解索引,讓你知其然還知其因此然。mysql
類比一下咱們
java
的HashMap
不難理解:
以key-value的形式檢索數據,根據索引值生成hashCode,指向具體的行數據面試
這是咱們應用最普遍的索引結構,咱們通常稱爲B+樹,爲何稱它爲B+樹呢,咱們來詳細分析一下各類數據結構。sql
在線模擬:www.cs.usfca.edu/~galles/vis…數據結構
咱們亂序的插入一些數據
6 3 5 7 8 13 9分佈式
可是在極端狀況下(按大小順序插入),可能演變成鏈表post
這樣查找一些比較深的數據時,近乎就是 遍歷整個樹了特色:
假如咱們採用這種數據結構,咱們能夠猜測:
在每個節點上會存放:指針
這裏穿插一個頁的概念: 咱們知道InnoDB(這裏不對其餘不經常使用引擎展開討論)中的數據都是存儲在磁盤上的,而咱們對數據進行讀寫時,必需要先將其加載到內存中,InnoDB採起的方式是:將數據劃分爲若干個頁,以頁做爲磁盤和內存之間交互的基本單位,InnoDB中頁的大小通常爲 16KB。
反觀咱們上文的結構:我查詢「3」這條數據須要進行3次查找(io消耗)
經過分裂與合併來保證:分叉數(路數)永遠比關鍵字數多1
如圖度數爲3的B樹,每一個節點(頁)最多存儲2個關鍵字,最多擁有3個分叉。
假設:B 樹在枝節點和葉子節點存儲鍵值、數據地址、節點引用。
若是咱們B樹的路數有1000的話,一顆三層的B樹能夠存儲1000x1000x1000約10億條數據(在只計算葉子節點的狀況下),即只須要最多3次io就能夠查到近10億條的數據。
標準的B+樹:
在mysql中,B+索引對標準的B+樹作了一些改變:
特色:
每一個節點存儲更多關鍵字
保證每次查詢io(次數/耗時/效率)一致
根節點,枝節點不保存完整數據,能保存更多的關鍵字
範圍查詢更快,全表遍歷更快,只須要遍歷葉子節點,不用遍歷整棵樹
B+樹的葉子節點存儲的是完整的行記錄
由於是完整的記錄因此叫聚簇麼。。
也是由索引建值構成的B+樹,只不過葉子節點只保存了索引建值與主鍵值
舉個栗子:以c列建立的二級索引
在查詢條件只包含c時,只過一遍c列構成的B+樹便可
查詢條件包含c列之外的字段時,須要經過c列的B+樹拿到主鍵值,在走一遍主鍵的B+樹,這個過程也叫回表。
以(a,b,c)三列建立的聯合索引,會先根據a排序,若a相等再根據b排序,若a,b相等再根據c排序,來建立一顆B+樹
這也是最左匹配原則的由來:只有查詢條件裏包含(a)(a,b)(a,b,c)列纔會走索引,條件前後順序無所謂,由於mysql會分析各類成本,來選擇最優的執行順序,即只要查詢條件符合索引的排序規則。
這個你們都懂,很少BB了
咱們知道B+樹維護的是一個從小到大順序的集合。
對於字符串索引B+樹的排序規則:先根據第一個字符排序,若第一個字符相對再根據第二個字符排序。。以此類推。
只有使用「key%」才能根據「key」等值查找到知足條件最小的值,再經過鏈表向後遍歷。
內部維護了一個有序的B+樹,若改變其中的大小會致使B+樹中大量的頁分裂與合併,會形成很大的開銷
理由同上,避免頻繁的頁分裂
咱們知道每個索引都會建立一顆B+樹,要排序,插入的效率會很是低
區分度低,查詢效率低,還須要維護索引,回表屢次io,不如全表掃描