Mysql B+樹索引筆記

時間 2019-12-06

標籤 mysql 索引筆記欄目 MySQL 简体版

原文原文鏈接

聲明

本文內容是簡單整理了連接爲 juejin.im/post/5a6873… 的博客內容。若有侵權請告知，謝謝！mysql

索引原理

經過不斷縮小想要得到數據的範圍來篩選出最終想要的結果，同時把隨機事件變成順序事件。通俗解釋，經過一組規則來縮小數據查詢範圍、減小查詢次數，這組規則就是索引。算法

B+樹索引

描述

真實的數據存在於葉子節點；
非葉子結點不存儲真實數據，只存儲指引搜索方向的數據項；

B+樹如何提升數據庫性能

數據庫中的數據保存在磁盤上，訪問磁盤的成本是訪問內存的十萬倍左右。因此想要提升數據庫性能，必須控制訪問磁盤次數，即控制磁盤IO次數。sql

B+樹能夠把磁盤IO次數控制在一個常數量級。舉例說明：如上圖所示，要查找43所表明的數據（如下簡稱43）。數據庫

將根節點所在的磁盤塊從磁盤上讀取到內存中，在內存中查找43，發現43在21-48之間；
將21-48所在的磁盤塊從磁盤上讀取到內存中，在內存中查找43，發現43在41-48之間；
將41-48所在的磁盤款從磁盤上讀取到內存中，在內存中查找到43;

讀取磁盤塊3次，即產生了3次IO。若是沒有索引，則須要遍歷全部的磁盤塊。函數

真實狀況下，3層的B+樹能夠表示上百萬的數據。post

索引實現

MyISAM引擎

MyISAM的索引方式也叫作「非彙集」的。
MyISAM引擎使用B+Tree做爲索引結構，葉節點的data域存放的是數據記錄的地址。
MyISAM中索引檢索的算法爲首先按照B+Tree搜索算法搜索索引，若是指定的Key存在，則取出其data域的值，而後以data域的值爲地址，讀取相應數據記錄。
在MyISAM中，主索引和輔助索引在結構上沒有任何區別，只是主索引要求key是惟一的，而輔助索引的key能夠重複。

InnoDB引擎

InnoDB的數據文件自己就是索引文件。在InnoDB中，表數據文件自己就是按B+Tree組織的一個索引結構，這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵，所以InnoDB表數據文件自己就是主索引。InnoDB的索引也叫作彙集索引。性能

由於InnoDB的數據文件自己要按主鍵彙集，因此InnoDB要求表必須有主鍵（MyISAM能夠沒有），若是沒有顯式指定，則MySQL系統會自動選擇一個能夠惟一標識數據記錄的列做爲主鍵，若是不存在這種列，則MySQL自動爲InnoDB表生成一個隱含字段做爲主鍵，這個字段長度爲6個字節，類型爲長整形。大數據

InnoDB的全部輔助索引都引用主鍵做爲data域。輔助索引搜索須要檢索兩遍索引：首先檢索輔助索引得到主鍵，而後用主鍵到主索引中檢索得到記錄。優化

索引最左匹配特性

B+樹是從左到右的順序來創建搜索樹的，因此檢索數據時也是按照從左到右的順序來檢索的。unix

聯合索引爲 <a, b, c> , a、b、c均爲表中一列。

數據舉例	使用索引	備註
a,b,c	a,b,c	-
a	a	-
a,b	a,b	-
a,c	a	由於缺失b索引，c索引不會使用
b,c	-	由於缺失a索引，b,c索引不會使用
b	-	由於缺失a索引，b,c索引不會使用
c	-	由於缺失a,b索引，c索引不會使用

創建索引技巧

最左前綴匹配原則，很是重要的原則，mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就中止匹配，好比a = 1 and b = 2 and c > 3 and d = 4 若是創建(a,b,c,d)順序的索引，d是用不到索引的，若是創建(a,b,d,c)的索引則均可以用到，a,b,d的順序能夠任意調整。
=和in能夠亂序，好比a = 1 and b = 2 and c = 3 創建(a,b,c)索引能夠任意順序，mysql的查詢優化器會幫你優化成索引能夠識別的形式
儘可能選擇區分度高的列做爲索引,區分度的公式是count(distinct col)/count(*)，表示字段不重複的比例，比例越大咱們掃描的記錄數越少，惟一鍵的區分度是1，而一些狀態、性別字段可能在大數據面前區分度就是0，那可能有人會問，這個比例有什麼經驗值嗎？使用場景不一樣，這個值也很難肯定，通常須要join的字段咱們都要求是0.1以上，即平均1條掃描10條記錄
索引列不能參與計算，保持列「乾淨」，好比from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，緣由很簡單，b+樹中存的都是數據表中的字段值，但進行檢索時，須要把全部元素都應用函數才能比較，顯然成本太大。因此語句應該寫成create_time = unix_timestamp(’2014-05-29’);
儘可能的擴展索引，不要新建索引。好比表中已經有a的索引，如今要加(a,b)的索引，那麼只須要修改原來的索引便可，固然要考慮原有數據和線上使用狀況。