Mysql B+樹索引 筆記

聲明

本文內容是簡單整理了連接爲 juejin.im/post/5a6873… 的博客內容。若有侵權請告知,謝謝!mysql

索引原理

經過不斷縮小想要得到數據的範圍來篩選出最終想要的結果,同時把隨機事件變成順序事件。通俗解釋,經過一組規則來縮小數據查詢範圍、減小查詢次數,這組規則就是索引。算法

B+樹索引

B+樹

描述

  • 真實的數據存在於葉子節點;
  • 非葉子結點不存儲真實數據,只存儲指引搜索方向的數據項;

B+樹如何提升數據庫性能

數據庫中的數據保存在磁盤上,訪問磁盤的成本是訪問內存的十萬倍左右。因此想要提升數據庫性能,必須控制訪問磁盤次數,即控制磁盤IO次數。sql

B+樹能夠把磁盤IO次數控制在一個常數量級。舉例說明:如上圖所示,要查找43所表明的數據(如下簡稱43)。數據庫

  1. 將根節點所在的磁盤塊從磁盤上讀取到內存中,在內存中查找43,發現43在21-48之間;
  2. 將21-48所在的磁盤塊從磁盤上讀取到內存中,在內存中查找43,發現43在41-48之間;
  3. 將41-48所在的磁盤款從磁盤上讀取到內存中,在內存中查找到43;

讀取磁盤塊3次,即產生了3次IO。若是沒有索引,則須要遍歷全部的磁盤塊。函數

真實狀況下,3層的B+樹能夠表示上百萬的數據。post

索引實現

MyISAM引擎

  • MyISAM的索引方式也叫作「非彙集」的。
  • MyISAM引擎使用B+Tree做爲索引結構,葉節點的data域存放的是數據記錄的地址。
  • MyISAM中索引檢索的算法爲首先按照B+Tree搜索算法搜索索引,若是指定的Key存在,則取出其data域的值,而後以data域的值爲地址,讀取相應數據記錄。
  • 在MyISAM中,主索引和輔助索引在結構上沒有任何區別,只是主索引要求key是惟一的,而輔助索引的key能夠重複。

InnoDB引擎

InnoDB的數據文件自己就是索引文件。在InnoDB中,表數據文件自己就是按B+Tree組織的一個索引結構,這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵,所以InnoDB表數據文件自己就是主索引。InnoDB的索引也叫作彙集索引。性能

由於InnoDB的數據文件自己要按主鍵彙集,因此InnoDB要求表必須有主鍵(MyISAM能夠沒有),若是沒有顯式指定,則MySQL系統會自動選擇一個能夠惟一標識數據記錄的列做爲主鍵,若是不存在這種列,則MySQL自動爲InnoDB表生成一個隱含字段做爲主鍵,這個字段長度爲6個字節,類型爲長整形。大數據

InnoDB的全部輔助索引都引用主鍵做爲data域。輔助索引搜索須要檢索兩遍索引:首先檢索輔助索引得到主鍵,而後用主鍵到主索引中檢索得到記錄。優化

索引最左匹配特性

B+樹是從左到右的順序來創建搜索樹的,因此檢索數據時也是按照從左到右的順序來檢索的。unix

聯合索引爲 <a, b, c> , a、b、c均爲表中一列。

數據舉例 使用索引 備註
a,b,c a,b,c -
a a -
a,b a,b -
a,c a 由於缺失b索引,c索引不會使用
b,c - 由於缺失a索引,b,c索引不會使用
b - 由於缺失a索引,b,c索引不會使用
c - 由於缺失a,b索引,c索引不會使用

創建索引技巧

  1. 最左前綴匹配原則,很是重要的原則,mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就中止匹配,好比a = 1 and b = 2 and c > 3 and d = 4 若是創建(a,b,c,d)順序的索引,d是用不到索引的,若是創建(a,b,d,c)的索引則均可以用到,a,b,d的順序能夠任意調整。

  2. =和in能夠亂序,好比a = 1 and b = 2 and c = 3 創建(a,b,c)索引能夠任意順序,mysql的查詢優化器會幫你優化成索引能夠識別的形式

  3. 儘可能選擇區分度高的列做爲索引,區分度的公式是count(distinct col)/count(*),表示字段不重複的比例,比例越大咱們掃描的記錄數越少,惟一鍵的區分度是1,而一些狀態、性別字段可能在大數據面前區分度就是0,那可能有人會問,這個比例有什麼經驗值嗎?使用場景不一樣,這個值也很難肯定,通常須要join的字段咱們都要求是0.1以上,即平均1條掃描10條記錄

  4. 索引列不能參與計算,保持列「乾淨」,好比from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,緣由很簡單,b+樹中存的都是數據表中的字段值,但進行檢索時,須要把全部元素都應用函數才能比較,顯然成本太大。因此語句應該寫成create_time = unix_timestamp(’2014-05-29’);

  5. 儘可能的擴展索引,不要新建索引。好比表中已經有a的索引,如今要加(a,b)的索引,那麼只須要修改原來的索引便可,固然要考慮原有數據和線上使用狀況。

相關文章
相關標籤/搜索