本文內容是簡單整理了連接爲 juejin.im/post/5a6873… 的博客內容。若有侵權請告知,謝謝!mysql
經過不斷縮小想要得到數據的範圍來篩選出最終想要的結果,同時把隨機事件變成順序事件。通俗解釋,經過一組規則來縮小數據查詢範圍、減小查詢次數,這組規則就是索引。算法
數據庫中的數據保存在磁盤上,訪問磁盤的成本是訪問內存的十萬倍左右。因此想要提升數據庫性能,必須控制訪問磁盤次數,即控制磁盤IO次數。sql
B+樹能夠把磁盤IO次數控制在一個常數量級。舉例說明:如上圖所示,要查找43所表明的數據(如下簡稱43)。數據庫
讀取磁盤塊3次,即產生了3次IO。若是沒有索引,則須要遍歷全部的磁盤塊。函數
真實狀況下,3層的B+樹能夠表示上百萬的數據。post
InnoDB的數據文件自己就是索引文件。在InnoDB中,表數據文件自己就是按B+Tree組織的一個索引結構,這棵樹的葉節點data域保存了完整的數據記錄。這個索引的key是數據表的主鍵,所以InnoDB表數據文件自己就是主索引。InnoDB的索引也叫作彙集索引。性能
由於InnoDB的數據文件自己要按主鍵彙集,因此InnoDB要求表必須有主鍵(MyISAM能夠沒有),若是沒有顯式指定,則MySQL系統會自動選擇一個能夠惟一標識數據記錄的列做爲主鍵,若是不存在這種列,則MySQL自動爲InnoDB表生成一個隱含字段做爲主鍵,這個字段長度爲6個字節,類型爲長整形。大數據
InnoDB的全部輔助索引都引用主鍵做爲data域。輔助索引搜索須要檢索兩遍索引:首先檢索輔助索引得到主鍵,而後用主鍵到主索引中檢索得到記錄。優化
B+樹是從左到右的順序來創建搜索樹的,因此檢索數據時也是按照從左到右的順序來檢索的。unix
聯合索引爲 <a, b, c> , a、b、c均爲表中一列。
數據舉例 | 使用索引 | 備註 |
---|---|---|
a,b,c | a,b,c | - |
a | a | - |
a,b | a,b | - |
a,c | a | 由於缺失b索引,c索引不會使用 |
b,c | - | 由於缺失a索引,b,c索引不會使用 |
b | - | 由於缺失a索引,b,c索引不會使用 |
c | - | 由於缺失a,b索引,c索引不會使用 |
最左前綴匹配原則,很是重要的原則,mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就中止匹配,好比a = 1 and b = 2 and c > 3 and d = 4 若是創建(a,b,c,d)順序的索引,d是用不到索引的,若是創建(a,b,d,c)的索引則均可以用到,a,b,d的順序能夠任意調整。
=和in能夠亂序,好比a = 1 and b = 2 and c = 3 創建(a,b,c)索引能夠任意順序,mysql的查詢優化器會幫你優化成索引能夠識別的形式
儘可能選擇區分度高的列做爲索引,區分度的公式是count(distinct col)/count(*),表示字段不重複的比例,比例越大咱們掃描的記錄數越少,惟一鍵的區分度是1,而一些狀態、性別字段可能在大數據面前區分度就是0,那可能有人會問,這個比例有什麼經驗值嗎?使用場景不一樣,這個值也很難肯定,通常須要join的字段咱們都要求是0.1以上,即平均1條掃描10條記錄
索引列不能參與計算,保持列「乾淨」,好比from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,緣由很簡單,b+樹中存的都是數據表中的字段值,但進行檢索時,須要把全部元素都應用函數才能比較,顯然成本太大。因此語句應該寫成create_time = unix_timestamp(’2014-05-29’);
儘可能的擴展索引,不要新建索引。好比表中已經有a的索引,如今要加(a,b)的索引,那麼只須要修改原來的索引便可,固然要考慮原有數據和線上使用狀況。