越努力,越幸運,
本文已收藏在GitHub中 JavaCommunity, 裏面有面試分享、源碼分析系列文章,歡迎收藏,點贊
https://github.com/Ccww-lx/JavaCommunity
數據庫索引在平時的工做是必備的,怎麼建索引,怎麼使用索引,能夠提升數據的查詢效率。並且在面試過程,數據庫的索引也是必問的知識點,好比:git
索引的類型github
看着這些,能說出多少,理解多少呢?所以咱們須要去探究其內在原理。面試
索引的目的爲了加速檢索數據而設計的一種分散存儲(索引經常很大,屬於硬盤級的東西,因此是分散存儲)的數據結構,其原理以空間換時間。
而快速檢索的實現的本質是數據結構,經過不一樣數據結構的選擇,實現各類數據快速檢索,索引有哈希索引和B+樹索引。算法
數據庫索引底層選型歸根到底就是爲提升檢索效率,那麼就須要考慮幾個問題:sql
NOTE: 考慮到磁盤IO是很是高昂的操做,計算機操做系統作了一些優化,當一次IO時,不光把當前磁盤地址的數據,而是把相鄰的數據也都讀取到內存緩衝區內,由於局部預讀性原理告訴咱們,當計算機訪問一個地址的數據的時候,與其相鄰的數據也會很快被訪問到。每一次IO讀取的數據咱們稱之爲一頁(page)。
哈希表是根據鍵(Key)而直接訪問在內存存儲位置的數據結構。數據庫
經過計算一個關於鍵值的函數,將所需查詢的數據映射到表中一個位置來訪問記錄,這加快了查找速度。雖然查詢時間複雜度爲O(1),但存在着碰撞問題,最壞狀況會致使時間複雜急劇增長;微信
並且哈希表其只適合精準key(等於)檢索,不適合範圍式檢索,範圍檢索就須要一次把全部數據找出來加載到內存,沒有效率,所以不適合Mysql的底層索引的數據結構。數據結構
爲了優化高效範圍查詢,且時間複雜度小,引入二叉查找樹函數
二叉查找樹的時間複雜度是 O(lgn),因爲數據已排序好了,因此範圍查詢是能夠高效查詢,源碼分析
但會存在的問題:左右子節點的深度可能相差很大,最極端的狀況只有左子樹或者右子樹,此時查找的效率爲O(n),檢索性能急劇降低,所以也不適合Mysql的底層索引的數據結構。
爲了優化二叉樹左右子樹深度相差太大的問題,咱們引入了平衡二叉樹,即左右子節點的深度差不超過1
平衡二叉樹看來好像適合,能夠實現:
NOTE:上圖中一個磁盤塊,表明硬盤上的一個存儲位置
可是咱們還有一個最重要因素須要考慮,磁盤IO與預讀,且數據庫查詢數據的瓶頸在於磁盤 IO,使用平衡二叉樹根據索引進行查找時,每讀一個磁盤塊就進行一次IO,這樣沒有實現計算機的預讀,致使檢索效率,總結出平衡二叉樹做爲索引的問題(上圖中一個磁盤塊,表明硬盤上的一個存儲位置):
4K
,Mysql一次IO 16K
,而圖上的磁盤塊能明顯達不到4K爲了優化磁盤IO和預讀,減小IO操做,條路太少了,那麼換成多條路,那麼會想到使用B樹和B+樹,但B樹每一個節點限制最多存儲兩個 key,也會形成IO操做過於頻繁,所以優化思路爲:儘量在一次磁盤 IO 中多讀一點數據到內存,那麼B+樹也該出場:
相對於B樹,B+樹的優點有:
B+樹掃庫掃表的能力更強
索引在不一樣的存儲引擎中體現形式步同樣, 最多見的是:
InnoDB存儲引擎中,索引和數據是存放在同一個文件的,屬於彙集索引 。並且InnoDB會自動創建好主鍵 ID 索引樹, 所以建表時要求必須指定主鍵的緣由。
其中,主鍵索引(彙集索引)的葉子節點記錄了數據,而不是數據的物理地址。輔助索引的葉子節點存放的是主鍵key。因此當利用輔助索引查找數據時,實際上查了兩遍索引(輔助索引和主鍵索引):
Myisam存儲引擎中,索引和數據是存放在兩個文件中的,屬於非彙集索引 。不論是主鍵索引仍是輔助索引,其葉子節點都是記錄了數據的物理地址。
MySQL索引能夠分爲:
惟一索引:
聯合索引:
其中,主要理解一下聯合索引的問題,存儲結構,查詢方式。
聯合索引,多個列組成的索引叫作聯合索引,單列索引是特殊的聯合索引。其存儲結構以下:
<font color='red'>對於聯合索引來講其存儲結構只不過比單值索引多了幾列,組合索引列數據都記錄在索引樹上,(不一樣的組合索引,B+樹也是不一樣的),且存儲引擎會首先根據第一個索引列排序後,其餘列再依次將相等值的進行排序。</font>
NOTE:葉節點第一排,按順序排序好,第二列,會基於第一列排序好的,將第一列相等的再下一列再排序,依次類推。
<font color='red'>聯合索引查詢方式,存儲引擎首先從根節點(通常常駐內存)開始查找,而後再依次在其餘列中查詢,直到找到該索引下的data元素即ID值,再從主鍵索引樹上找到最終數據。</font>
並且聯合索引其選擇的原則:
最左前綴匹配原則和聯合索引的索引構建方式及存儲結構是有關係的。根據上述理解分析,能夠得出聯合索引只能從多列索引的第一列開始查找索引纔會生效,好比:
假設表user上有個聯合索引(a,b,c),那麼 select * from user where b = 1 and c = 2將不會命中索引緣由是聯合索引的是存儲引擎先按第一個字段排序,再按第二個字段排序,依次排序。
當索引中的一列離散度太低時,優化器可能直接不走索引,離散度計算方法:
離散度 = 列中不重複的數據量 / 這一列的總數據量
若是一個索引包含(或覆蓋)全部須要查詢的字段的值,稱爲覆蓋索,即只需掃描索引而無須回表查詢 。覆蓋索引可減小數據庫IO,將隨機IO變爲順序IO,可提升查詢性能。
對於InnoDB輔助索引在葉子節點中保存了行的主鍵值,因此若是輔助索引(包括聯合索引)可以覆蓋查詢,則能夠避免對主鍵索引的二次查詢。好比:
--建立聯合索引 create index name_phone_idx on user(name,phoneNum); --此時是覆蓋索引,緣由是根據name來查,命中索引name_phone_idx, --其關鍵字爲name,phoneNum,自己就已經包含了查詢的列。 select name,phoneNum where name = "張三"; --若是id爲主鍵的話,此時也稱做覆蓋索引,緣由:輔助索引的葉子節點存的就是主鍵 select id,name,phoneNum where name = "張三";
MySQL的索引有不少知識點要掌握,已學習了索引的底層存儲結構,不一樣存儲引擎中的索引體現,以及索引類型的基礎原理知識分析,能夠爲後續的數據庫優化提供理論知識的支撐,也會更好的理解優化方案。後續會有優化篇章
謝謝各位點贊,沒點讚的點個贊支持支持 最後,微信搜《Ccww技術博客》觀看更多文章,也歡迎關注一波。