B+Tree是B樹的變種,有着比B樹更高的查詢性能,來看下m階B+Tree特徵:算法
一、有m個子樹的節點包含有m個元素(B-Tree中是m-1)數據庫
二、根節點和分支節點中不保存數據,只用於索引,全部數據都保存在葉子節點中。性能
三、全部分支節點和根節點都同時存在於子節點中,在子節點元素中是最大或者最小的元素。spa
四、葉子節點會包含全部的關鍵字,以及指向數據記錄的指針,而且葉子節點自己是根據關鍵字的大小從小到大順序連接。3d
一、紅點表示是指向衛星數據的指針,指針指向的是存放實際數據的磁盤頁,衛星數據就是數據庫中一條數據記錄。指針
二、葉子節點中還有一個指向下一個葉子節點的next指針,因此葉子節點造成了一個有序的鏈表,方便遍歷B+樹。blog
B+樹的查找元素3的過程:索引
第一次磁盤IO遍歷
第二次磁盤IOim
第三次磁盤IO
這個過程看下來,貌似與B樹的查詢過程沒有什麼區別。但實際上有兩點不同:
a、首先B+樹的中間節點不存儲衛星數據,因此一樣大小的磁盤頁能夠容納更多的節點元素,如此一來,相同數量的數據下,B+樹就相對來講要更加矮胖些,磁盤IO的次數更少。
b、因爲只有葉子節點才保存衛星數據,B+樹每次查詢都要到葉子節點;而B樹每次查詢則不同,最好的狀況是根節點,最壞的狀況是葉子節點,沒有B+樹穩定。
B樹範圍查找3-8的過程
a、先查找3
b、再查找四、五、六、七、8,中間過程省略,直接到8的查找
這裏查找的範圍跨度越大,則磁盤IO的次數越多,性能越差。
B+樹範圍查找3-11的過程
先從上到下找到下限元素3,而後經過鏈表指針,依次遍歷獲得元素5/6/8/9/11;如此一來,就不用像B樹那樣一個個元素進行查找。
1.單節點能夠存儲更多的元素,使得查詢磁盤IO次數更少。
2.全部查詢都要查找到葉子節點,查詢性能穩定。
3.全部葉子節點造成有序鏈表,便於範圍查詢。
PS:在數據庫的彙集索引(Clustered Index)中,葉子節點直接包含衛星數據。在非彙集索引(NonClustered Index)中,葉子節點帶有指向衛星數據的指針。
參考文獻:
【1】很直觀的圖:http://www.jianshu.com/p/6f68d3c118d6
【2】《算法導論》