轉自:http://www.cnblogs.com/yanghuahui/p/3483754.htmlhtml
講LSM樹以前,須要提下三種基本的存儲引擎,這樣才能清楚LSM樹的由來:sql
經過以上的分析,應該知道LSM樹的由來了,LSM樹的設計思想很是樸素:將對數據的修改增量保持在內存中,達到指定的大小限制後將這些修改操做批量寫入磁盤,不過讀取的時候稍微麻煩,須要合併磁盤中歷史數據和內存中最近修改操做,因此寫入性能大大提高,讀取時可能須要先看是否命中內存,不然須要訪問較多的磁盤文件。極端的說,基於LSM樹實現的HBase的寫性能比Mysql高了一個數量級,讀性能低了一個數量級。數據庫
LSM樹原理把一棵大樹拆分紅N棵小樹,它首先寫入內存中,隨着小樹愈來愈大,內存中的小樹會flush到磁盤中,磁盤中的樹按期能夠作merge操做,合併成一棵大樹,以優化讀性能。數據結構
以上這些大概就是HBase存儲的設計主要思想,這裏分別對應說明下:oop
關於LSM Tree,對於最簡單的二層LSM Tree而言,內存中的數據和磁盤你中的數據merge操做,以下圖性能
圖來自lsm論文優化
lsm tree,理論上,能夠是內存中樹的一部分和磁盤中第一層樹作merge,對於磁盤中的樹直接作update操做有可能會破壞物理block的連續性,可是實際應用中,通常lsm有多層,當磁盤中的小樹合併成一個大樹的時候,能夠從新排好順序,使得block連續,優化讀性能。ui
hbase在實現中,是把整個內存在必定閾值後,flush到disk中,造成一個file,這個file的存儲也就是一個小的B+樹,由於hbase通常是部署在hdfs上,hdfs不支持對文件的update操做,因此hbase這麼總體內存flush,而不是和磁盤中的小樹merge update,這個設計也就能講通了。內存flush到磁盤上的小樹,按期也會合併成一個大樹。總體上hbase就是用了lsm tree的思路。設計