看圖輕鬆理解數據結構與算法系列(NoSQL存儲-LSM樹)

時間 2019-11-17

標籤看圖輕鬆理解數據結構算法系列 nosql 存儲 lsm 欄目 NoSQL 简体版

原文原文鏈接

前言

推出一個新系列，《看圖輕鬆理解數據結構和算法》，主要使用圖片來描述常見的數據結構和算法，輕鬆閱讀並理解掌握。本系列包括各類堆、各類隊列、各類列表、各類樹、各類圖、各類排序等等幾十篇的樣子。mysql

關於LSM樹

LSM樹，即日誌結構合併樹(Log-Structured Merge-Tree)。其實它並不屬於一個具體的數據結構，它更可能是一種數據結構的設計思想。大多NoSQL數據庫核心思想都是基於LSM來作的，只是具體的實現不一樣。因此原本不打算列入該系列，可是有朋友留言了好幾回讓我講LSM樹，那麼就說一下LSM樹。算法

LSM樹誕生背景

傳統關係型數據庫使用btree或一些變體做爲存儲結構，能高效進行查找。但保存在磁盤中時它也有一個明顯的缺陷，那就是邏輯上相離很近但物理卻可能相隔很遠，這就可能形成大量的磁盤隨機讀寫。隨機讀寫比順序讀寫慢不少，爲了提高IO性能，咱們須要一種能將隨機操做變爲順序操做的機制，因而便有了LSM樹。LSM樹能讓咱們進行順序寫磁盤，從而大幅提高寫操做，做爲代價的是犧牲了一些讀性能。sql

關於磁盤IO

磁盤讀寫時涉及到磁盤上數據查找，地址通常由柱面號、盤面號和塊號三者構成。也就是說移動臂先根據柱面號移動到指定柱面，而後根據盤面號肯定盤面的磁道，最後根據塊號將指定的磁道段移動到磁頭下，即可開始讀寫。數據庫

整個過程主要有三部分時間消耗，查找時間(seek time) +等待時間(latency time)+傳輸時間(transmission time) 。分別表示定位柱面的耗時、將塊號指定磁道段移到磁頭的耗時、將數據傳到內存的耗時。整個磁盤IO最耗時的地方在查找時間，因此減小查找時間能大幅提高性能。網絡

LSM樹原理

LSM樹由兩個或以上的存儲結構組成，好比在論文中爲了方便說明使用了最簡單的兩個存儲結構。一個存儲結構常駐內存中，稱爲C0 tree，具體能夠是任何方便健值查找的數據結構，好比紅黑樹、map之類，甚至能夠是跳錶。另一個存儲結構常駐在硬盤中，稱爲C1 tree，具體結構相似B樹。C1全部節點都是100%滿的，節點的大小爲磁盤塊大小。數據結構

插入步驟

大致思路是：插入一條新紀錄時，首先在日誌文件中插入操做日誌，以便後面恢復使用，日誌是以append形式插入，因此速度很是快；將新紀錄的索引插入到C0中，這裏在內存中完成，不涉及磁盤IO操做；當C0大小達到某一閾值時或者每隔一段時間，將C0中記錄滾動合併到磁盤C1中；對於多個存儲結構的狀況，當C1體量愈來愈大就向C2合併，以此類推，一直往上合併Ck。併發

合併步驟

合併過程當中會使用兩個塊：emptying block和filling block。app

從C1中讀取未合併葉子節點，放置內存中的emptying block中。
從小到大找C0中的節點，與emptying block進行合併排序，合併結果保存到filling block中，並將C0對應的節點刪除。
不斷執行第2步操做，合併排序結果不斷填入filling block中，當其滿了則將其追加到磁盤的新位置上，注意是追加而不是改變原來的節點。合併期間如故宮emptying block使用完了則再從C1中讀取未合併的葉子節點。
C0和C1全部葉子節點都按以上合併完成後即完成一次合併。