lightning mdb 源代碼分析（2）

時間 2019-12-06

標籤 lightning mdb 源代碼分析简体版

原文原文鏈接

本系列前一篇已經分析了lightningmdb的總體架構和主要的數據結構。本文將介紹一下MMAP原理以及lmdb中如何使用它。node

1. Memory Map原理linux

內存映射文件與虛擬內存有些相似，經過內存映射文件能夠保留一個地址空間的區域，同時將物理存儲器提交給此區域，只是內存文件映射的物理存儲器來自一個已經存在於磁盤上的文件，而非系統的頁文件，並且在對該文件進行操做以前必須首先對文件進行映射，就如同將整個文件從磁盤加載到內存。由此能夠看出，使用內存映射文件處理存儲於磁盤上的文件時，將不須要由應用程序對文件執行I/O操做，這意味着在對文件進行處理時將沒必要再爲文件申請並分配緩存，全部的文件緩存操做均由系統直接管理，因爲取消了將文件數據加載到內存、數據從內存到文件的回寫以及釋放內存塊等步驟，使得內存映射文件在處理大數據量的文件時能起到至關重要的做用。另外，實際工程中的系統每每須要在多個進程之間共享數據，若是數據量小，處理方法是靈活多變的，若是共享數據容量巨大，那麼就須要藉助於內存映射文件來進行。實際上，內存映射文件正是解決本地多個進程間數據共享的最有效方法。算法

根據網友實測，mmap的操做效率是普通文件io操做的2-4倍。其緣由主要就是避免了io操做過程當中，內存申請、複製以及跨內核空間的轉換。數據庫

2. windows與linux實現的方式windows

windows下經過內存映射文件（CreateFileMapping）系列函數完成，其公開的API架構以下圖所示緩存

它是內存管理的一種方式，是進行進程間大數據共享的基本方式。數據結構

使用的基本方式是：架構

首先要經過CreateFile（）函數來建立或打開一個文件內核對象，這個對象標識了磁盤上將要用做內存映射文件的文件。在用CreateFile（）將文件映像在物理存儲器的位置通告給操做系統後，只指定了映像文件的路徑，映像的長度尚未指定。爲了指定文件映射對象須要多大的物理存儲空間還須要經過CreateFileMapping（）函數來建立一個文件映射內核對象以告訴系統文件的尺寸以及訪問文件的方式。在建立了文件映射對象後，還必須爲文件數據保留一個地址空間區域，並把文件數據做爲映射到該區域的物理存儲器進行提交。由MapViewOfFile（）函數負責經過系統的管理而將文件映射對象的所有或部分映射到進程地址空間。此時，對內存映射文件的使用和處理同一般加載到內存中的文件數據的處理方式基本同樣，在完成了對內存映射文件的使用時，還要經過一系列的操做完成對其的清除和使用過資源的釋放。這部分相對比較簡單，能夠經過UnmapViewOfFile（）完成從進程的地址空間撤消文件數據的映像、經過CloseHandle（）關閉前面建立的文件映射對象和文件對象。併發

linux下經過mmap系列函數實現。基本過程如圖所示:app

通常的文件io操做方式以下圖所示：

從以上兩圖比較可知，直接文件io將不可避免的進行屢次內存複製。

基於以上的系統內存映射原理可知，內存映射是系統內核級的內存管理方式，其在不致使swap(由於物理內存不夠)等附加磁盤io的前提下，

效率是很高的，所以其在數據庫領域也有必定的適應性。基於內存映射的數據庫系統，在實際的數據文件小於進程可用物理內存大小時，

效率遠遠高於通常的數據庫系統，當數據文件比較大時，若應用訪問的頁面很是分散且數目巨大時，好比全表掃描時，這時內存映射將頻繁

出發缺頁異常，進而頻繁進行swap，從而一次io變成2次io，效率反而降低。若應用訪問基本爲索引掃描，則以上狀況能夠避免，哪怕數據

文件遠大於實際可用物理內存，則效率仍是不錯的。同時系統內存映射方式實現的數據庫系統將大大簡化內存管理、緩存管理、外存管理

等，所以其是必定規模和特定應用的首選實現方式，lmdb主要也是基於以上幾點考慮使用內存映射。

3. lmdb使用方式

lmdb在建立環境（env對象）的時候首先檢查文件頭的相關信息，並得到文件大小，在打開的過程當中經過系統函數對文件進行映射。

其餘時刻都直接使用內存指針，經過系統級別的缺頁異常獲取對應的數據。頁面內數據的獲取和使用MDB_CURSOR_GET進行。

頁面的獲取和key查詢經過mdb_page_get/mdb_page_search完成。

要理解爲何mmap映射的地址空間和指針對於lmdb代碼是可用的，首先得理解lmdb的頁面數據組織方式，如下示例以葉子頁進行解釋，

branch頁面與其相似。

葉子頁面的數據的組織方式以下所示：

pgno	pad	flags	overflows^①	nd_index1	nd_index2	nd_index3	nd_index4



node4[	lo	hi^②	flags	keysize	data(key)	data^*(value)	]
node3[	lo	hi	flags	keysize	data(key)	data^*(value)	]
node2[	lo	hi	flags	keysize	data(key)	data^*(value)	]
node1[	lo	hi	flags	keysize	data(key)	data^*(value)	]