認真分析mmap：是什麼爲何怎麼用

時間 2019-11-10

標籤認真分析 mmap 什麼爲何怎麼简体版

原文原文鏈接

mmap基礎概念

mmap是一種內存映射文件的方法，即將一個文件或者其它對象映射到進程的地址空間，實現文件磁盤地址和進程虛擬地址空間中一段虛擬地址的一一對映關係。實現這樣的映射關係後，進程就能夠採用指針的方式讀寫操做這一段內存，而系統會自動回寫髒頁面到對應的文件磁盤上，即完成了對文件的操做而沒必要再調用read,write等系統調用函數。相反，內核空間對這段區域的修改也直接反映用戶空間，從而能夠實現不一樣進程間的文件共享。以下圖所示：html

由上圖能夠看出，進程的虛擬地址空間，由多個虛擬內存區域構成。虛擬內存區域是進程的虛擬地址空間中的一個同質區間，即具備一樣特性的連續地址範圍。上圖中所示的text數據段（代碼段）、初始數據段、BSS數據段、堆、棧和內存映射，都是一個獨立的虛擬內存區域。而爲內存映射服務的地址空間處在堆棧之間的空餘部分。node

linux內核使用vm_area_struct結構來表示一個獨立的虛擬內存區域，因爲每一個不一樣質的虛擬內存區域功能和內部機制都不一樣，所以一個進程使用多個vm_area_struct結構來分別表示不一樣類型的虛擬內存區域。各個vm_area_struct結構使用鏈表或者樹形結構連接，方便進程快速訪問，以下圖所示：linux

vm_area_struct結構中包含區域起始和終止地址以及其餘相關信息，同時也包含一個vm_ops指針，其內部可引出全部針對這個區域可使用的系統調用函數。這樣，進程對某一虛擬內存區域的任何操做須要用要的信息，均可以從vm_area_struct中得到。mmap函數就是要建立一個新的vm_area_struct結構，並將其與文件的物理磁盤地址相連。具體步驟請看下一節。緩存

mmap內存映射原理

mmap內存映射的實現過程，總的來講能夠分爲三個階段：ide

（一）進程啓動映射過程，並在虛擬地址空間中爲映射建立虛擬映射區域函數

一、進程在用戶空間調用庫函數mmap，原型：void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);大數據

二、在當前進程的虛擬地址空間中，尋找一段空閒的知足要求的連續的虛擬地址spa

三、爲此虛擬區分配一個vm_area_struct結構，接着對這個結構的各個域進行了初始化3d

四、將新建的虛擬區結構（vm_area_struct）插入進程的虛擬地址區域鏈表或樹中指針

（二）調用內核空間的系統調用函數mmap（不一樣於用戶空間函數），實現文件物理地址和進程虛擬地址的一一映射關係

五、爲映射分配了新的虛擬地址區域後，經過待映射的文件指針，在文件描述符表中找到對應的文件描述符，經過文件描述符，連接到內核「已打開文件集」中該文件的文件結構體（struct file），每一個文件結構體維護着和這個已打開文件相關各項信息。

六、經過該文件的文件結構體，連接到file_operations模塊，調用內核函數mmap，其原型爲：int mmap(struct file *filp, struct vm_area_struct *vma)，不一樣於用戶空間庫函數。

七、內核mmap函數經過虛擬文件系統inode模塊定位到文件磁盤物理地址。

八、經過remap_pfn_range函數創建頁表，即實現了文件地址和虛擬地址區域的映射關係。此時，這片虛擬地址並無任何數據關聯到主存中。

（三）進程發起對這片映射空間的訪問，引起缺頁異常，實現文件內容到物理內存（主存）的拷貝

注：前兩個階段僅在於建立虛擬區間並完成地址映射，可是並無將任何文件數據的拷貝至主存。真正的文件讀取是當進程發起讀或寫操做時。

九、進程的讀或寫操做訪問虛擬地址空間這一段映射地址，經過查詢頁表，發現這一段地址並不在物理頁面上。由於目前只創建了地址映射，真正的硬盤數據尚未拷貝到內存中，所以引起缺頁異常。

十、缺頁異常進行一系列判斷，肯定無非法操做後，內核發起請求調頁過程。

十一、調頁過程先在交換緩存空間（swap cache）中尋找須要訪問的內存頁，若是沒有則調用nopage函數把所缺的頁從磁盤裝入到主存中。

十二、以後進程便可對這片主存進行讀或者寫的操做，若是寫操做改變了其內容，必定時間後系統會自動回寫髒頁面到對應磁盤地址，也即完成了寫入到文件的過程。

注：修改過的髒頁面並不會當即更新迴文件中，而是有一段時間的延遲，能夠調用msync()來強制同步, 這樣所寫的內容就能當即保存到文件裏了。

mmap和常規文件操做的區別

對linux文件系統不瞭解的朋友，請參閱我以前寫的博文《從內核文件系統看文件讀寫過程》，咱們首先簡單的回顧一下常規文件系統操做（調用read/fread等類函數）中，函數的調用過程：

一、進程發起讀文件請求。

二、內核經過查找進程文件符表，定位到內核已打開文件集上的文件信息，從而找到此文件的inode。

三、inode在address_space上查找要請求的文件頁是否已經緩存在頁緩存中。若是存在，則直接返回這片文件頁的內容。

四、若是不存在，則經過inode定位到文件磁盤地址，將數據從磁盤複製到頁緩存。以後再次發起讀頁面過程，進而將頁緩存中的數據發給用戶進程。

總結來講，常規文件操做爲了提升讀寫效率和保護磁盤，使用了頁緩存機制。這樣形成讀文件時須要先將文件頁從磁盤拷貝到頁緩存中，因爲頁緩存處在內核空間，不能被用戶進程直接尋址，因此還須要將頁緩存中數據頁再次拷貝到內存對應的用戶空間中。這樣，經過了兩次數據拷貝過程，才能完成進程對文件內容的獲取任務。寫操做也是同樣，待寫入的buffer在內核空間不能直接訪問，必需要先拷貝至內核空間對應的主存，再寫回磁盤中（延遲寫回），也是須要兩次數據拷貝。

而使用mmap操做文件中，建立新的虛擬內存區域和創建文件磁盤地址和虛擬內存區域映射這兩步，沒有任何文件拷貝操做。而以後訪問數據時發現內存中並沒有數據而發起的缺頁異常過程，能夠經過已經創建好的映射關係，只使用一次數據拷貝，就從磁盤中將數據傳入內存的用戶空間中，供進程使用。

總而言之，常規文件操做須要從磁盤到頁緩存再到用戶主存的兩次數據拷貝。而mmap操控文件，只須要從磁盤到用戶主存的一次數據拷貝過程。說白了，mmap的關鍵點是實現了用戶空間和內核空間的數據直接交互而省去了空間不一樣數據不通的繁瑣過程。所以mmap效率更高。

mmap優勢總結

由上文討論可知，mmap優勢共有一下幾點：

一、對文件的讀取操做跨過了頁緩存，減小了數據的拷貝次數，用內存讀寫取代I/O讀寫，提升了文件讀取效率。

二、實現了用戶空間和內核空間的高效交互方式。兩空間的各自修改操做能夠直接反映在映射的區域內，從而被對方空間及時捕捉。

三、提供進程間共享內存及相互通訊的方式。無論是父子進程仍是無親緣關係的進程，均可以將自身用戶空間映射到同一個文件或匿名映射到同一片區域。從而經過各自對映射區域的改動，達到進程間通訊和進程間共享的目的。

同時，若是進程A和進程B都映射了區域C，當A第一次讀取C時經過缺頁從磁盤複製文件頁到內存中；但當B再讀C的相同頁面時，雖然也會產生缺頁異常，可是再也不須要從磁盤中複製文件過來，而可直接使用已經保存在內存中的文件數據。

四、可用於實現高效的大規模數據傳輸。內存空間不足，是制約大數據操做的一個方面，解決方案每每是藉助硬盤空間協助操做，補充內存的不足。可是進一步會形成大量的文件I/O操做，極大影響效率。這個問題能夠經過mmap映射很好的解決。換句話說，但凡是須要用磁盤空間代替內存的時候，mmap均可以發揮其功效。

mmap相關函數

函數原型

void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);

返回說明

成功執行時，mmap()返回被映射區的指針。失敗時，mmap()返回MAP_FAILED[其值爲(void *)-1]， error被設爲如下的某個值：

 1 EACCES：訪問出錯
 2 EAGAIN：文件已被鎖定，或者太多的內存已被鎖定
 3 EBADF：fd不是有效的文件描述詞
 4 EINVAL：一個或者多個參數無效
 5 ENFILE：已達到系統對打開文件的限制
 6 ENODEV：指定文件所在的文件系統不支持內存映射
 7 ENOMEM：內存不足，或者進程已超出最大內存映射數量
 8 EPERM：權能不足，操做不容許
 9 ETXTBSY：已寫的方式打開文件，同時指定MAP_DENYWRITE標誌
10 SIGSEGV：試着向只讀區寫入
11 SIGBUS：試着訪問不屬於進程的內存區

返回錯誤類型

參數

start：映射區的開始地址

length：映射區的長度

prot：指望的內存保護標誌，不能與文件的打開模式衝突。是如下的某個值，能夠經過or運算合理地組合在一塊兒

1 PROT_EXEC ：頁內容能夠被執行
2 PROT_READ ：頁內容能夠被讀取
3 PROT_WRITE ：頁能夠被寫入
4 PROT_NONE ：頁不可訪問

prot

flags：指定映射對象的類型，映射選項和映射頁是否能夠共享。它的值能夠是一個或者多個如下位的組合體

 1 MAP_FIXED //使用指定的映射起始地址，若是由start和len參數指定的內存區重疊於現存的映射空間，重疊部分將會被丟棄。若是指定的起始地址不可用，操做將會失敗。而且起始地址必須落在頁的邊界上。
 2 MAP_SHARED //與其它全部映射這個對象的進程共享映射空間。對共享區的寫入，至關於輸出到文件。直到msync()或者munmap()被調用，文件實際上不會被更新。
 3 MAP_PRIVATE //創建一個寫入時拷貝的私有映射。內存區域的寫入不會影響到原文件。這個標誌和以上標誌是互斥的，只能使用其中一個。
 4 MAP_DENYWRITE //這個標誌被忽略。
 5 MAP_EXECUTABLE //同上
 6 MAP_NORESERVE //不要爲這個映射保留交換空間。當交換空間被保留，對映射區修改的可能會獲得保證。當交換空間不被保留，同時內存不足，對映射區的修改會引發段違例信號。
 7 MAP_LOCKED //鎖定映射區的頁面，從而防止頁面被交換出內存。
 8 MAP_GROWSDOWN //用於堆棧，告訴內核VM系統，映射區能夠向下擴展。
 9 MAP_ANONYMOUS //匿名映射，映射區不與任何文件關聯。
10 MAP_ANON //MAP_ANONYMOUS的別稱，再也不被使用。
11 MAP_FILE //兼容標誌，被忽略。
12 MAP_32BIT //將映射區放在進程地址空間的低2GB，MAP_FIXED指定時會被忽略。當前這個標誌只在x86-64平臺上獲得支持。
13 MAP_POPULATE //爲文件映射經過預讀的方式準備好頁表。隨後對映射區的訪問不會被頁違例阻塞。
14 MAP_NONBLOCK //僅和MAP_POPULATE一塊兒使用時纔有意義。不執行預讀，只爲已存在於內存中的頁面創建頁表入口。