mmapnode
功能描述: linux
mmap將一個文件或者其它對象映射進內存。文件被映射到多個頁上,若是文件的大小不是全部頁的大小之和,最後一個頁不被使用的空間將會清零。munmap執行相反的操做,刪除特定地址區域的對象映射。 數據結構
基於文件的映射,在mmap和munmap執行過程的任什麼時候刻,被映射文件的st_atime可能被更新。若是st_atime字段在前述的狀況下沒有得 到更新,首次對映射區的第一個頁索引時會更新該字段的值。用PROT_WRITE 和 MAP_SHARED標誌創建起來的文件映射,其st_ctime 和 st_mtimeapp
在對映射區寫入以後,但在msync()經過MS_SYNC 和 MS_ASYNC兩個標誌調用以前會被更新。函數
用法: spa
#include <sys/mman.h>命令行
void *mmap(void *start, size_t length, int prot, int flags,設計
int fd, off_t offset);指針
int munmap(void *start, size_t length); orm
參數:
start:映射區的開始地址。
length:映射區的長度。
prot:指望的內存保護標誌,不能與文件的打開模式衝突。是如下的某個值,能夠經過or運算合理地組合在一塊兒
PROT_EXEC //頁內容能夠被執行
PROT_READ //頁內容能夠被讀取
PROT_WRITE //頁能夠被寫入
PROT_NONE //頁不可訪問
flags:指定映射對象的類型,映射選項和映射頁是否能夠共享。它的值能夠是一個或者多個如下位的組合體
MAP_FIXED //使用指定的映射起始地址,若是由start和len參數指定的內存區重疊於現存的映射空間,重疊部分將會被丟棄。若是指定的起始地址不可用,操做將會失敗。而且起始地址必須落在頁的邊界上。
MAP_SHARED //與其它全部映射這個對象的進程共享映射空間。對共享區的寫入,至關於輸出到文件。直到msync()或者munmap()被調用,文件實際上不會被更新。
MAP_PRIVATE //創建一個寫入時拷貝的私有映射。內存區域的寫入不會影響到原文件。這個標誌和以上標誌是互斥的,只能使用其中一個。
MAP_DENYWRITE //這個標誌被忽略。
MAP_EXECUTABLE //同上
MAP_NORESERVE //不要爲這個映射保留交換空間。當交換空間被保留,對映射區修改的可能會獲得保證。當交換空間不被保留,同時內存不足,對映射區的修改會引發段違例信號。
MAP_LOCKED //鎖定映射區的頁面,從而防止頁面被交換出內存。
MAP_GROWSDOWN //用於堆棧,告訴內核VM系統,映射區能夠向下擴展。
MAP_ANONYMOUS //匿名映射,映射區不與任何文件關聯。
MAP_ANON //MAP_ANONYMOUS的別稱,再也不被使用。
MAP_FILE //兼容標誌,被忽略。
MAP_32BIT //將映射區放在進程地址空間的低2GB,MAP_FIXED指定時會被忽略。當前這個標誌只在x86-64平臺上獲得支持。
MAP_POPULATE //爲文件映射經過預讀的方式準備好頁表。隨後對映射區的訪問不會被頁違例阻塞。
MAP_NONBLOCK //僅和MAP_POPULATE一塊兒使用時纔有意義。不執行預讀,只爲已存在於內存中的頁面創建頁表入口。
fd:有效的文件描述詞。若是MAP_ANONYMOUS被設定,爲了兼容問題,其值應爲-1。
offset:被映射對象內容的起點。
返回說明:
成功執行時,mmap()返回被映射區的指針,munmap()返回0。失敗時,mmap()返回MAP_FAILED[其值爲(void *)-1],munmap返回-1。errno被設爲如下的某個值
EACCES:訪問出錯
EAGAIN:文件已被鎖定,或者太多的內存已被鎖定
EBADF:fd不是有效的文件描述詞
EINVAL:一個或者多個參數無效
ENFILE:已達到系統對打開文件的限制
ENODEV:指定文件所在的文件系統不支持內存映射
ENOMEM:內存不足,或者進程已超出最大內存映射數量
EPERM:權能不足,操做不容許
ETXTBSY:已寫的方式打開文件,同時指定MAP_DENYWRITE標誌
SIGSEGV:試着向只讀區寫入
SIGBUS:試着訪問不屬於進程的內存區
共 享內存能夠說是最有用的進程間通訊方式,也是最快的IPC形式。兩個不一樣進程A、B共享內存的意思是,同一塊物理內存被映射到進程A、B各自的進程地址空 間。進程A能夠即時看到進程B對共享內存中數據的更新,反之亦然。因爲多個進程共享同一塊內存區域,必然須要某種同步機制,互斥鎖和信號量均可以。 採 用共享內存通訊的一個顯而易見的好處是效率高,由於進程能夠直接讀寫內存,而不須要任何數據的拷貝。對於像管道和消息隊列等通訊方式,則須要在內核和用戶 空間進行四次的數據拷貝,而共享內存則只拷貝兩次數據[1]:一次從輸入文件到共享內存區,另外一次從共享內存區到輸出文件。實際上,進程之間在共享內存 時,並不老是讀寫少許數據後就解除映射,有新的通訊時,再從新創建共享內存區域。而是保持共享區域,直到通訊完畢爲止,這樣,數據內容一直保存在共享內存 中,並無寫回文件。共享內存中的內容每每是在解除映射時才寫回文件的。所以,採用共享內存的通訊方式效率是很是高的。 Linux的 2.2.x 內核支持多種共享內存方式,如mmap()系統調用,Posix共享內存,以及系統V共享內存。linux發行版本如Redhat 8.0支持mmap()系統調用及系統V共享內存,但還沒實現Posix共享內存,本文將主要介紹mmap()系統調用及系統V共享內存API的原理及應 用。 1、內核怎樣保證各個進程尋址到同一個共享內存區域的內存頁面 一、 page cache及swap cache中頁面的區分:一個被訪問文件的物理頁面都駐留在page cache或swap cache中,一個頁面的全部信息由struct page來描述。struct page中有一個域爲指針mapping ,它指向一個struct address_space類型結構。page cache或swap cache中的全部頁面就是根據address_space結構以及一個偏移量來區分的。 二、文件與 address_space結構的對應:一個具體的文件在打開後,內核會在內存中爲之創建一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個文件就對應一個address_space結構,一個 address_space與一個偏移量可以肯定一個page cache 或swap cache中的一個頁面。所以,當要尋址某個數據時,很容易根據給定的文件及數據在文件內的偏移量而找到相應的頁面。 三、進程調用mmap()時,只是在進程空間內新增了一塊相應大小的緩衝區,並設置了相應的訪問標識,但並無創建進程空間到物理頁面的映射。所以,第一次訪問該空間時,會引起一個缺頁異常。 四、 對於共享內存映射狀況,缺頁異常處理程序首先在swap cache中尋找目標頁(符合address_space以及偏移量的物理頁),若是找到,則直接返回地址;若是沒有找到,則判斷該頁是否在交換區 (swap area),若是在,則執行一個換入操做;若是上述兩種狀況都不知足,處理程序將分配新的物理頁面,並把它插入到page cache中。進程最終將更新進程頁表。 注:對於映射普通文件狀況(非共享映射),缺頁異常處理程序首先會在page cache中根據address_space以及數據偏移量尋找相應的頁面。若是沒有找到,則說明文件數據尚未讀入內存,處理程序會從磁盤讀入相應的頁 面,並返回相應地址,同時,進程頁表也會更新。 五、全部進程在映射同一個共享內存區域時,狀況都同樣,在創建線性地址與物理地址之間的映射以後,不論進程各自的返回地址如何,實際訪問的必然是同一個共享內存區域對應的物理頁面。 注:一個共享內存區域能夠看做是特殊文件系統shm中的一個文件,shm的安裝點在交換區上。 上面涉及到了一些數據結構,圍繞數據結構理解問題會容易一些。 回頁首 2、mmap()及其相關係統調用 mmap()系統調用使得進程之間經過映射同一個普通文件實現共享內存。普通文件被映射到進程地址空間後,進程能夠向訪問普通內存同樣對文件進行訪問,沒必要再調用read(),write()等操做。 注: 實際上,mmap()系統調用並非徹底爲了用於共享內存而設計的。它自己提供了不一樣於通常對普通文件的訪問方式,進程能夠像讀寫內存同樣對普通文件的操 做。而Posix或系統V的共享內存IPC則純粹用於共享目的,固然mmap()實現共享內存也是其主要應用之一。 一、mmap()系統調用形式以下: void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset ) 參 數fd爲即將映射到進程空間的文件描述字,通常由open()返回,同時,fd能夠指定爲-1,此時須指定flags參數中的MAP_ANON,代表進行 的是匿名映射(不涉及具體的文件名,避免了文件的建立及打開,很顯然只能用於具備親緣關係的進程間通訊)。len是映射到調用進程地址空間的字節數,它從 被映射文件開頭offset個字節開始算起。prot 參數指定共享內存的訪問權限。可取以下幾個值的或:PROT_READ(可讀) , PROT_WRITE (可寫), PROT_EXEC (可執行), PROT_NONE(不可訪問)。flags由如下幾個常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必選其一,而MAP_FIXED則不推薦使用。offset參數通常設爲0,表示從文件頭開始映射。參數addr指定文件應被映射 到進程空間的起始地址,通常被指定一個空指針,此時選擇起始地址的任務留給內核來完成。函數的返回值爲最後文件映射到進程空間的地址,進程可直接操做起始 地址爲該值的有效地址。這裏再也不詳細介紹mmap()的參數,讀者可參考mmap()手冊頁得到進一步的信息。 二、系統調用mmap()用於共享內存的兩種方式: (1)使用普通文件提供的內存映射:適用於任何進程之間;此時,須要打開或建立一個文件,而後再調用mmap();典型調用代碼以下: fd=open(name, flag, mode); if(fd<0) ... ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 經過mmap()實現共享內存的通訊方式有許多特色和要注意的地方,咱們將在範例中進行具體說明。 (2) 使用特殊文件提供匿名內存映射:適用於具備親緣關係的進程之間;因爲父子進程特殊的親緣關係,在父進程中先調用mmap(),而後調用fork()。那麼 在調用fork()以後,子進程繼承父進程匿名映射後的地址空間,一樣也繼承mmap()返回的地址,這樣,父子進程就能夠經過映射區域進行通訊了。注 意,這裏不是通常的繼承關係。通常來講,子進程單獨維護從父進程繼承下來的一些變量。而mmap()返回的地址,卻由父子進程共同維護。 對於具備親緣關係的進程實現共享內存最好的方式應該是採用匿名內存映射的方式。此時,沒必要指定具體的文件,只要設置相應的標誌便可,參見範例2。 三、系統調用munmap() int munmap( void * addr, size_t len ) 該調用在進程地址空間中解除一個映射關係,addr是調用mmap()時返回的地址,len是映射區的大小。當映射關係解除後,對原來映射地址的訪問將致使段錯誤發生。 四、系統調用msync() int msync ( void * addr , size_t len, int flags) 通常說來,進程在映射空間的對共享內容的改變並不直接寫回到磁盤文件中,每每在調用munmap()後才執行該操做。能夠經過調用msync()實現磁盤上文件內容與共享內存區的內容一致。 回頁首 3、mmap()範例 下 面將給出使用mmap()的兩個範例:範例1給出兩個進程經過映射普通文件實現共享內存通訊;範例2給出父子進程經過匿名映射實現共享內存。系統調用 mmap()有許多有趣的地方,下面是經過mmap()映射普通文件實現進程間的通訊的範例,咱們經過該範例來講明mmap()實現共享內存的特色及注意 事項。 範例1:兩個進程經過映射普通文件實現共享內存通訊 範例1包含兩個子程序:map_normalfile1.c及 map_normalfile2.c。編譯兩個程序,可執行文件分別爲 map_normalfile1及map_normalfile2。兩個程序經過命令行參數指定同一個文件來實現共享內存方式的進程間通訊。 map_normalfile2試圖打開命令行參數指定的一個普通文件,把該文件映射到進程的地址空間,並對映射後的地址空間進行寫操做。 map_normalfile1把命令行參數指定的文件映射到進程地址空間,而後對映射後的地址空間執行讀操做。這樣,兩個進程經過命令行參數指定同一個 文件來實現共享內存方式的進程間通訊。 下面是兩個程序代碼: /*-------------map_normalfile1.c-----------*/ #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) // map a normal file as shared mem: { int fd,i; people *p_map; char temp; fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777); lseek(fd,sizeof(people)*5-1,SEEK_SET); write(fd,"",1); p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 ); close( fd ); temp = 'a'; for(i=0; i<10; i++) { temp += 1; memcpy( ( *(p_map+i) ).name, &temp,2 ); ( *(p_map+i) ).age = 20+i; } printf(" initialize over \n "); sleep(10); munmap( p_map, sizeof(people)*10 ); printf( "umap ok \n" ); } /*-------------map_normalfile2.c-----------*/ #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) // map a normal file as shared mem: { int fd,i; people *p_map; fd=open( argv[1],O_CREAT|O_RDWR,00777 ); p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0); for(i = 0;i<10;i++) { printf( "name: %s age %d;\n",(*(p_map+i)).name, (*(p_map+i)).age ); } munmap( p_map,sizeof(people)*10 ); } map_normalfile1.c 首先定義了一個people數據結構,(在這裏採用數據結構的方式是由於,共享內存區的數據每每是有固定格式的,這由通訊的各個進程決定,採用結構的方式 有廣泛表明性)。map_normfile1首先打開或建立一個文件,並把文件的長度設置爲5個people結構大小。而後從mmap()的返回地址開 始,設置了10個people結構。而後,進程睡眠10秒鐘,等待其餘進程映射同一個文件,最後解除映射。 map_normfile2.c只是簡單的映射一個文件,並以people數據結構的格式從mmap()返回的地址處讀取10個people結構,並輸出讀取的值,而後解除映射。 分別把兩個程序編譯成可執行文件map_normalfile1和map_normalfile2後,在一個終端上先運行./map_normalfile2 /tmp/test_shm,程序輸出結果以下: initialize over umap ok 在map_normalfile1輸出initialize over 以後,輸出umap ok以前,在另外一個終端上運行map_normalfile2 /tmp/test_shm,將會產生以下輸出(爲了節省空間,輸出結果爲稍做整理後的結果): name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24; name: g age 25; name: h age 26; name: I age 27; name: j age 28; name: k age 29; 在map_normalfile1 輸出umap ok後,運行map_normalfile2則輸出以下結果: name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24; name: age 0; name: age 0; name: age 0; name: age 0; name: age 0; 從程序的運行結果中能夠得出的結論 一、 最終被映射文件的內容的長度不會超過文件自己的初始大小,即映射不能改變文件的大小; 二、 能夠用於進程通訊的有效地址空間大小大致上受限於被映射文件的大小,但不徹底受限於文件大小。打開文件被截短爲5個people結構大小,而在 map_normalfile1中初始化了10個people數據結構,在恰當時候(map_normalfile1輸出initialize over 以後,輸出umap ok以前)調用map_normalfile2會發現map_normalfile2將輸出所有10個people結構的值,後面將給出詳細討論。 注:在linux中,內存的保護是以頁爲基本單位的,即便被映射文件只有一個字節大小,內核也會爲映射分配一個頁面大小的內存。當被映射文件小 於一個頁面大小時,進程能夠對從mmap()返回地址開始的一個頁面大小進行訪問,而不會出錯;可是,若是對一個頁面之外的地址空間進行訪問,則致使錯誤 發生,後面將進一步描述。所以,可用於進程間通訊的有效地址空間大小不會超過文件大小及一個頁面大小的和。 三、文件一旦被映射後,調用 mmap()的進程對返回地址的訪問是對某一內存區域的訪問,暫時脫離了磁盤上文件的影響。全部對mmap()返回地址空間的操做只在內存中有意義,只有 在調用了munmap()後或者msync()時,才把內存中的相應內容寫回磁盤文件,所寫內容仍然不能超過文件的大小。 範例2:父子進程經過匿名映射實現共享內存 #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) { int i; people *p_map; char temp; p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0); if(fork() == 0) { sleep(2); for(i = 0;i<5;i++) printf("child read: the %d people's age is %d\n",i+1,(*(p_map+i)).age); (*p_map).age = 100; munmap(p_map,sizeof(people)*10); //實際上,進程終止時,會自動解除映射。 exit(); } temp = 'a'; for(i = 0;i<5;i++) { temp += 1; memcpy((*(p_map+i)).name, &temp,2); (*(p_map+i)).age=20+i; } sleep(5); printf( "parent read: the first people,s age is %d\n",(*p_map).age ); printf("umap\n"); munmap( p_map,sizeof(people)*10 ); printf( "umap ok\n" ); } 考察程序的輸出結果,體會父子進程匿名共享內存: child read: the 1 people's age is 20 child read: the 2 people's age is 21 child read: the 3 people's age is 22 child read: the 4 people's age is 23 child read: the 5 people's age is 24 parent read: the first people,s age is 100 umap umap ok 回頁首 4、對mmap()返回地址的訪問 前 面對範例運行結構的討論中已經提到,linux採用的是頁式管理機制。對於用mmap()映射普通文件來講,進程會在本身的地址空間新增一塊空間,空間大 小由mmap()的len參數指定,注意,進程並不必定可以對所有新增空間都能進行有效訪問。進程可以訪問的有效地址大小取決於文件被映射部分的大小。簡 單的說,可以容納文件被映射部分大小的最少頁面個數決定了進程從mmap()返回的地址開始,可以有效訪問的地址空間大小。超過這個空間大小,內核會根據 超過的嚴重程度返回發送不一樣的信號給進程。可用以下圖示說明: 注意:文件被映射部分而不是整個文件決定了進程可以訪問的空間大小,另外,若是指定文件的偏移部分,必定要注意爲頁面大小的整數倍。下面是對進程映射地址空間的訪問範例: #include <sys/mman.h> #include <sys/types.h> #include <fcntl.h> #include <unistd.h> typedef struct{ char name[4]; int age; }people; main(int argc, char** argv) { int fd,i; int pagesize,offset; people *p_map; pagesize = sysconf(_SC_PAGESIZE); printf("pagesize is %d\n",pagesize); fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777); lseek(fd,pagesize*2-100,SEEK_SET); write(fd,"",1); offset = 0; //此處offset = 0編譯成版本1;offset = pagesize編譯成版本2 p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset); close(fd); for(i = 1; i<10; i++) { (*(p_map+pagesize/sizeof(people)*i-2)).age = 100; printf("access page %d over\n",i); (*(p_map+pagesize/sizeof(people)*i-1)).age = 100; printf("access page %d edge over, now begin to access page %d\n",i, i+1); (*(p_map+pagesize/sizeof(people)*i)).age = 100; printf("access page %d over\n",i+1); } munmap(p_map,sizeof(people)*10); } 如 程序中所註釋的那樣,把程序編譯成兩個版本,兩個版本主要體如今文件被映射部分的大小不一樣。文件的大小介於一個頁面與兩個頁面之間(大小 爲:pagesize*2-99),版本1的被映射部分是整個文件,版本2的文件被映射部分是文件大小減去一個頁面後的剩餘部分,不到一個頁面大小(大小 爲:pagesize-99)。程序中試圖訪問每個頁面邊界,兩個版本都試圖在進程空間中映射pagesize*3的字節數。 版本1的輸出結果以下: pagesize is 4096 access page 1 over access page 1 edge over, now begin to access page 2 access page 2 over access page 2 over access page 2 edge over, now begin to access page 3 Bus error //被映射文件在進程空間中覆蓋了兩個頁面,此時,進程試圖訪問第三個頁面 版本2的輸出結果以下: pagesize is 4096 access page 1 over access page 1 edge over, now begin to access page 2 Bus error //被映射文件在進程空間中覆蓋了一個頁面,此時,進程試圖訪問第二個頁面 結論:採用系統調用mmap()實現進程間通訊是很方便的,在應用層上接口很是簡潔。內部實現機制區涉及到了linux存儲管理以及文件系統等方面的內容,能夠參考一下相關重要數據結構來加深理解。在本專題的後面部分,將介紹系統v共享內存的實現