mmap是Linux中經常使用的系統調用API,用途普遍,Android中也有很多地方用到,好比匿名共享內存,Binder機制等。本文簡單記錄下Android中mmap調用流程及原理。mmap函數原型以下:node
void *mmap(void *start,size_t length,int prot,int flags,int fd,off_t offsize);
複製代碼
幾個重要參數android
返回值是void *類型,分配成功後,被映射成虛擬內存地址。cookie
mmap屬於系統調用,用戶控件間接經過swi指令觸發軟中斷,進入內核態(各類環境的切換),進入內核態以後,即可以調用內核函數進行處理。 mmap->mmap64->__mmap2->sys_mmap2-> sys_mmap_pgoff ->do_mmap_pgoffapp
/Users/personal/source_code/android/platform/bionic/libc/bionic/mmap.cpp:ionic
/Users/personal/source_code/android/platform/bionic/libc/arch-arm/syscalls/__mmap2.S:函數
而 __NR_mmap在系統函數調用表中對應的減值以下:ui
經過系統調用,執行swi軟中斷,進入內核態,最終映射到call.S中的內核函數:sys_mmap2spa
sys_mmap2最終經過sys_mmap_pgoff在內核態完成後續邏輯。3d
sys_mmap_pgoff經過宏定義實現code
/Users/personal/source_code/android/kernel/common/mm/mmap.c:
進而調用do_mmap_pgoff:
/Users/personal/source_code/android/kernel/common/mm/mmap.c:
unsigned long do_mmap_pgoff(struct file *file, unsigned long addr,
unsigned long len, unsigned long prot,
unsigned long flags, unsigned long pgoff,
unsigned long *populate)
{
struct mm_struct * mm = current->mm;
struct inode *inode;
vm_flags_t vm_flags;
*populate = 0;
...
<!--獲取用戶空間有效虛擬地址-->
addr = get_unmapped_area(file, addr, len, pgoff, flags);
...
inode = file ? file_inode(file) : NULL;
...
<!--分配,映射,更新頁表-->
addr = mmap_region(file, addr, len, vm_flags, pgoff);
if (!IS_ERR_VALUE(addr) &&
((vm_flags & VM_LOCKED) ||
(flags & (MAP_POPULATE | MAP_NONBLOCK)) == MAP_POPULATE))
*populate = len;
return addr;
}
複製代碼
get_unmapped_area用於爲用戶空間找一塊內存區域,
unsigned long
get_unmapped_area(struct file *file, unsigned long addr, unsigned long len,
unsigned long pgoff, unsigned long flags)
{
unsigned long (*get_area)(struct file *, unsigned long,
unsigned long, unsigned long, unsigned long);
...
get_area = current->mm->get_unmapped_area;
if (file && file->f_op && file->f_op->get_unmapped_area)
get_area = file->f_op->get_unmapped_area;
addr = get_area(file, addr, len, pgoff, flags);
...
return error ? error : addr;
}
複製代碼
current->mm->get_unmapped_area通常被賦值爲arch_get_unmapped_area_topdown,
unsigned long
arch_get_unmapped_area_topdown(struct file *filp, const unsigned long addr0,
const unsigned long len, const unsigned long pgoff,
const unsigned long flags)
{
struct vm_area_struct *vma;
struct mm_struct *mm = current->mm;
unsigned long addr = addr0;
int do_align = 0;
int aliasing = cache_is_vipt_aliasing();
struct vm_unmapped_area_info info;
...
addr = vm_unmapped_area(&info);
...
return addr;
}
複製代碼
先找到合適的虛擬內存(用戶空間),幾經週轉後,調用相應文件或者設備驅動中的mmap函數,完成該設備文件的mmap,至於如何處理處理虛擬空間,要看每一個文件的本身的操做了。
這裏有個很關鍵的結構體
const struct file_operations *f_op;
複製代碼
它是文件驅動操做的入口,在open的時候,完成file_operations的綁定,open流程跟mmap相似
先經過get_unused_fd_flags獲取個未使用的fd,再經過do_file_open完成file結構體的建立及初始化,最後經過fd_install完成fd與file的綁定。
重點看下path_openat:
static struct file *path_openat(int dfd, struct filename *pathname,
struct nameidata *nd, const struct open_flags *op, int flags)
{
struct file *base = NULL;
struct file *file;
struct path path;
int opened = 0;
int error;
file = get_empty_filp();
if (IS_ERR(file))
return file;
file->f_flags = op->open_flag;
error = path_init(dfd, pathname->name, flags | LOOKUP_PARENT, nd, &base);
if (unlikely(error))
goto out;
current->total_link_count = 0;
error = link_path_walk(pathname->name, nd);
if (unlikely(error))
goto out;
error = do_last(nd, &path, file, op, &opened, pathname);
while (unlikely(error > 0)) { /* trailing symlink */
struct path link = path;
void *cookie;
if (!(nd->flags & LOOKUP_FOLLOW)) {
path_put_conditional(&path, nd);
path_put(&nd->path);
error = -ELOOP;
break;
}
error = may_follow_link(&link, nd);
if (unlikely(error))
break;
nd->flags |= LOOKUP_PARENT;
nd->flags &= ~(LOOKUP_OPEN|LOOKUP_CREATE|LOOKUP_EXCL);
error = follow_link(&link, nd, &cookie);
if (unlikely(error))
break;
error = do_last(nd, &path, file, op, &opened, pathname);
put_link(nd, &link, cookie);
}
out:
if (nd->root.mnt && !(nd->flags & LOOKUP_ROOT))
path_put(&nd->root);
if (base)
fput(base);
if (!(opened & FILE_OPENED)) {
BUG_ON(!error);
put_filp(file);
}
if (unlikely(error)) {
if (error == -EOPENSTALE) {
if (flags & LOOKUP_RCU)
error = -ECHILD;
else
error = -ESTALE;
}
file = ERR_PTR(error);
}
return file;
}
複製代碼
拿Binder設備文件爲例子,在註冊該設備驅動的時候,對應的file_operations已經註冊好了,
open的時候,只須要根根inode節點,獲取到file_operations既可,而且,在open成功後,要回調file_operations中的open函數
open後,就能夠利用fd找到file,以後利用file中的file_operations *f_op調用相應驅動函數,接着看mmap。
Binder機制中mmap的最大特色是一次拷貝便可完成進程間通訊。Android應用在進程啓動之初會建立一個單例的ProcessState對象,其構造函數執行時會同時完成binder mmap,爲進程分配一塊內存,專門用於Binder通訊,以下。
ProcessState::ProcessState(const char *driver)
: mDriverName(String8(driver))
, mDriverFD(open_driver(driver))
...
{
if (mDriverFD >= 0) {
// mmap the binder, providing a chunk of virtual address space to receive transactions.
mVMStart = mmap(0, BINDER_VM_SIZE, PROT_READ, MAP_PRIVATE | MAP_NORESERVE, mDriverFD, 0);
...
}
}
複製代碼
第一個參數是分配地址,爲0意味着讓系統自動分配,流程跟以前分子相似,先在用戶空間找到一塊合適的虛擬內存,以後,在內核空間也找到一塊合適的虛擬內存,修改兩個控件的頁表,使得二者映射到同一塊物力內存。
Linux的內存分用戶空間跟內核空間,同時頁表有也分兩類,用戶空間頁表跟內核空間頁表,每一個進程有一個用戶空間頁表,可是系統只有一個內核空間頁表。而Binder mmap的關鍵是:也更新用戶空間對應的頁表的同時也同步映射內核頁表,讓兩個頁表都指向同一塊地址,這樣一來,數據只須要從A進程的用戶空間,直接拷貝拷貝到B所對應的內核空間,而B多對應的內核空間在B進程的用戶空間也有相應的映射,這樣就無需從內核拷貝到用戶空間了。
static int binder_mmap(struct file *filp, struct vm_area_struct *vma)
{
int ret;
...
if ((vma->vm_end - vma->vm_start) > SZ_4M)
vma->vm_end = vma->vm_start + SZ_4M;
...
// 在內核空間找合適的虛擬內存塊
area = get_vm_area(vma->vm_end - vma->vm_start, VM_IOREMAP);
proc->buffer = area->addr;
<!--記錄用戶空間虛擬地址跟內核空間虛擬地址的差值-->
proc->user_buffer_offset = vma->vm_start - (uintptr_t)proc->buffer;
...
proc->pages = kzalloc(sizeof(proc->pages[0]) * ((vma->vm_end - vma->vm_start) / PAGE_SIZE), GFP_KERNEL);
..<!--分配page,並更新用戶空間及內核空間對應的頁表-->
ret = binder_update_page_range(proc, 1, proc->buffer, proc->buffer + PAGE_SIZE, vma);
...
return ret;
}
複製代碼
binder_update_page_range完成了內存分配、頁表修改等關鍵操做:
static int binder_update_page_range(struct binder_proc *proc, int allocate,
void *start, void *end,
struct vm_area_struct *vma)
{
...
<!--一頁頁分配-->
for (page_addr = start; page_addr < end; page_addr += PAGE_SIZE) {
int ret;
struct page **page_array_ptr;
<!--分配一頁-->
page = &proc->pages[(page_addr - proc->buffer) / PAGE_SIZE];
*page = alloc_page(GFP_KERNEL | __GFP_HIGHMEM | __GFP_ZERO);
...
<!-- 修改頁表,讓物理空間映射到內核空間-->
ret = map_vm_area(&tmp_area, PAGE_KERNEL, &page_array_ptr);
..
<!--根據以前記錄過差值,計算用戶空間對應的虛擬地址-->
user_page_addr =
(uintptr_t)page_addr + proc->user_buffer_offset;
<!--修改頁表,讓物理空間映射到用戶空間-->
ret = vm_insert_page(vma, user_page_addr, page[0]);
}
...
return -ENOMEM;
}
複製代碼
能夠看到,binder一次拷貝的關鍵是,完成內存的時候,同時完成了內核空間跟用戶空間的映射,也就是說,同一份物理內存,既能夠在用戶空間,用虛擬地址訪問,也能夠在內核空間用虛擬地址訪問。
普通文件的訪問方式有兩種:第一種是經過read/write系統調訪問,先在用戶空間分配一段buffer,而後,進入內核,將內容從磁盤讀取到內核緩衝,最後,拷貝到用戶進程空間,至少牽扯到兩次數據拷貝;同時,多個進程同時訪問一個文件,每一個進程都有一個副本,存在資源浪費的問題。
另外一種是經過mmap來訪問文件,mmap()將文件直接映射到用戶空間,文件在mmap的時候,內存並未真正分配,只有在第一次讀取/寫入的時候纔會觸發,這個時候,會引起缺頁中斷,在處理缺頁中斷的時候,完成內存也分配,同時也完成文件數據的拷貝。而且,修改用戶空間對應的頁表,完成到物理內存到用戶空間的映射,這種方式只存在一次數據拷貝,效率更高。同時多進程間經過mmap共享文件數據的時候,僅須要一塊物理內存就夠了。
共享內存是在普通文件mmap的基礎上實現的,其實就是基於tmpfs文件系統的普通mmap,有機會再分析,再也不囉嗦。
做者:看書的小蝸牛
僅供參考,歡迎指正