咱們知道,linux系統中用戶空間和內核空間是隔離的,用戶空間程序不能隨意的訪問內核空間數據,只能經過中斷或者異常的方式進入內核態,通常狀況下,咱們使用copy_to_user和copy_from_user等內核api來實現用戶空間和內核空間的數據拷貝,可是像顯存這樣的設備若是也採用這樣的方式就顯的效率很是底下,由於用戶常常須要在屏幕上進行繪製,要消除這種複製的操做就須要應用程序直接可以訪問顯存,可是顯存被映射到內核空間,應用程序是沒有訪問權限的,若是顯存也能同時映射到用戶空間那就不須要拷貝操做了,因而字符設備中提供了mmap接口,能夠將內核空間映射的那塊物理內存再次映射到用戶空間,這樣用戶空間就能夠直接訪問不須要任何拷貝操做,這就是咱們今天要說的0拷貝技術。node
下面是正常狀況下用戶空間和內核空間數據訪問圖示:linux
2. 體驗一下首先咱們經過一個例子來感覺一下:ubuntu
驅動代碼:vim
注:驅動代碼中使用misc框架來實現字符設備,misc框架會處理如建立字符設備,建立設備等通用的字符設備處理,咱們只須要關心咱們的實際的邏輯便可(內核中大量使用misc設備框架來使用字符設備操做集如ioctl接口,像實現系統虛擬化kvm模塊,實現安卓進程間通訊的binder模塊等)。api
0copy_demo.c架構
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/mm.h>
#include <linux/miscdevice.h>
#define MISC_DEV_MINOR 5
static char *kbuff;
static ssize_t misc_dev_read(struct file *filep, char __user *buf, size_t count, loff_t *offset)
{
int ret;
size_t len = (count > PAGE_SIZE ? PAGE_SIZE : count);
pr_info("###### %s:%d kbuff:%s ######\n", __func__, __LINE__, kbuff);
ret = copy_to_user(buf, kbuff, len); //這裏使用copy_to_user 來進程內核空間到用戶空間拷貝
return len - ret;
}
static ssize_t misc_dev_write(struct file *filep, const char __user *buf, size_t count, loff_t *offset)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_mmap(struct file *filep, struct vm_area_struct *vma)
{
int ret;
unsigned long start;
start = vma->vm_start;
ret = remap_pfn_range(vma, start, virt_to_phys(kbuff) >> PAGE_SHIFT,
PAGE_SIZE, vma->vm_page_prot); //使用remap_pfn_range來映射物理頁面到進程的虛擬內存中 virt_to_phys(kbuff) >> PAGE_SHIFT做用是將內核的虛擬地址轉化爲實際的物理地址頁幀號 建立頁表的權限爲經過mmap傳遞的 vma->vm_page_prot 映射大小爲1頁
return ret;
}
static long misc_dev_ioctl(struct file *filep, unsigned int cmd, unsigned long args)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_open(struct inode *inodep, struct file *filep)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_release(struct inode *inodep, struct file *filep)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static struct file_operations misc_dev_fops = {
.open = misc_dev_open,
.release = misc_dev_release,
.read = misc_dev_read,
.write = misc_dev_write,
.unlocked_ioctl = misc_dev_ioctl,
.mmap = misc_dev_mmap,
};
static struct miscdevice misc_dev = {
MISC_DEV_MINOR,
"misc_dev",
&misc_dev_fops,
};
static int __init misc_demo_init(void)
{
misc_register(&misc_dev); //註冊misc設備 (讓misc來幫咱們處理建立字符設備的通用代碼,這樣咱們就不須要在去作這些和咱們的實際邏輯無關的代碼處理了)
kbuff = (char *)__get_free_page(GFP_KERNEL); //申請一個物理頁面(返回對應的內核虛擬地址,內核初始化的時候會作線性映射,將整個ddr內存映射到線性映射區,因此咱們不須要作頁表映射)
if (NULL == kbuff)
return -ENOMEM;
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static void __exit misc_demo_exit(void)
{
free_page((unsigned long)kbuff);
misc_deregister(&misc_dev);
pr_info("###### %s:%d ######\n", __func__, __LINE__);
}
module_init(misc_demo_init);
module_exit(misc_demo_exit);
MODULE_LICENSE("GPL");
應用代碼:test.capp
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/mman.h>
int main(int argc, char **argv)
{
int fd;
char *ptr;
char buff[32];
fd = open("/dev/misc_dev", O_RDWR); //打開字符設備
if (fd < 0) {
perror("fail to open");
return -1;
}
ptr = mmap(NULL, 4096, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0); //映射字符設備到進程的地址空間 權限爲可讀可寫 映射爲共享 大小爲一個頁面
if (ptr == MAP_FAILED) {
perror("fail to mmap");
return -1;
}
memcpy(ptr, "hello world!!!", 15); //寫mmap映射的內存 直接操做,不須要進行特權級別的陷入!
if(read(fd, buff, 15) == -1) { //讀接口 來讀取映射的內存,這裏會進行內核空間到用戶空間的數據拷貝 (須要調用系統調用 在內核空間進行拷貝,而後才能訪問)
perror("fail to read");
return -1;
}
puts(buff);
pause();
return 0;
}
Makefile文件:框架
export ARCH=arm64
export CROSS_COMPILE=aarch64-linux-gnu-
KERNEL_DIR ?= ~/kernel/linux-5.11
obj-m := 0copy_demo.o
modules:
$(MAKE) -C $(KERNEL_DIR) M=$(PWD) modules
app:
aarch64-linux-gnu-gcc test.c -o test
cp test $(KERNEL_DIR)/kmodules
clean:
$(MAKE) -C $(KERNEL_DIR) M=$(PWD) clean
install:
cp *.ko $(KERNEL_DIR)/kmodules
編譯驅動代碼和應用代碼,而後拷貝到qemu中運行:ide
編譯驅動模塊代碼:
$ make modules
編譯並拷貝應用:
$ make app
拷貝驅動模塊到qemu:
$ make install
加載驅動代碼:
# insmod 0copy_demo.ko
[23328.532194] ###### misc_demo_init:91 ######
查看生成的設備節點:
# ls -l /dev/misc_dev
crw-rw---- 1 0 0 10, 5 Apr 7 19:26 /dev/misc_dev
後臺運行應用程序:
# ./test&
# [23415.280501] ###### misc_dev_open:56 ######
[23415.281052] ###### misc_dev_read:20 kbuff:hello world!!! ######
hello world!!!
查看test的pid:
# pidof test
1768
查看內存映射:
# cat /proc/1768/maps
aaaabc5a0000-aaaabc5a1000 r-xp 00000000 00:19 8666193 /mnt/test
aaaabc5b0000-aaaabc5b1000 r--p 00000000 00:19 8666193 /mnt/test
aaaabc5b1000-aaaabc5b2000 rw-p 00001000 00:19 8666193 /mnt/test
aaaacf033000-aaaacf054000 rw-p 00000000 00:00 0 [heap]
ffff8a911000-ffff8aa52000 r-xp 00000000 fe:00 152 /lib/libc-2.27.so
ffff8aa52000-ffff8aa61000 ---p 00141000 fe:00 152 /lib/libc-2.27.so
ffff8aa61000-ffff8aa65000 r--p 00140000 fe:00 152 /lib/libc-2.27.so
ffff8aa65000-ffff8aa67000 rw-p 00144000 fe:00 152 /lib/libc-2.27.so
ffff8aa67000-ffff8aa6b000 rw-p 00000000 00:00 0
ffff8aa6b000-ffff8aa88000 r-xp 00000000 fe:00 129 /lib/ld-2.27.so
ffff8aa91000-ffff8aa92000 rw-s 00000000 00:05 152 /dev/misc_dev //映射設備文件到用戶空間
ffff8aa92000-ffff8aa94000 rw-p 00000000 00:00 0
ffff8aa94000-ffff8aa96000 r--p 00000000 00:00 0 [vvar]
ffff8aa96000-ffff8aa97000 r-xp 00000000 00:00 0 [vdso]
ffff8aa97000-ffff8aa98000 r--p 0001c000 fe:00 129 /lib/ld-2.27.so
ffff8aa98000-ffff8aa9a000 rw-p 0001d000 fe:00 129 /lib/ld-2.27.so
ffffecb5a000-ffffecb7b000 rw-p 00000000 00:00 0 [stack]
執行了以上步驟能夠發現最終內核中出現了我在應用程序中寫入的「hello world!!!「 字符串,應用程序也能成功讀取到(固然本文講解的0拷貝實現的驅動接口是mmap,而咱們讀取使用的是read接口,裏面咱們用copy_to_user來實現的,固然咱們能夠直接操做mmap映射的內存不須要任何拷貝操做)。函數
查看應用程序的內存映射發現,/dev/misc_dev設備被映射到了ffff8aa91000-ffff8aa92000這段用戶空間地址範圍,並且權限爲rw-s(可讀可寫共享)。
寫到這裏可能你們仍是有點不明白那我來解釋下:
1.用戶空間不能直接訪問內核空間數據(不能直接讀寫),一旦訪問發生缺頁異常,產生段錯誤,必須經過read這樣的接口來訪問,而read這樣的接口會經過系統調用的方式寫入到內核態,而後經過copy_to_user這樣的內核api來拷貝內核空間數據到用戶空間以後才能正常訪問。
2.經過mmap這種方式以後,用戶進程能夠直接訪問這塊內存,memcpy訪問的也只不過是用戶空間地址,因爲訪問的時候已經分配好了物理頁面和創建好了物理頁到虛擬頁的映射,全部不會發生缺頁異常,也不會發生用戶態到內核態的陷入動做。
3.用戶態進程正常訪問內核態數據須要首先經過系統調用等方式陷入內核,進行數據拷貝,而後再次回到用戶態,用戶態和內核態直接的進出須要進行上下文切換,須要2次上下文切換,須要必定的開銷,而mmap映射好以後之後訪問都不須要進行上下文切換。
4.mmap映射這種方法因爲物理頁面經過頁面共享更加節省內存,而用戶態和內核態內存拷貝須要兩份物理頁面。
3.實現原理咱們發現經過mmap映射以後,咱們在應用程序中能夠直接讀寫這段內存,不須要任何用戶空間和內核空間的拷貝動做,大大提升了內存訪問效率,那麼就是是如何實現的呢?下面咱們來揭開它神祕的面紗:
實現0拷貝功不可沒的是mmap接口中的remap_pfn_range內核api,它將內核空間映射的物理內存從新映射到了用戶空間,下面咱們來看這個函數的實現:remap_pfn_range函數參數以下:
int remap_pfn_range(struct vm_area_struct *vma, unsigned long addr,
¦ unsigned long pfn, unsigned long size, pgprot_t prot)
vma爲須要映射的進程的vma(進程調用mmap的時候內核會找到一個合適的vma), addr爲vma中的一個起始映射地址(這是用戶空間的一個虛擬地址),pfn爲頁幀號(在驅動的mmap接口中會將內核空間的地址轉化爲物理地址的頁幀號),size爲須要映射的大小,prot爲映射的權限(通常取mmap時傳遞的權限如rw)
remap_pfn_range實現主要以下代碼段:
remap_pfn_range
...
pgd = pgd_offset(mm, addr);
flush_cache_range(vma, addr, end);
do {
next = pgd_addr_end(addr, end);
err = remap_p4d_range(mm, pgd, addr, next,
pfn + (addr >> PAGE_SHIFT), prot);
if (err)
break;
} while (pgd++, addr = next, addr != end);
解釋下:remap_pfn_range函數會查找進程的頁表,而後填寫頁表,會將映射的物理頁幀號和訪問權限填寫到進程的對應頁表中,這會遍歷進程的各級頁表找到最終的頁表項而後進行填寫,具體過程自行查看代碼。
咱們須要注意的是:
1.通常狀況下,用戶程序調用mmap只是申請虛擬內存(便是得到一塊沒有使用用戶空間內存,使用vma描述),實際的物理頁表都是經過進程訪問的時候缺頁異常的方式來申請的,可是本場景中是物理頁面已經申請好了,進程訪問時不會再發生缺頁異常,不會申請物理頁面。
2.一樣,物理頁面到用戶空間虛擬頁面的映射也在調用mmap的時候,驅動調用mmap接口的remap_pfn_range映射好了,也不須要在訪問的時候發生缺頁異常來創建映射。因此,只要用戶進程經過mmap映射以後就能夠正常訪問,訪問過程當中不會發生缺頁異常,映射虛擬頁對應的物理頁面已經在驅動中申請好映射好。
下面給出mmap映射原理的圖示:
4.應用場景最後,咱們來看下使用framebuffer的lcd對0拷貝的使用狀況:
fbmem_init //drivers/video/fbdev/core/fbmem.c
->register_chrdev(FB_MAJOR, "fb", &fb_fops) //註冊framebuffer字符設備
-> struct file_operations fb_fops = {
->.mmap = fb_mmap
-> fb_mmap //framebuffer的實現
->vm_iomap_memory
->io_remap_pfn_range
->remap_pfn_range
-> fb_class = class_create(THIS_MODULE, "graphics") //建立設備類
lcd驅動代碼中會設置好最終註冊framebuffer:
xxxfb_probe
->register_framebuffer
->do_register_framebuffer
-> fb_info->dev = device_create(fb_class, fb_info->device,
¦ MKDEV(FB_MAJOR, i), NULL, "fb%d", i); //建立設備 會出現/dev/fdx 設備節點
能夠看到當系統支持framebuffer設備時,在fbmem_init中會建立framebuffer設備類關聯字符設備操做集fb_fops,lcd的驅動代碼中會調用register_framebuffer建立framebuffer設備(就會建立出了/dev/fdx 設備節點),應用程序就能夠經過mmap來映射framebuffer設備到用戶空間,而後進行屏幕繪製操做,不須要任何數據拷貝。
5.總結能夠看的出,經過mmap實現0拷貝很是簡單,只須要在驅動的mmap接口中調用remap_pfn_range來將內核空間映射的那塊物理頁再次映射到用戶空間便可,這就實現了用戶空間和內核空間的數據共享,這和用戶進程之間的共享內存機制很是類似,都須要操做進程的頁表將這段物理內存映射到進程虛擬地址空間。