今天,咱們來介紹一下 Linux 對虛擬內存空間管理的細節。node
以前咱們說過,在 32 位的操做系統中,每一個進程都擁有 4GB 的虛擬內存空間。Linux 根據功能上的差別,把整個虛擬內存空間劃分爲多個不一樣區間,稱爲 段。linux
咱們先來看看 Linux 進程虛擬內存空間的佈局圖,如圖 1 所示:
架構
上圖展現了 Linux 進程的虛擬內存空間佈局狀況,咱們只關注 用戶空間 的佈局。ide
從上圖能夠看出,進程的用戶空間大小爲 3GB。Linux 按照功能上的差別,把一個進程的用戶空間劃分爲多個段,下面介紹一下各個段的做用:函數
- 代碼段:用於存放程序中可執行代碼的段。
- 數據段:用於存放已經初始化的全局變量或靜態變量的段。如在 C 語言中,使用語句 int global = 10; 定義的全局變量。
- 未初始化數據段:用於存放未初始化的全局變量或靜態變量的段。如在 C 語言中,使用語句 int global; 定義的全局變量。
- 堆:用於存放使用 malloc 函數申請的內存。
- mmap區:用於存放使用 mmap 函數映射的內存區。
- 棧:用於存放函數局部變量和函數參數。
虛擬內存區
從上面的介紹可知,Linux 按照功能上的差別,把虛擬內存空間劃分爲多個 段。那麼在內核中,是經過什麼結構來管理這些段的呢?佈局
答案就是:vm_area_struct。this
內核經過 vm_area_struct 結構(虛擬內存區)來管理各個 段,其定義以下:spa
1struct vm_area_struct { 2 struct mm_struct *vm_mm; /* The address space we belong to. */ 3 unsigned long vm_start; /* Our start address within vm_mm. */ 4 unsigned long vm_end; /* The first byte after our end address within vm_mm. */ 5 6 /* linked list of VM areas per task, sorted by address */ 7 struct vm_area_struct *vm_next; 8 9 pgprot_t vm_page_prot; /* Access permissions of this VMA. */ 10 unsigned long vm_flags; /* Flags, see mm.h. */ 11 struct rb_node vm_rb; 12 ... 13 /* Function pointers to deal with this struct. */ 14 const struct vm_operations_struct *vm_ops; 15 ... 16};
下面介紹一下各個字段的做用:操作系統
- vm_mm:指向進程的內存管理對象,每一個進程都有一個類型爲 mm_struct 的內存管理對象,用於管理進程的虛擬內存空間和內存映射等。
- vm_start:虛擬內存區的起始虛擬內存地址。
- vm_end:虛擬內存區的結束虛擬內存地址。
- vm_next:Linux 會經過鏈表把進程的全部虛擬內存區鏈接起來,這個字段用於指向下一個虛擬內存區。
- vm_page_prot:主要用於保存當前虛擬內存區所映射的物理內存頁的讀寫權限。
- vm_flags:標識當前虛擬內存區的功能特性。
- vm_rb:某些場景中須要經過虛擬內存地址查找對應的虛擬內存區,爲了加速查找過程,內核以虛擬內存地址做爲key,把進程全部的虛擬內存區保存到一棵紅黑樹中,而這個字段就是紅黑樹的節點結構。
- vm_ops:每一個虛擬內存區均可以自定義一套操做接口,經過操做接口,可以讓虛擬內存區實現一些特定的功能,好比:把虛擬內存區映射到文件。而 vm_ops 字段就是虛擬內存區的操做接口集,通常在建立虛擬內存區時指定。
咱們經過圖 2 來展現內核是怎麼經過 vm_area_struct 結構來管理進程中的全部 段:
code
從上圖能夠看出,內核經過一個鏈表和一棵紅黑樹來管理進程中全部的 段。mm_struct 結構的 mmap 字段就是鏈表的頭節點,而 mm_rb 字段就是紅黑樹的根節點。
加載程序鏡像
前面咱們介紹了 Linux 會把虛擬內存地址劃分爲多個 段,而且使用 vm_area_struct 結構來管理這些段。那麼,這些虛擬內存區是怎麼創建起來的呢?
在介紹進程虛擬內存區創建的過程前,咱們先來簡單介紹一下 ELF文件格式。
1. ELF文件
ELF 全稱 Executable and Linkable Format,便可執行可連接文件格式。在 Linux 系統中,就是使用這種文件格式來存儲一個可執行的應用程序。讓咱們來看一下 ELF 文件格式由哪些結構組成:
通常一個 ELF 文件由如下三部分組成:
- ELF 頭(ELF header):描述應用程序的類型、CPU架構、入口地址、程序頭表偏移和節頭表偏移等等;
- 程序頭表(Program header table):列舉了全部有效的段(segments)和他們的屬性,程序頭表須要加載器將文件中的段加載到虛擬內存段中;
- 節頭表(Section header table):包含對節(sections)的描述。
ELF 文件的結構大概如圖3所示:
當內核加載一個應用程序時,就是經過讀取 ELF 文件的信息,而後把文件中全部的段加載到虛擬內存的段中。ELF 文件經過 程序頭表 來描述應用程序中全部的段,表中的每個項都描述一個段的信息。咱們先來看看 程序頭表 項的結構定義:
1typedef struct elf64_phdr { 2 Elf64_Word p_type; // 段的類型 3 Elf64_Word p_flags; // 可讀寫標誌 4 Elf64_Off p_offset; // 段在ELF文件中的偏移量 5 Elf64_Addr p_vaddr; // 段的虛擬內存地址 6 Elf64_Addr p_paddr; // 段的物理內存地址 7 Elf64_Xword p_filesz; // 段佔用文件的大小 8 Elf64_Xword p_memsz; // 段佔用內存的大小 9 Elf64_Xword p_align; // 內存對齊 10} Elf64_Phdr;
因此,程序加載器能夠經過 ELF 頭中獲取到程序頭表的偏移量,而後經過程序頭表的偏移量讀取到程序頭表的數據,再經過程序頭表來獲取到全部段的信息。
咱們能夠經過 readelf -S file 命令來查看 ELF 文件的段(節)信息,以下圖所示:
上面列出了 代碼段、數據段、未初始化數據段 和 註釋段 的信息。
2. 加載過程
要加載一個程序,須要調用 execve 系統調用來完成。咱們來看看 execve 系統調用的調用棧:
1sys_execve 2└→ do_execve 3 └→ do_execveat_common 4 └→ __do_execve_file 5 └→ exec_binprm 6 └→ search_binary_handler 7 └→ load_elf_binary
從上面的調用者能夠看出,execve 系統調用最終會調用 load_elf_binary 函數來加載程序的 ELF 文件。
因爲 load_elf_binary 函數的實現比較複雜,因此咱們分段來解說:
(1)讀取並檢查ELF頭
1static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs) 2{ 3 ... 4 struct { 5 struct elfhdr elf_ex; 6 struct elfhdr interp_elf_ex; 7 } *loc; 8 9 loc = kmalloc(sizeof(*loc), GFP_KERNEL); 10 if (!loc) { 11 retval = -ENOMEM; 12 goto out_ret; 13 } 14 15 // 1. 獲取ELF頭 16 loc->elf_ex = *((struct elfhdr *)bprm->buf); 17 18 retval = -ENOEXEC; 19 // 2. 檢查ELF簽名是否正確 20 if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0) 21 goto out; 22 23 // 3. 是不是可執行文件或者動態庫 24 if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN) 25 goto out; 26 27 // 4. 檢查系統架構是否正確 28 if (!elf_check_arch(&loc->elf_ex)) 29 goto out; 30 ...
上面這段代碼主要是讀取應用程序的 ELF 頭,而後檢查 ELF 頭信息是否合法。
(2)讀取程序頭表
1 size = loc->elf_ex.e_phnum * sizeof(struct elf_phdr); // 程序頭表的大小 2 retval = -ENOMEM; 3 4 elf_phdata = kmalloc(size, GFP_KERNEL); // 申請一塊內存來保存程序頭表 5 if (!elf_phdata) 6 goto out; 7 8// 從ELF文件中讀取程序頭表的數據, 而且保存到 elf_phdata 變量中 9 retval = kernel_read(bprm->file, loc->elf_ex.e_phoff, (char *)elf_phdata, size); 10 if (retval != size) { 11 if (retval >= 0) 12 retval = -EIO; 13 goto out_free_ph; 14 } 15 ...
上面的代碼主要完成如下幾個工做:
從 ELF 頭的信息中獲取到程序頭表的大小。 調用 kmalloc 函數申請一塊內存來保存程序頭表。 調用 kernel_read 函數從 ELF 文件中讀取程序頭表的數據,保存到 elf_phdata 變量中,程序頭表的偏移量能夠經過 ELF 頭的 e_phoff 字段獲取。
(3)加載段到虛擬內存
1 // 遍歷程序頭表全部的段 2 for (i = 0, elf_ppnt = elf_phdata; i < loc->elf_ex.e_phnum; i++, elf_ppnt++) { 3 int elf_prot = 0, elf_flags; 4 unsigned long k, vaddr; 5 6 if (elf_ppnt->p_type != PT_LOAD) // 判斷段是否須要加載 7 continue; 8 ... 9 // 段的可讀寫權限 10 if (elf_ppnt->p_flags & PF_R) 11 elf_prot |= PROT_READ; 12 if (elf_ppnt->p_flags & PF_W) 13 elf_prot |= PROT_WRITE; 14 if (elf_ppnt->p_flags & PF_X) 15 elf_prot |= PROT_EXEC; 16 17 elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE; 18 19 vaddr = elf_ppnt->p_vaddr; // 獲取段的虛擬內存地址 20 ... 21 // 把段加載到虛擬內存 22 error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt, elf_prot, elf_flags, 0); 23 ... 24 }
上面這段代碼主要完成的工做是:
- 遍歷程序頭表全部的段。
- 判斷段是否須要加載。
- 獲取段的可讀寫權限和段的虛擬內存地址。
- 調用 elf_map 函數把段加載到虛擬內存。
因此,把段加載到虛擬內存主要經過 elf_map 函數完成。咱們來看看 elf_map 函數的調用棧:
1elf_map 2└→ do_mmap 3 └→ do_mmap_pgoff 4 └→ mmap_region 從上面的調用者能夠看出,elf_map 函數最終會調用 mmap_region 來完成加載段到虛擬內存。咱們分析一下 mmap_region 函數的實現: 1unsigned long 2mmap_region(struct file *file, unsigned long addr, unsigned long len, 3 unsigned long flags, unsigned int vm_flags, unsigned long pgoff) 4{ 5 struct mm_struct *mm = current->mm; 6 struct vm_area_struct *vma, *prev; 7 ... 8 // 申請一個 vm_area_struct 結構 9 vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL); 10 if (!vma) { 11 error = -ENOMEM; 12 goto unacct_error; 13 } 14 15 // 設置 vm_area_struct 結構各個字段的值 16 vma->vm_mm = mm; 17 vma->vm_start = addr; // 段的開始虛擬內存地址 18 vma->vm_end = addr + len; // 段的結束虛擬內存地址 19 vma->vm_flags = vm_flags; // 段的功能特性 20 vma->vm_page_prot = vm_get_page_prot(vm_flags); 21 vma->vm_pgoff = pgoff; 22 23 ... 24 // 把 vm_area_struct 結構鏈接到虛擬內存區鏈表和紅黑樹中 25 vma_link(mm, vma, prev, rb_link, rb_parent); 26 ... 27 28 return addr; 29}
上面代碼對 mmap_region 函數進行了精簡,精簡後的工做主要有:
- 調用 kmem_cache_zalloc 函數申請一個 vm_area_struct(虛擬內存區)結構。
- 設置 vm_area_struct 結構各個字段的值。
- 調用 vma_link 函數把 vm_area_struct 結構鏈接到虛擬內存區鏈表和紅黑樹中。
經過上面的過程,內核就把應用程序的全部段加載到虛擬內存中。
總結
本文主要介紹了 Linux 內核是怎麼加載應用程序,而且在虛擬內存中創建各個段的佈局。本文主要關注的是虛擬內存佈局的創建過程,但加載應用程序的不少細節都忽略了(如怎麼設置進程入口),有興趣能夠自行查閱相關的資料和書籍。