徹底剖析 - Linux虛擬內存空間管理

今天，咱們來介紹一下 Linux 對虛擬內存空間管理的細節。node

以前咱們說過，在 32 位的操做系統中，每一個進程都擁有 4GB 的虛擬內存空間。Linux 根據功能上的差別，把整個虛擬內存空間劃分爲多個不一樣區間，稱爲段。linux

咱們先來看看 Linux 進程虛擬內存空間的佈局圖，如圖 1 所示：
架構

上圖展現了 Linux 進程的虛擬內存空間佈局狀況，咱們只關注用戶空間的佈局。ide

從上圖能夠看出，進程的用戶空間大小爲 3GB。Linux 按照功能上的差別，把一個進程的用戶空間劃分爲多個段，下面介紹一下各個段的做用：函數

代碼段：用於存放程序中可執行代碼的段。
數據段：用於存放已經初始化的全局變量或靜態變量的段。如在 C 語言中，使用語句 int global = 10; 定義的全局變量。
未初始化數據段：用於存放未初始化的全局變量或靜態變量的段。如在 C 語言中，使用語句 int global; 定義的全局變量。
堆：用於存放使用 malloc 函數申請的內存。
mmap區：用於存放使用 mmap 函數映射的內存區。
棧：用於存放函數局部變量和函數參數。

虛擬內存區
從上面的介紹可知，Linux 按照功能上的差別，把虛擬內存空間劃分爲多個段。那麼在內核中，是經過什麼結構來管理這些段的呢？佈局

答案就是：vm_area_struct。this

內核經過 vm_area_struct 結構（虛擬內存區）來管理各個段，其定義以下：spa

1struct vm_area_struct {
 2    struct mm_struct *vm_mm; /* The address space we belong to. */
 3    unsigned long vm_start;  /* Our start address within vm_mm. */
 4    unsigned long vm_end;    /* The first byte after our end address within vm_mm. */
 5
 6    /* linked list of VM areas per task, sorted by address */
 7    struct vm_area_struct *vm_next;
 8
 9    pgprot_t vm_page_prot;   /* Access permissions of this VMA. */
10    unsigned long vm_flags;  /* Flags, see mm.h. */
11    struct rb_node vm_rb;
12    ...
13    /* Function pointers to deal with this struct. */
14    const struct vm_operations_struct *vm_ops;
15    ...
16};

下面介紹一下各個字段的做用：操作系統

vm_mm：指向進程的內存管理對象，每一個進程都有一個類型爲 mm_struct 的內存管理對象，用於管理進程的虛擬內存空間和內存映射等。
vm_start：虛擬內存區的起始虛擬內存地址。
vm_end：虛擬內存區的結束虛擬內存地址。
vm_next：Linux 會經過鏈表把進程的全部虛擬內存區鏈接起來，這個字段用於指向下一個虛擬內存區。
vm_page_prot：主要用於保存當前虛擬內存區所映射的物理內存頁的讀寫權限。
vm_flags：標識當前虛擬內存區的功能特性。
vm_rb：某些場景中須要經過虛擬內存地址查找對應的虛擬內存區，爲了加速查找過程，內核以虛擬內存地址做爲key，把進程全部的虛擬內存區保存到一棵紅黑樹中，而這個字段就是紅黑樹的節點結構。
vm_ops：每一個虛擬內存區均可以自定義一套操做接口，經過操做接口，可以讓虛擬內存區實現一些特定的功能，好比：把虛擬內存區映射到文件。而 vm_ops 字段就是虛擬內存區的操做接口集，通常在建立虛擬內存區時指定。

咱們經過圖 2 來展現內核是怎麼經過 vm_area_struct 結構來管理進程中的全部段：
code

從上圖能夠看出，內核經過一個鏈表和一棵紅黑樹來管理進程中全部的段。mm_struct 結構的 mmap 字段就是鏈表的頭節點，而 mm_rb 字段就是紅黑樹的根節點。

加載程序鏡像
前面咱們介紹了 Linux 會把虛擬內存地址劃分爲多個段，而且使用 vm_area_struct 結構來管理這些段。那麼，這些虛擬內存區是怎麼創建起來的呢？

在介紹進程虛擬內存區創建的過程前，咱們先來簡單介紹一下 ELF文件格式。

1. ELF文件
ELF 全稱 Executable and Linkable Format，便可執行可連接文件格式。在 Linux 系統中，就是使用這種文件格式來存儲一個可執行的應用程序。讓咱們來看一下 ELF 文件格式由哪些結構組成：

通常一個 ELF 文件由如下三部分組成：

ELF 頭（ELF header）：描述應用程序的類型、CPU架構、入口地址、程序頭表偏移和節頭表偏移等等；
程序頭表（Program header table）：列舉了全部有效的段（segments）和他們的屬性，程序頭表須要加載器將文件中的段加載到虛擬內存段中；
節頭表（Section header table）：包含對節（sections）的描述。

ELF 文件的結構大概如圖3所示：

當內核加載一個應用程序時，就是經過讀取 ELF 文件的信息，而後把文件中全部的段加載到虛擬內存的段中。ELF 文件經過程序頭表來描述應用程序中全部的段，表中的每個項都描述一個段的信息。咱們先來看看程序頭表項的結構定義：

1typedef struct elf64_phdr {
 2   Elf64_Word p_type;     // 段的類型
 3   Elf64_Word p_flags;    // 可讀寫標誌
 4   Elf64_Off p_offset;    // 段在ELF文件中的偏移量
 5   Elf64_Addr p_vaddr;    // 段的虛擬內存地址
 6   Elf64_Addr p_paddr;    // 段的物理內存地址
 7   Elf64_Xword p_filesz;  // 段佔用文件的大小
 8   Elf64_Xword p_memsz;   // 段佔用內存的大小
 9   Elf64_Xword p_align;   // 內存對齊
10} Elf64_Phdr;

因此，程序加載器能夠經過 ELF 頭中獲取到程序頭表的偏移量，而後經過程序頭表的偏移量讀取到程序頭表的數據，再經過程序頭表來獲取到全部段的信息。

咱們能夠經過 readelf -S file 命令來查看 ELF 文件的段（節）信息，以下圖所示：

上面列出了代碼段、數據段、未初始化數據段和註釋段的信息。

2. 加載過程
要加載一個程序，須要調用 execve 系統調用來完成。咱們來看看 execve 系統調用的調用棧：

1sys_execve
2└→ do_execve
3  └→ do_execveat_common
4     └→ __do_execve_file
5        └→ exec_binprm
6           └→ search_binary_handler
7              └→ load_elf_binary

從上面的調用者能夠看出，execve 系統調用最終會調用 load_elf_binary 函數來加載程序的 ELF 文件。

因爲 load_elf_binary 函數的實現比較複雜，因此咱們分段來解說：

（1）讀取並檢查ELF頭

1static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs) 2{
 3   ...
 4   struct {
 5       struct elfhdr elf_ex;
 6       struct elfhdr interp_elf_ex;
 7   } *loc;
 8
 9   loc = kmalloc(sizeof(*loc), GFP_KERNEL);
10   if (!loc) {
11       retval = -ENOMEM;
12       goto out_ret;
13   }
14
15   // 1. 獲取ELF頭
16   loc->elf_ex = *((struct elfhdr *)bprm->buf);
17
18   retval = -ENOEXEC;
19   // 2. 檢查ELF簽名是否正確
20   if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
21       goto out;
22
23   // 3. 是不是可執行文件或者動態庫
24   if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN)
25       goto out;
26
27   // 4. 檢查系統架構是否正確
28   if (!elf_check_arch(&loc->elf_ex))
29       goto out;
30   ...

上面這段代碼主要是讀取應用程序的 ELF 頭，而後檢查 ELF 頭信息是否合法。

（2）讀取程序頭表

1   size = loc->elf_ex.e_phnum * sizeof(struct elf_phdr); // 程序頭表的大小
 2   retval = -ENOMEM;
 3
 4   elf_phdata = kmalloc(size, GFP_KERNEL); // 申請一塊內存來保存程序頭表
 5   if (!elf_phdata)
 6       goto out;
 7
 8// 從ELF文件中讀取程序頭表的數據, 而且保存到 elf_phdata 變量中
 9   retval = kernel_read(bprm->file, loc->elf_ex.e_phoff, (char *)elf_phdata, size);
10   if (retval != size) {
11       if (retval >= 0)
12           retval = -EIO;
13       goto out_free_ph;
14  }
15  ...

上面的代碼主要完成如下幾個工做：

從 ELF 頭的信息中獲取到程序頭表的大小。
調用 kmalloc 函數申請一塊內存來保存程序頭表。
調用 kernel_read 函數從 ELF 文件中讀取程序頭表的數據，保存到 elf_phdata 變量中，程序頭表的偏移量能夠經過 ELF 頭的 e_phoff 字段獲取。

（3）加載段到虛擬內存

1   // 遍歷程序頭表全部的段
 2   for (i = 0, elf_ppnt = elf_phdata; i < loc->elf_ex.e_phnum; i++, elf_ppnt++) {
 3       int elf_prot = 0, elf_flags;
 4       unsigned long k, vaddr;
 5
 6       if (elf_ppnt->p_type != PT_LOAD)  // 判斷段是否須要加載
 7           continue;
 8      ...
 9       // 段的可讀寫權限
10       if (elf_ppnt->p_flags & PF_R)
11           elf_prot |= PROT_READ;
12       if (elf_ppnt->p_flags & PF_W)
13           elf_prot |= PROT_WRITE;
14       if (elf_ppnt->p_flags & PF_X)
15           elf_prot |= PROT_EXEC;
16
17       elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE;
18
19       vaddr = elf_ppnt->p_vaddr;  // 獲取段的虛擬內存地址
20      ...
21       // 把段加載到虛擬內存
22       error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt, elf_prot, elf_flags, 0);
23      ...
24  }

上面這段代碼主要完成的工做是：

遍歷程序頭表全部的段。
判斷段是否須要加載。
獲取段的可讀寫權限和段的虛擬內存地址。
調用 elf_map 函數把段加載到虛擬內存。

因此，把段加載到虛擬內存主要經過 elf_map 函數完成。咱們來看看 elf_map 函數的調用棧：

1elf_map
2└→ do_mmap
3   └→ do_mmap_pgoff
4      └→ mmap_region

從上面的調用者能夠看出，elf_map 函數最終會調用 mmap_region 來完成加載段到虛擬內存。咱們分析一下 mmap_region 函數的實現：

 1unsigned long
 2mmap_region(struct file *file, unsigned long addr, unsigned long len,
 3           unsigned long flags, unsigned int vm_flags, unsigned long pgoff)
 4{
 5   struct mm_struct *mm = current->mm;
 6   struct vm_area_struct *vma, *prev;
 7  ...
 8   // 申請一個 vm_area_struct 結構
 9   vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
10   if (!vma) {
11       error = -ENOMEM;
12       goto unacct_error;
13  }
14
15   // 設置 vm_area_struct 結構各個字段的值
16   vma->vm_mm = mm;
17   vma->vm_start = addr;        // 段的開始虛擬內存地址
18   vma->vm_end = addr + len;    // 段的結束虛擬內存地址
19   vma->vm_flags = vm_flags;    // 段的功能特性
20   vma->vm_page_prot = vm_get_page_prot(vm_flags);
21   vma->vm_pgoff = pgoff;
22
23  ...
24   // 把 vm_area_struct 結構鏈接到虛擬內存區鏈表和紅黑樹中
25   vma_link(mm, vma, prev, rb_link, rb_parent);
26  ...
27
28   return addr;
29}

上面代碼對 mmap_region 函數進行了精簡，精簡後的工做主要有：

調用 kmem_cache_zalloc 函數申請一個 vm_area_struct（虛擬內存區）結構。
設置 vm_area_struct 結構各個字段的值。
調用 vma_link 函數把 vm_area_struct 結構鏈接到虛擬內存區鏈表和紅黑樹中。

經過上面的過程，內核就把應用程序的全部段加載到虛擬內存中。

總結
本文主要介紹了 Linux 內核是怎麼加載應用程序，而且在虛擬內存中創建各個段的佈局。本文主要關注的是虛擬內存佈局的創建過程，但加載應用程序的不少細節都忽略了（如怎麼設置進程入口），有興趣能夠自行查閱相關的資料和書籍。