【原創】Linux虛擬化KVM-Qemu分析(四)之CPU虛擬化(2)

背景

  • Read the fucking source code! --By 魯迅
  • A picture is worth a thousand words. --By 高爾基

說明:linux

  1. KVM版本:5.9.1
  2. QEMU版本:5.0.0
  3. 工具:Source Insight 3.5, Visio
  4. 文章同步在博客園:https://www.cnblogs.com/LoyenWang/

1. 概述

  • 本文圍繞ARMv8 CPU的虛擬化展開;
  • 本文會結合Qemu + KVM的代碼分析,捋清楚上層到底層的脈絡;
  • 本文會提供一個Sample Code,用於類比Qemu和KVM的關係,總而言之,大同小異,大題小作,大道至簡,大功告成,大恩不言謝;

先來兩段前戲。數據結構

1.1 CPU工做原理

AI的世界,程序的執行再也不冰冷,CPU對a.out說,hello啊,world已經ok啦,下來return吧!架構

既然要說CPU的虛擬化,那就先簡要介紹一下CPU的工做原理:app

  • CPU的根本任務是執行指令,咱們常說的取指-譯碼-執行-訪存-寫回,就是典型的指令Pipeline操做;
  • 從CPU的功能出發,能夠簡要分紅三個邏輯模塊:
    1. Control Unit:CPU的指揮中心,協調數據的移動;
    2. ALU:運算單元,執行CPU內部全部的計算;
    3. Register:寄存器和Cache,都算是CPU內部的存儲單元,其中寄存器可用於存儲須要被譯碼和執行的指令、數據、地址等;
  • CPU從內存中讀取指令進行譯碼並執行,執行的過程當中須要去訪問內存中的數據,CPU內部的寄存器能夠暫存中間的指令和數據等信息,一般說的CPU的context指的就是CPU寄存器值;

在硬件支持虛擬化以前,Qemu純軟件虛擬化方案,是經過tcg(tiny code generator)的方式來進行指令翻譯,翻譯成Host處理器架構的指令來執行。硬件虛擬化技術,是讓虛擬機能直接執行在Host CPU上,讓Host CPU直接來執行虛擬機,結合CPU的實際工做原理,應該怎麼來理解呢?來張圖:函數

  • CPU經過pc寄存器獲取下一條執行指令,進行取指譯碼執行等操做,所以給定CPU一個Context,天然就能控制其執行某些代碼;
  • CPU的虛擬化,最終目標讓虛擬機執行在CPU上,無非也是要進行CPU的Context切換,控制CPU去執行對應的代碼,下文會進一步闡述;

既然都講CPU了,那就捎帶介紹下ARMv8的寄存器吧:工具

  1. 通用寄存器:

  • 圖中描述的是EL3如下,AArch32AArch64寄存器對應關係;
  • AArch64中,總共31個通用寄存器,64bit的爲X0-X30,32bit的爲W0-W30;
  1. 特殊用途寄存器:

  • 這些特殊用途的寄存器,主要分爲三種:1)存放異常返回地址的ELR_ELx;2)各個EL的棧指針SP_ELx;3)CPU的狀態相關寄存器;
  1. CPU的狀態PSTATE

  • CPU的狀態在AArch32時是經過CPSR來獲取,在AArch64中,使用PSTATEPSTATE不是一個寄存器,它表示的是保存當前CPU狀態信息的一組寄存器或一些標誌信息的統稱;

好了,ARMv8的介紹該打住了,不然要跑偏了。。。測試

1.2 guest模式

  • Linux系統有兩種執行模式:kernel模式與user模式,爲了支持虛擬化功能的CPU,KVM向Linux內核提供了guest模式,用於執行虛擬機系統非I/O的代碼;
  • user模式,對應的是用戶態執行,Qemu程序就執行在user模式下,並循環監聽是否有I/O須要模擬處理;
  • kernel模式,運行kvm模塊代碼,負責將CPU切換到VM的執行,其中包含了上下文的load/restore;
  • guest模式,本地運行VM的非I/O代碼,在某些異常狀況下會退出該模式,Host OS開始接管;

好了啦,前戲結束,開始直奔主題吧。spa

2. 流程分析

無論你說啥,我上來就是一句中國萬歲,對不起,跑題了。我上來就是一張Qemu初始化流程圖:線程

  • 看過Qemu源代碼的人可能都有種感受,一開始看好像摸不到門框,這圖簡要畫了下關鍵模塊的流程;
  • Qemu的源代碼,後續的文章會詳細介紹,本文只focus在vcpu相關部分;

除了找到了qemu_init_vcpu的入口,這張圖好像跟本文的vcpu的虛擬化關係不是很大,無論了,就算是給後續的Qemu分析打個廣告吧。翻譯

2.1 vcpu的建立

2.1.1 qemu中vcpu建立

  • Qemu初始化流程圖中,找到了qemu_init_vcpu的入口,順着這個qemu_init_vcpu就能找到與底層KVM模塊交互的過程;
  • Qemu中爲每一個vcpu建立了一個線程,操做設備節點來建立和初始化vcpu;

因此,接力棒甩到了KVM內核模塊。

2.1.2 kvm中vcpu建立

來一張前文的圖:

  • 前文中分析過,系統在初始化的時候會註冊字符設備驅動,設置好了各種操做函數集,等待用戶層的ioctl來進行控制;
  • Qemu中設置KVM_CREATE_VCPU,將觸發kvm_vm_ioctl_create_vcpu的執行,完成vcpu的建立工做;

  • 在底層中進行vcpu的建立工做,主要是分配一個kvm_vcpu結構,而且對該結構中的字段進行初始化;
  • 其中有一個用於與應用層進行通訊的數據結構struct kvm_run,分配一頁內存,應用層會調用mmap來進行映射,而且會從該結構中獲取到虛擬機的退出緣由;
  • kvm_arch_vcpu_create主要完成體系架構相關的初始化,包括timer,pmu,vgic等;
  • create_hyp_mappingskvm_vcpu結構體創建映射,以便在Hypervisor模式下能訪問該結構;
  • create_vcpu_fd註冊了kvm_vcpu_fops操做函數集,針對vcpu進行操做,Qemu中設置KVM_ARM_VCPU_INIT,將觸發kvm_arch_vcpu_ioctl_vcpu_init的執行,完成的工做主要是vcpu的核心寄存器,系統寄存器等的reset操做,此外還包含了上層設置下來的值,放置在struct kvm_vcpu_init中;

2.2 vcpu的執行

2.2.1 qemu中vcpu的執行

  • Qemu中爲每個vcpu建立一個用戶線程,完成了vcpu的初始化後,便進入了vcpu的運行,而這是經過kvm_cpu_exec函數來完成的;
  • kvm_cpu_exec函數中,調用kvm_vcpu_ioctl(,KVM_RUN,)來讓底層的物理CPU進行運行,而且監測VM的退出,而這個退出緣由就是存在放在kvm_run->exit_reason中,也就是上文中提到過的應用層與底層交互的機制;

2.2.2 kvm中vcpu的執行

用戶層經過KVM_RUN命令,將觸發KVM模塊中kvm_arch_vcpu_ioctl_run函數的執行:

  • vcpu最終是要放置在物理CPU上執行的,很顯然,咱們須要進行context的切換:保存好Host的Context,並切換到Guest的Context去執行,最終在退出時再恢復回Host的Context;
  • __guest_enter函數完成最終的context切換,進入Guest的執行,當Guest退出時,fixup_guest_exit將會處理exit_code,判斷是否繼續返回Guest執行;
  • 當最終Guest退出到Host時,Host調用handle_exit來處理異常退出,根據kvm_get_exit_handler去查詢異常處理函數表對應的處理函數,最終進行執行處理;

3. Sample Code

  • 上文已經將Qemu+KVM的CPU的虛擬化大概的輪廓已經介紹了,方方面面,問題不大;
  • 來一段Sample Code類比Qemu和KVM的關係,在Ubuntu16.04系統上進行測試;

簡要介紹一下:

  1. tiny_kernel.S,至關於Qemu中運行的Guest OS,完成的功能很簡單,沒錯,就是Hello, world打印;
  2. tiny_qemu.c,至關於Qemu,用於加載Guest到vCPU上運行,最終經過kvm放到物理CPU上運行;

魯迅在1921年的時候,說過這麼一句話:Talk is cheap, show me the code

  • tiny_kernel.S
start:
/* Hello */
mov     $0x48, %al
outb    %al, $0xf1
mov     $0x65, %al
outb    %al, $0xf1
mov     $0x6c, %al
outb    %al, $0xf1
mov     $0x6c, %al
outb    %al, $0xf1
mov     $0x6f, %al
outb    %al, $0xf1
mov     $0x2c, %al
outb    %al, $0xf1

/* world */
mov     $0x77, %al
outb    %al, $0xf1
mov     $0x6f, %al
outb    %al, $0xf1
mov     $0x72, %al
outb    %al, $0xf1
mov     $0x6c, %al
outb    %al, $0xf1
mov     $0x64, %al
outb    %al, $0xf1

mov     $0x0a, %al
outb    %al, $0xf1

hlt
  • tiny_qemu.c
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <assert.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/ioctl.h>
#include <linux/kvm.h>
#include <sys/mman.h>

#define KVM_DEV     "/dev/kvm"
#define TINY_KERNEL_FILE    "./tiny_kernel.bin"
#define PAGE_SIZE  0x1000

int main(void)
{
    int kvm_fd;
    int vm_fd;
    int vcpu_fd;
    int tiny_kernel_fd;
    int ret;
    int mmap_size;
    
    struct kvm_sregs sregs;
    struct kvm_regs regs;
    struct kvm_userspace_memory_region mem;
    struct kvm_run *kvm_run;
    void *userspace_addr;

    /* open kvm device */
    kvm_fd = open(KVM_DEV, O_RDWR);
    assert(kvm_fd > 0);

    /* create VM */
    vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);
    assert(vm_fd >= 0);

    /* create VCPU */
    vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, 0);
    assert(vcpu_fd >= 0);

    /* open tiny_kernel binary file */
    tiny_kernel_fd = open(TINY_KERNEL_FILE, O_RDONLY);
    assert(tiny_kernel_fd > 0);
    /* map 4K into memory */
    userspace_addr = mmap(NULL, PAGE_SIZE, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, -1, 0);
    assert(userspace_addr > 0);
    /* read tiny_kernel binary into the memory */
    ret = read(tiny_kernel_fd, userspace_addr, PAGE_SIZE);
    assert(ret >= 0);

    /* set user memory region */
    mem.slot = 0;
    mem.flags = 0;
    mem.guest_phys_addr = 0;
    mem.memory_size = PAGE_SIZE;
    mem.userspace_addr = (unsigned long)userspace_addr;
    ret = ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &mem);
    assert(ret >= 0);

    /* get kvm_run */
    mmap_size = ioctl(kvm_fd, KVM_GET_VCPU_MMAP_SIZE, NULL);
    assert(mmap_size >= 0);
    kvm_run = (struct kvm_run *)mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpu_fd, 0);
    assert(kvm_run >= 0);

    /* set cpu registers */
    ret = ioctl(vcpu_fd, KVM_GET_SREGS, &sregs);
    assert(ret >= 0);
    sregs.cs.base = 0;
    sregs.cs.selector = 0;
    ret = ioctl(vcpu_fd, KVM_SET_SREGS, &sregs);
    memset(&regs, 0, sizeof(struct kvm_regs));
    regs.rip = 0;
    ret = ioctl(vcpu_fd, KVM_SET_REGS, &regs);
    assert(ret >= 0);

    /* vcpu run */
    while (1) {
        ret = ioctl(vcpu_fd, KVM_RUN, NULL);
        assert(ret >= 0);

        switch(kvm_run->exit_reason) {
            case KVM_EXIT_HLT:
                printf("----KVM EXIT HLT----\n");
                close(kvm_fd);
                close(tiny_kernel_fd);
                return 0;
            case KVM_EXIT_IO:
                putchar(*(((char *)kvm_run) + kvm_run->io.data_offset));
                break;
            default:
                printf("Unknow exit reason: %d\n", kvm_run->exit_reason);
                break;
        }
    }

    return 0;
}

爲了代表我沒有騙人,上一張在Ubuntu16.04的虛擬機上運行的結果圖吧:

草草收工吧。

4. 參考

ARMv8-A Architecture Overview
ARMv8 Techinology Preview
Arm Architecture Reference Manual, Armv8, for Armv8-A architecture profile
 Virtual lockstep for fault tolerance and architectural vulnerability analysis

歡迎關注我的公衆號,不按期分享技術文章:

相關文章
相關標籤/搜索