Read the fucking source code!
--By 魯迅A picture is worth a thousand words.
--By 高爾基說明:linux
https://www.cnblogs.com/LoyenWang/
先來兩段前戲。數據結構
AI的世界,程序的執行再也不冰冷,CPU對a.out
說,hello啊,world已經ok啦,下來return吧!
架構
既然要說CPU的虛擬化,那就先簡要介紹一下CPU的工做原理:app
取指-譯碼-執行-訪存-寫回
,就是典型的指令Pipeline操做;Control Unit
:CPU的指揮中心,協調數據的移動;ALU
:運算單元,執行CPU內部全部的計算;Register
:寄存器和Cache
,都算是CPU內部的存儲單元,其中寄存器可用於存儲須要被譯碼和執行的指令、數據、地址等;context
指的就是CPU寄存器值;在硬件支持虛擬化以前,Qemu純軟件虛擬化方案,是經過tcg(tiny code generator)
的方式來進行指令翻譯,翻譯成Host處理器架構的指令來執行。硬件虛擬化技術,是讓虛擬機能直接執行在Host CPU上,讓Host CPU直接來執行虛擬機,結合CPU的實際工做原理,應該怎麼來理解呢?來張圖:函數
pc
寄存器獲取下一條執行指令,進行取指譯碼執行等操做,所以給定CPU一個Context,天然就能控制其執行某些代碼;既然都講CPU了,那就捎帶介紹下ARMv8的寄存器吧:工具
EL3
如下,AArch32
與AArch64
寄存器對應關係;AArch64
中,總共31個通用寄存器,64bit的爲X0-X30,32bit的爲W0-W30;ELR_ELx
;2)各個EL的棧指針SP_ELx
;3)CPU的狀態相關寄存器;PSTATE
:AArch32
時是經過CPSR
來獲取,在AArch64
中,使用PSTATE
,PSTATE
不是一個寄存器,它表示的是保存當前CPU狀態信息的一組寄存器或一些標誌信息的統稱;好了,ARMv8的介紹該打住了,不然要跑偏了。。。測試
好了啦,前戲結束,開始直奔主題吧。spa
無論你說啥,我上來就是一句中國萬歲,對不起,跑題了。我上來就是一張Qemu初始化流程圖:線程
vcpu
相關部分;除了找到了qemu_init_vcpu
的入口,這張圖好像跟本文的vcpu的虛擬化關係不是很大,無論了,就算是給後續的Qemu分析打個廣告吧。翻譯
qemu_init_vcpu
的入口,順着這個qemu_init_vcpu
就能找到與底層KVM模塊交互的過程;因此,接力棒甩到了KVM內核模塊。
來一張前文的圖:
ioctl
來進行控制;Qemu
中設置KVM_CREATE_VCPU
,將觸發kvm_vm_ioctl_create_vcpu
的執行,完成vcpu的建立工做;kvm_vcpu
結構,而且對該結構中的字段進行初始化;struct kvm_run
,分配一頁內存,應用層會調用mmap來進行映射,而且會從該結構中獲取到虛擬機的退出緣由;kvm_arch_vcpu_create
主要完成體系架構相關的初始化,包括timer,pmu,vgic等;create_hyp_mappings
將kvm_vcpu
結構體創建映射,以便在Hypervisor
模式下能訪問該結構;create_vcpu_fd
註冊了kvm_vcpu_fops
操做函數集,針對vcpu進行操做,Qemu
中設置KVM_ARM_VCPU_INIT
,將觸發kvm_arch_vcpu_ioctl_vcpu_init
的執行,完成的工做主要是vcpu的核心寄存器,系統寄存器等的reset操做,此外還包含了上層設置下來的值,放置在struct kvm_vcpu_init
中;Qemu
中爲每個vcpu建立一個用戶線程,完成了vcpu的初始化後,便進入了vcpu的運行,而這是經過kvm_cpu_exec
函數來完成的;kvm_cpu_exec
函數中,調用kvm_vcpu_ioctl(,KVM_RUN,)
來讓底層的物理CPU進行運行,而且監測VM的退出,而這個退出緣由就是存在放在kvm_run->exit_reason
中,也就是上文中提到過的應用層與底層交互的機制;用戶層經過KVM_RUN
命令,將觸發KVM模塊中kvm_arch_vcpu_ioctl_run
函數的執行:
__guest_enter
函數完成最終的context切換,進入Guest的執行,當Guest退出時,fixup_guest_exit
將會處理exit_code
,判斷是否繼續返回Guest執行;handle_exit
來處理異常退出,根據kvm_get_exit_handler
去查詢異常處理函數表對應的處理函數,最終進行執行處理;簡要介紹一下:
Hello, world
打印;魯迅在1921年的時候,說過這麼一句話:Talk is cheap, show me the code
。
tiny_kernel.S
:start: /* Hello */ mov $0x48, %al outb %al, $0xf1 mov $0x65, %al outb %al, $0xf1 mov $0x6c, %al outb %al, $0xf1 mov $0x6c, %al outb %al, $0xf1 mov $0x6f, %al outb %al, $0xf1 mov $0x2c, %al outb %al, $0xf1 /* world */ mov $0x77, %al outb %al, $0xf1 mov $0x6f, %al outb %al, $0xf1 mov $0x72, %al outb %al, $0xf1 mov $0x6c, %al outb %al, $0xf1 mov $0x64, %al outb %al, $0xf1 mov $0x0a, %al outb %al, $0xf1 hlt
tiny_qemu.c
:#include <stdio.h> #include <string.h> #include <unistd.h> #include <assert.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <sys/ioctl.h> #include <linux/kvm.h> #include <sys/mman.h> #define KVM_DEV "/dev/kvm" #define TINY_KERNEL_FILE "./tiny_kernel.bin" #define PAGE_SIZE 0x1000 int main(void) { int kvm_fd; int vm_fd; int vcpu_fd; int tiny_kernel_fd; int ret; int mmap_size; struct kvm_sregs sregs; struct kvm_regs regs; struct kvm_userspace_memory_region mem; struct kvm_run *kvm_run; void *userspace_addr; /* open kvm device */ kvm_fd = open(KVM_DEV, O_RDWR); assert(kvm_fd > 0); /* create VM */ vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0); assert(vm_fd >= 0); /* create VCPU */ vcpu_fd = ioctl(vm_fd, KVM_CREATE_VCPU, 0); assert(vcpu_fd >= 0); /* open tiny_kernel binary file */ tiny_kernel_fd = open(TINY_KERNEL_FILE, O_RDONLY); assert(tiny_kernel_fd > 0); /* map 4K into memory */ userspace_addr = mmap(NULL, PAGE_SIZE, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, -1, 0); assert(userspace_addr > 0); /* read tiny_kernel binary into the memory */ ret = read(tiny_kernel_fd, userspace_addr, PAGE_SIZE); assert(ret >= 0); /* set user memory region */ mem.slot = 0; mem.flags = 0; mem.guest_phys_addr = 0; mem.memory_size = PAGE_SIZE; mem.userspace_addr = (unsigned long)userspace_addr; ret = ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &mem); assert(ret >= 0); /* get kvm_run */ mmap_size = ioctl(kvm_fd, KVM_GET_VCPU_MMAP_SIZE, NULL); assert(mmap_size >= 0); kvm_run = (struct kvm_run *)mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpu_fd, 0); assert(kvm_run >= 0); /* set cpu registers */ ret = ioctl(vcpu_fd, KVM_GET_SREGS, &sregs); assert(ret >= 0); sregs.cs.base = 0; sregs.cs.selector = 0; ret = ioctl(vcpu_fd, KVM_SET_SREGS, &sregs); memset(®s, 0, sizeof(struct kvm_regs)); regs.rip = 0; ret = ioctl(vcpu_fd, KVM_SET_REGS, ®s); assert(ret >= 0); /* vcpu run */ while (1) { ret = ioctl(vcpu_fd, KVM_RUN, NULL); assert(ret >= 0); switch(kvm_run->exit_reason) { case KVM_EXIT_HLT: printf("----KVM EXIT HLT----\n"); close(kvm_fd); close(tiny_kernel_fd); return 0; case KVM_EXIT_IO: putchar(*(((char *)kvm_run) + kvm_run->io.data_offset)); break; default: printf("Unknow exit reason: %d\n", kvm_run->exit_reason); break; } } return 0; }
爲了代表我沒有騙人,上一張在Ubuntu16.04的虛擬機上運行的結果圖吧:
草草收工吧。
ARMv8-A Architecture Overview
ARMv8 Techinology Preview
Arm Architecture Reference Manual, Armv8, for Armv8-A architecture profile
Virtual lockstep for fault tolerance and architectural vulnerability analysis
歡迎關注我的公衆號,不按期分享技術文章: