ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机

英文原文:https://lwn.net/Articles/658511/。本文在翻译的基础上加了一些自己的理解。

qemu、virtual box、vmware、xen都是虚拟机,一般用户接触到的virtual box和vmware比较多,都是用来ubuntu中跑windows,或者windows中跑ubuntu的。

qemu其实是鼎鼎大名的最基础的开源模拟器,可以纯软件模拟x86、arm、mips,这一点完虐其它模拟器;也可以使用硬件加速,比如linux下kvm和windows以及mac下的haxm。这些硬件加速又是基于initel VT-x, intel VT-d,以及amd对应的技术,这些技术提供了vCPU,以及硬件的影子页表(intel EPT),大大减轻了qemu软件模拟的工作量。

virtual box,qemu-kvm都使用到了qemu,但是仅仅用到了它的设备模拟功能。qemu对于gpu的模拟比较渣,所以基于qemu的android emulator自己实现了opengles 的qemu pipe,使用host电脑上的opengl进行绘图。

xen在云计算中用的比较多,在这里不做详细介绍。其它模拟器基本都是运行在普通操作系统之上的一个进程,每一个核是其中的一个线程。

本文介绍kvm的使用,在intel平台下ubuntu12.04中实现一个最简单的模拟器,计算2+2的结果并通过io端口输出。

内核中kvm api的介绍可以看:Documentation/virtual/kvm/api.txt,其它的一些文档:Documentation/virtual/kvm/。完整的源码:https://lwn.net/Articles/658512/

使用kvm的真正的虚拟机,模拟了很多虚拟的设备和固件,还有复杂的初始化状态(各个设备的初始化,CPU寄存器的初始化等),以及内存的初始化。本文所述的模拟器demo,将使用如下16bit的x86的代码(为什么是16bit呢,因为x86一上电是实模式,工作于16bit;之后再切换到32bit的保护模式的):

    mov $0x3f8, %dx
    add %bl, %al
    add $'0', %al
    out %al, (%dx)
    mov $'\n', %al
    out %al, (%dx)
    hlt

这段代码充当了guest os,基本上算是一个裸奔的系统了。它实现了2+2,然后再加上‘0‘,把4转为ascii的‘4‘,并通过端口0x3f8输出。然后再输出了‘\n‘,就关机了。

我们把这段代码对应的二进制存到数组里面:

    const uint8_t code[] = {
	0xba, 0xf8, 0x03, /* mov $0x3f8, %dx */
	0x00, 0xd8,       /* add %bl, %al */
	0x04, '0',        /* add $'0', %al */
	0xee,             /* out %al, (%dx) */
	0xb0, '\n',       /* mov $'\n', %al */
	0xee,             /* out %al, (%dx) */
	0xf4,             /* hlt */
    };

怎么得到这些机器码呢?

[email protected]:~$ cat simple_os.asm
    mov $0x3f8, %dx
    add %bl, %al
    add $'0', %al
    out %al, (%dx)
    mov $'\n', %al
    out %al, (%dx)
    hlt
[email protected]:~$ as -o simple_os.o simple_os.asm
[email protected]:~$ objdump -d  simple_os.o

simple_os.o:     file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <.text>:
   0:	66 ba f8 03          	mov    $0x3f8,%dx
   4:	00 d8                	add    %bl,%al
   6:	04 30                	add    $0x30,%al
   8:	ee                   	out    %al,(%dx)
   9:	b0 0a                	mov    $0xa,%al
   b:	ee                   	out    %al,(%dx)
   c:	f4                   	hlt

可以在这个网页上查看汇编指令,以及对应的机器码:http://x86.renejeschke.de/

注意开头多了一个0x66,解释如下:

http://wiki.osdev.org/X86-64_Instruction_Encoding里面的Prefix group 3

所以我们需要在simple_os.asm文件的开头添加.code16,这样的话就对了,但是objdump显示的又不对了,需要这样使用才行:

[email protected]:~$ objdump -d -Mintel,i8086 simple_os.o

simple_os.o:     file format elf64-x86-64

Disassembly of section .text:

0000000000000000 <.text>:
   0:	ba f8 03             	mov    dx,0x3f8
   3:	00 d8                	add    al,bl
   5:	04 30                	add    al,0x30
   7:	ee                   	out    dx,al
   8:	b0 0a                	mov    al,0xa
   a:	ee                   	out    dx,al
   b:	f4                   	hlt

https://sourceware.org/binutils/docs/as/i386_002d16bit.html

http://stackoverflow.com/questions/1737095/how-do-i-disassemble-raw-x86-code

我们会把这段代码,放到虚拟物理内存,也就是GPA(guest physical address)的第二个页面中(to avoid conflicting with a non-existent real-mode interrupt descriptor table at address 0),防止和实模式的中断向量表冲突。al和bl初始化为2,cs初始化为0,ip指向第二个页面的起始位置0x1000。

除此之外,我们还有一个虚拟的串口设备,端口是0x3f8,8bit,用于输出字符。

为了实现一个虚拟机,我们首先需要打开/dev/kvm:

kvm = open("/dev/kvm", O_RDWR | O_CLOEXEC);

在使用kvm之前,需要使用KVM_GET_API_VERSION ioctl()去检查下kvm的版本是否正确,看看是否为api12,是才可以继续运行:

    ret = ioctl(kvm, KVM_GET_API_VERSION, NULL);
    if (ret == -1)
	err(1, "KVM_GET_API_VERSION");
    if (ret != 12)
	errx(1, "KVM_GET_API_VERSION %d, expected 12", ret);

检查完api版本后,可以使用KVM_CHECK_EXTENSION ioctl()去检查其它extensions是否可用,比如KVM_SET_USER_MEMORY_REGION,用来检查kvm是否支持硬件影子页表(http://royluo.org/2016/03/13/kvm-mmu-virtualization/):

    ret = ioctl(kvm, KVM_CHECK_EXTENSION, KVM_CAP_USER_MEMORY);
    if (ret == -1)
	err(1, "KVM_CHECK_EXTENSION");
    if (!ret)
	errx(1, "Required extension KVM_CAP_USER_MEM not available");

然后再创建一个虚拟机vm,这个vm和内存,设备,所有的vCPU相关,在host系统中对应一个进程:

vmfd = ioctl(kvm, KVM_CREATE_VM, (unsigned long)0);

虚拟机需要一些虚拟物理内存,用来存放guest os。当guest os进行内存访问时,如果缺页,kvm会根据KVM_SET_USER_MEMORY_REGION的设置,去尝试解决缺页的问题,如果kvm无法解决,就会退出,退出原因是KVM_EXIT_MMIO,然后由qemu或者其它东西去进行设备的模拟(《android qemu-kvm内存管理和IO映射》)。

我们先在host中申请一页内存,然后把guest os裸奔的代码拷贝过去:

mem = mmap(NULL, 0x1000, PROT_READ | PROT_WRITE, MAP_SHARED | MAP_ANONYMOUS, -1, 0);
memcpy(mem, code, sizeof(code));

然后我们需要把host 虚拟空间的内存和guest os虚拟物理内存的映射关系使用KVM_SET_USER_MEMORY_REGION ioctl()告知kvm:

    struct kvm_userspace_memory_region region = {
	.slot = 0,
	.guest_phys_addr = 0x1000,
	.memory_size = 0x1000,
	.userspace_addr = (uint64_t)mem,
    };
    ioctl(vmfd, KVM_SET_USER_MEMORY_REGION, &region);

这样,当guest os访问到虚拟物理内存的0x1000~0x2000之间的话,kvm会直接访问到mem所对应的真实的物理内存。

现在,我们有了一个虚拟机vm,有了一些虚拟物理内存,内存里面有guest os的代码,那么我们需要给虚拟机添加一个核(vCPU),对应一个线程。当然也可以多核(vCPUs,调用多次KVM_CREATE_VCPU):

vcpufd = ioctl(vmfd, KVM_CREATE_VCPU, (unsigned long)0);

每一个vCPU都和一个kvm_run结构体相关,kvm_run用于内核态和用户态信息的同步,比如从用户态的虚拟机中获得内核态的kvm退出的原因,KVM_EXIT_MMIO, KVM_EXIT_IO之类的。先获得kvm_run结构体的大小,然后分配内存并和vCPU进行绑定:

mmap_size = ioctl(kvm, KVM_GET_VCPU_MMAP_SIZE, NULL);
run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpufd, 0);

vCPU中还有处理器寄存器的状态,分为两组,struct kvm_regs和struct kvm_sregs,我们需要设置其中的cs,al,bl,ip等寄存器:

    ioctl(vcpufd, KVM_GET_SREGS, &sregs);
    sregs.cs.base = 0;
    sregs.cs.selector = 0;
    ioctl(vcpufd, KVM_SET_SREGS, &sregs);
    struct kvm_regs regs = {
	.rip = 0x1000,
	.rax = 2,
	.rbx = 2,
	.rflags = 0x2,
    };
    ioctl(vcpufd, KVM_SET_REGS, &regs);

好了,东西都准备好了,我们可以开始运行vCPU了:

    while (1) {
	ioctl(vcpufd, KVM_RUN, NULL);
	switch (run->exit_reason) {
	/* Handle exit */
	}
    }

我们需要根据run->exit_reason来处理kvm的退出状态,比如guest 关机:

    case KVM_EXIT_HLT:
	    puts("KVM_EXIT_HLT");
	    return 0;

初始化失败:

    case KVM_EXIT_FAIL_ENTRY:
	    errx(1, "KVM_EXIT_FAIL_ENTRY: hardware_entry_failure_reason = 0x%llx",
		 (unsigned long long)run->fail_entry.hardware_entry_failure_reason);
    case KVM_EXIT_INTERNAL_ERROR:
	    errx(1, "KVM_EXIT_INTERNAL_ERROR: suberror = 0x%x",
	         run->internal.suberror);

以及需要进行设备的模拟器,在这里,只有一个端口为0x3f8的串口设备。模拟设备的效果就是把字符打印出来:

case KVM_EXIT_IO:
	    if (run->io.direction == KVM_EXIT_IO_OUT &&
		    run->io.size == 1 &&
		    run->io.port == 0x3f8 &&
		    run->io.count == 1)
		putchar(*(((char *)run) + run->io.data_offset));
	    else
		errx(1, "unhandled KVM_EXIT_IO");
	    break;

测试结果:

[email protected]:~/Desktop$ gcc -o kvmtest kvmtest.c
[email protected]:~/Desktop$ ./kvmtest
4
KVM_EXIT_HLT

qemu-kvm中,qemu的主要任务就是KVM_EXIT_IO, KVM_EXIT_MMIO之后的虚拟设备的模拟,以及KVM_RUN之前设置好相关的设备的东西并进行初始化。

时间: 2024-07-29 03:08:24

ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机的相关文章

Ubuntu12.04(64bit)下安装Qt4总结

本文主要介绍linux系统Ubuntu12.04(64bit)下Qt4.8.5的安装,其中还涉及Fedora9下Qt4的安装. 1.下载软件:去Qt的官网下载Qt4.8.5和Qt Creator软件,下载的具体软件如下: Qt4.8.5软件:qt-everywhere-opensource-src-4.8.5.tar.gz Qt Creator软件:qt-creator-linux-x86_64-opensource-2.5.2.bin 2.解压qt-everywhere-opensource-

Ubuntu12.04环境搭建遇到的问题和使用技巧 (二)

接上:Ubuntu12.04环境搭建遇到的问题和使用技巧(一) 到新公司后需要在Ubuntu12.04下搭建Android的开发环境,在这个过程中还是会碰到很多问题,在这里记录下来,方便自己以后和有需要的人参考.来源于网络! 10.改变所属的群组chown -R user1.user2 dir 如果目录的群组所属是root的话,在编译一些文件有可能会出错,一般安装时需要使用root,其它情况不建议使用sudo或root 修改前的D目录是root用户 使用命令 [email protected]:

Kubuntu 14.04 环境下安装:flash 火狐插件,搜狗输入法,更改分辨率1366x768

本文档的pdf文件网盘地址:http://pan.baidu.com/s/1hqgQId2 Kubuntu 14.04 环境下安装:flash 火狐插件,搜狗输入法,更改分辨率 1366x768http://www.kubuntu.org/ 系统安装后没有中文输入法,可以联网的话,建议使用:百度在线输入法(见下链接)Ubuntu安装Fcitx(小企鹅五笔输入法)http://www.cnblogs.com/conanboa/archive/2010/03/04/1678402.html 安装目标

Linux(Ubuntu 13.04)环境下 Eclipse perl插件EPIC的安装

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14     这几天要学习perl,打算用eclipse这个IDE,那么装一个perl的插件是很有必要; 网上搜了下,安装EPIC大家提到最多的就是输入http://e-p-i-c.sf.net/updates/testing,但是我遇到的情况是一直在pending,令人抓狂: 后来参照Pydev的插件安装方法,试了下,成功了,下面就是我的步骤 我的系统:Ubuntu13.04 安装步骤: 1:到这里下载插件:http://pan.

[评测]低配环境下,PostgresQL和Mysql读写性能简单对比

[评测]低配环境下,PostgresQL和Mysql读写性能简单对比 原文链接:https://www.cnblogs.com/blog5277/p/10658426.html 原文作者:博客园--曲高终和寡 *******************如果你看到这一行,说明爬虫在本人还没有发布完成的时候就抓走了我的文章,导致内容不完整,请去上述的原文链接查看原文**************** 由于最近经过朋友启发,又有了一个写个人项目的小想法,在这次个人项目中准备学习并使用一些之前自己没有掌握的新

ubuntu-12.04.1-desktop-x64下JDK环境的安装与配置

1.上oracle官网下载最新的JDK. 在这里,我的系统是ubuntu-12.04.1-desktop-amd64,目前位置JDK的最新版本位7u9. jdk-for-linux有两种安装包,一种是rpm,一种是.tar.gz. 在这里我选择了jdk-7u9-linux-x64.tar.gz. (我也尝试过下载jdk-7u9-linux-x64.rpm的版本进行安装,但是出现"依赖性检测失败"的错误,各种文件被需要.虽然说可以使用某些参数忽略依赖性检测以强制安装,但是隐隐感觉不妥的样

ubuntu12.04+fuerte 下跑通lsd-slam——数据集

第一次在博客园写文章,写的不好的地方,还请大家指出来:) lsd-slam(下载链接:https://github.com/tum-vision/lsd_slam)提供了两种方法,一种是用数据集(下载地址http://vision.in.tum.de/lsdslam),一种是用usb摄像头,github也有相应的使用说明,不是很详细,下面介绍我的步骤.ps:也是一个slam新手,很多东西不懂,有错误的地方请大家指出 环境:ubuntu12.04+fuerte 目标:使用数据集,跑通lsd-sla

Ubuntu12.04环境搭建遇到的问题

到新公司后需要在Ubuntu12.04下搭建Android的开发环境,在这个过程中还是会碰到很多问题,在这里记录下来,方便自己以后和有需要的人参考.来源于网络! 1. Q:在终端中输入: sudo apt-get install build-essential 提示:更换介质:请把标有 "Ubuntu 12.04.1 LTS _Precise Pangolin_ - Release amd64 (20120823.1)" 的盘片插入驱动器"/cdrom/"再按回车

ubuntu12.04+fuerte 下跑通lsd-slam——使用usb摄像头

上一篇介绍了如何使用数据集跑lsd-slam,这篇介绍如何用一个普通的usb摄像头跑lsd-slam,默认ubuntu12.04,fuerte已经安装好,workspace也已设置,如果没有,请参考上一篇数据集下跑lsd-slam的博文. 我使用的摄像头是罗技c310 usb摄像头,其他的usb摄像头应该也没什么问题. 1.测试摄像头好坏.安装cheese,执行 $ sudo apt-get install cheese 运行cheese,执行 $ cheese 确认摄像头是否能在ubuntu下