OpenStack运维（二）：计算节点的故障和维护

1、计划中的维护

　　举例：需要升级某一个计算节点的硬件配置，需要将计算节点上的虚拟机迁移后在对其进行操作，分为两种情况。

　　1.1 云系统使用了共享存储

　　　　a. 获取虚拟机列表：nova list --host compute01-node-Name --all-tenant

　　　　b. 将每个虚拟机迁移至另一台计算节点：nova live-migration <uuid> compute02-node-Name

　　　　c. 停止nova-compute服务：stop nova-compute

　　　　d. 维护工作完成以后，启动服务：start nova-compute

　　　　e. 确认服务正常启动和AMQP正常连接：status nova-comput grep AMQP /var/log/nova-compute

　　　　f. 将虚拟机迁移回来

　　1.2 云系统没有使用共享存储

　　　　将上述迁移命令改为：nova live-migration --block-migrate <uuid> compute02-node-Name

2、虚拟机实例启动故障

　　2.1 意外关闭可能会出现磁盘分区错误，需要对root分区进行fsck，此时使用VNC连接虚拟机即可完成修复。

　　2.2 libvirt的XML错误：nova reboot --hard <uuid>

3、从故障实例中恢复数据

　　故障：虚拟机正常运行，SSH无法链接，VNC控制台显示kernel panic错误

　　恢复数据：

　　　　a. 使用virsh list查看故障实例的ID，假设ID为30 实例名为instance-30

　　　　b. 挂起实例：virsh suspend 30

　　　　c. 将qemu-nbd设备链接到磁盘上：

　　　　　　cd /var/lib/nova/instance/instance-30

　　　　　　qemu-nbd -c /dev/nbd0 `pwd`/disk

　　　　d. 挂载qemu-nbd设备

　　　　　　qemu-nbd会将虚拟机的不同分区导出为/dev/nbd0 nbd0p1 nbd0p2等

　　　　　　挂载：mount /dev/nbd0p1 /mnt 进去mnt目录即可查看实例数据

　　　　e. 查看完成后释放qemu-nbd设备

　　　　　　umount /mnt

　　　　　　qemu-nbd -d /dev/nbd0

　　　　f. 恢复实例：virsh resume 30

4、卷

　　如果故障的虚拟机的挂载的有卷，需要将卷手工分离并挂载

　　mysql> select nova.instances.uuid as instance_uuid, cinder.volumes.id as volume_uuid, cinder.volumes.status, cinder.volumes.attach_status, cinder.volumes.mountpoint, cinder.volumes.display_name from cinder.volumes inner join nova.instance on cinder.volumes.instance_uuid=nova.instances.uuid where nova.instances.host = ‘compute01-node-Name‘;

　　手工分离：nova volume-detach <instance_uuid> <volume_uuid>

　　重新挂载：nova volume-attach <instance_uuid> <volume_uuid> /dev/vdX

5、计算节点彻底故障

　　故障：计算节点无法启动，恢复虚拟机实例，如果/var/lib/instances使用了共享目录

　　a. 生产故障节点运行的所有实例uuid列表

　　　　mysql> select uuid from instances where host = ‘故障节点主机名‘ and deleted = 0;

　　b. 更新数据库，将虚拟机实例宿主机改为其他计算节点

　　　　mysql> update instances set host = ‘NewComputeName‘ where host = ‘故障节点主机名‘ and deleted = 0;

　　c. 启动虚拟机并生产XML

　　　　nova reboot --hard <uuid>

　　d. 根据4恢复相对于的卷即可。

　　如果没有使用共享目录，这个目录在计算节点的硬盘上

时间： 2024-11-12 21:13:14

OpenStack运维（二）：计算节点的故障和维护的相关文章

openstack运维手册（个人实际工作中整理）

openstack运维手册,是本人在实际工作中整理的,现分享!!!因水平有限,欢迎广大朋友指正.具体文档见附件.

OpenStack IceHouse 部署 - 4 - 计算节点部署

Nova计算服务(计算节点) 参考本页内容依照官方安装文档进行,具体参见Configure a compute node(nova service) 前置工作数据库由于我们在Nova(计算管理)部署配置中使用了mysql数据库,所以移除本地sqlite数据库 sudo rm /var/lib/nova/nova.sqlite 修改vmlinuz权限 For security reasons, the Linux kernel is not readable by normal users

openstack中彻底删除计算节点的操作记录

在使用openstack的过程中,我们经常会添加好几台计算节点来部署虚拟机,在后续使用中由于某些原因,一些计算节点出现了问题,需要将这些出了问题的计算节点从openstack的控制节点中踢出去!但是很多时候,在删除计算节点的时候由于删除不彻底而导致了后面使用openstack出现了诸多问题. 下面记录了在openstack中彻底删除计算节点linux-node2.openstack的操作: 在控制节点上操作查看计算节点 [[email protected] src]# openstack ho

openstack Juno系列之计算节点搭建

openstack Juno系列之计算节点搭建 nova-compute安装配置 -------------------- apt-get install nova-compute sysfsutils 编辑配置文件 vi /etc/nova/nova.conf [DEFAULT] verbose = True rpc_backend = rabbit rabbit_host = controller rabbit_password = RABBIT_PASS auth_strategy = k

OpenStack运维（三）：存储节点和配置管理

1.对象存储节点维护 1.1 重启存储节点如果一个存储节点需要重启,直接重启即可. 1.2 关闭存储节点如果一个存储节点需要关闭很长一段时间,可以考虑将该节点从存储环中移除. swift-ring-builder account.builder remove <ip address of storage node> swift-ring-builder container.builder remove <ip address of storage node> swift-rin

openstack运维实战系列(十三)之glance更改路径引发的"血案"

1. 背景说明 glance在openstack中负责镜像相关的服务,支持将运行的虚拟机转换为快照,镜像和快照都存储在glance中,glance的后端支持多种存储方式,包括本地的文件系统,http,glusterfs,ceph,swift等等. 默认情况下,glance采用本地文件系统的方式存储image,存储的路径为/var/lib/glance/images,随着时间的推移,当镜像越来越多的时候,根目录的空间将会越来越大,所以对于glance的路径来说,需要提前做好规划和准备,如划分一个单

openstack运维实战系列之keystone用户建立(一)

1. 前言在生产环境中,使用openstack已经有1年多的时间了,苦于一直没有时间,加上工作带来的懒惰,一直迟迟没有对openstack方面的知识做个总结,趁着年底,把过去一年多在生产环境中所遇到的一些常见运维操作做个总结.需要说明的是,相关的操作,基本都建立在openstack的官方文档和帮助,所以最好的方式莫过于看官方文档,此处只作为抛砖引玉之用,望须知. 2. 关于keystone keystone是openstack中负责认证授权的服务,主要负责两方面的工作:1. 用户认证授权,2.

openstack运维实战系列(十八)nova与ceph结合

1. 背景说明 nova负责虚拟机的生命周期管理,包括创建,删除,重建,开机,关机,重启,快照等,作为openstack的核心,nova负责IaaS中计算重要的职责,其中nova的存储格外重要,默认情况下,nova将instance的数据存放在/var/lib/nova/instances/%UUID目录下,使用本地的存储空间.使用这种方式带来的好处是:简单,易实现,速度快,故障域在一个可控制的范围内.然而,缺点也非常明显:compute出故障,上面的虚拟机down机时间长,没法快速恢复,

openstack运维实战系列(五)之nova quota调整

1. 前言安装完openstack之后,为了对资源的限制,openstack内置了几种配额机制:nova计算资源的配额,cinder存储资源的配额,neutron网络资源的配额,防止资源的分过分配,默认的quota配置很低,比如nova默认只允许建立10个instance.未能能够正常使用openstack系统资源,需要调整quota的配置.本文主要讲述nova的配额修改,关于cinder和neutron的配额修改,请参考后续的的博文. 2. nova默认的配额 nova默认的配额定义