OpenStack运维(二):计算节点的故障和维护

1、计划中的维护

  举例:需要升级某一个计算节点的硬件配置,需要将计算节点上的虚拟机迁移后在对其进行操作,分为两种情况。

  1.1 云系统使用了共享存储

    a. 获取虚拟机列表:nova list --host compute01-node-Name --all-tenant

    b. 将每个虚拟机迁移至另一台计算节点:nova live-migration <uuid> compute02-node-Name

    c. 停止nova-compute服务:stop nova-compute

    d. 维护工作完成以后,启动服务:start nova-compute

    e. 确认服务正常启动和AMQP正常连接:status nova-comput     grep AMQP /var/log/nova-compute

    f. 将虚拟机迁移回来

  1.2 云系统没有使用共享存储

    将上述迁移命令改为:nova live-migration --block-migrate <uuid> compute02-node-Name

2、虚拟机实例启动故障

  2.1 意外关闭可能会出现磁盘分区错误,需要对root分区进行fsck,此时使用VNC连接虚拟机即可完成修复。

  2.2 libvirt的XML错误:nova reboot --hard <uuid>

3、从故障实例中恢复数据

  故障:虚拟机正常运行,SSH无法链接,VNC控制台显示kernel panic错误

  恢复数据:

    a. 使用virsh list查看故障实例的ID,假设ID为30 实例名为instance-30

    b. 挂起实例:virsh suspend 30

    c. 将qemu-nbd设备链接到磁盘上:

      cd /var/lib/nova/instance/instance-30

      qemu-nbd -c /dev/nbd0 `pwd`/disk

    d. 挂载qemu-nbd设备

      qemu-nbd会将虚拟机的不同分区导出为/dev/nbd0 nbd0p1 nbd0p2等

      挂载:mount /dev/nbd0p1 /mnt  进去mnt目录即可查看实例数据

    e. 查看完成后释放qemu-nbd设备

      umount /mnt

      qemu-nbd -d /dev/nbd0

    f.  恢复实例:virsh resume 30

4、卷

  如果故障的虚拟机的挂载的有卷,需要将卷手工分离并挂载

  mysql> select nova.instances.uuid as instance_uuid, cinder.volumes.id as volume_uuid, cinder.volumes.status, cinder.volumes.attach_status, cinder.volumes.mountpoint,  cinder.volumes.display_name from cinder.volumes inner join nova.instance on cinder.volumes.instance_uuid=nova.instances.uuid where nova.instances.host = ‘compute01-node-Name‘;

  手工分离:nova volume-detach <instance_uuid> <volume_uuid>

  重新挂载:nova volume-attach <instance_uuid> <volume_uuid> /dev/vdX

5、计算节点彻底故障

  故障:计算节点无法启动,恢复虚拟机实例,如果/var/lib/instances使用了共享目录

  a. 生产故障节点运行的所有实例uuid列表

    mysql> select uuid from instances where host = ‘故障节点主机名‘ and deleted = 0;

  b. 更新数据库,将虚拟机实例宿主机改为其他计算节点

    mysql> update instances set host = ‘NewComputeName‘ where host = ‘故障节点主机名‘ and deleted = 0;

  c. 启动虚拟机并生产XML

    nova reboot --hard <uuid>

  d. 根据4恢复相对于的卷即可。

  如果没有使用共享目录,这个目录在计算节点的硬盘上

时间: 2024-11-12 21:13:14

OpenStack运维(二):计算节点的故障和维护的相关文章

openstack运维手册(个人实际工作中整理)

openstack运维手册,是本人在实际工作中整理的,现分享!!!因水平有限,欢迎广大朋友指正.具体文档见附件.

OpenStack IceHouse 部署 - 4 - 计算节点部署

Nova计算服务(计算节点) 参考 本页内容依照官方安装文档进行,具体参见Configure a compute node(nova service) 前置工作 数据库 由于我们在Nova(计算管理)部署配置中使用了mysql数据库,所以移除本地sqlite数据库 sudo rm /var/lib/nova/nova.sqlite 修改vmlinuz权限 For security reasons, the Linux kernel is not readable by normal users

openstack中彻底删除计算节点的操作记录

在使用openstack的过程中,我们经常会添加好几台计算节点来部署虚拟机,在后续使用中由于某些原因,一些计算节点出现了问题,需要将这些出了问题的计算节点从openstack的控制节点中踢出去!但是很多时候,在删除计算节点的时候由于删除不彻底而导致了后面使用openstack出现了诸多问题. 下面记录了在openstack中彻底删除计算节点linux-node2.openstack的操作: 在控制节点上操作 查看计算节点 [[email protected] src]# openstack ho

openstack Juno系列之计算节点搭建

openstack Juno系列之计算节点搭建 nova-compute安装配置 -------------------- apt-get install nova-compute sysfsutils 编辑配置文件 vi /etc/nova/nova.conf [DEFAULT] verbose = True rpc_backend = rabbit rabbit_host = controller rabbit_password = RABBIT_PASS auth_strategy = k

OpenStack运维(三):存储节点和配置管理

1.对象存储节点维护 1.1 重启存储节点 如果一个存储节点需要重启,直接重启即可. 1.2 关闭存储节点 如果一个存储节点需要关闭很长一段时间,可以考虑将该节点从存储环中移除. swift-ring-builder account.builder remove <ip address of storage node> swift-ring-builder container.builder remove <ip address of storage node> swift-rin

openstack运维实战系列(十三)之glance更改路径引发的&quot;血案&quot;

1. 背景说明 glance在openstack中负责镜像相关的服务,支持将运行的虚拟机转换为快照,镜像和快照都存储在glance中,glance的后端支持多种存储方式,包括本地的文件系统,http,glusterfs,ceph,swift等等. 默认情况下,glance采用本地文件系统的方式存储image,存储的路径为/var/lib/glance/images,随着时间的推移,当镜像越来越多的时候,根目录的空间将会越来越大,所以对于glance的路径来说,需要提前做好规划和准备,如划分一个单

openstack运维实战系列之keystone用户建立(一)

1. 前言 在生产环境中,使用openstack已经有1年多的时间了,苦于一直没有时间,加上工作带来的懒惰,一直迟迟没有对openstack方面的知识做个总结,趁着年底,把过去一年多在生产环境中所遇到的一些常见运维操作做个总结.需要说明的是,相关的操作,基本都建立在openstack的官方文档和帮助,所以最好的方式莫过于看官方文档,此处只作为抛砖引玉之用,望须知. 2. 关于keystone keystone是openstack中负责认证授权的服务,主要负责两方面的工作:1. 用户认证授权,2.

openstack运维实战系列(十八)nova与ceph结合

1. 背景说明    nova负责虚拟机的生命周期管理,包括创建,删除,重建,开机,关机,重启,快照等,作为openstack的核心,nova负责IaaS中计算重要的职责,其中nova的存储格外重要,默认情况下,nova将instance的数据存放在/var/lib/nova/instances/%UUID目录下,使用本地的存储空间.使用这种方式带来的好处是:简单,易实现,速度快,故障域在一个可控制的范围内.然而,缺点也非常明显:compute出故障,上面的虚拟机down机时间长,没法快速恢复,

openstack运维实战系列(五)之nova quota调整

1. 前言     安装完openstack之后,为了对资源的限制,openstack内置了几种配额机制:nova计算资源的配额,cinder存储资源的配额,neutron网络资源的配额,防止资源的分过分配,默认的quota配置很低,比如nova默认只允许建立10个instance.未能能够正常使用openstack系统资源,需要调整quota的配置.本文主要讲述nova的配额修改,关于cinder和neutron的配额修改,请参考后续的的博文. 2. nova默认的配额 nova默认的配额定义