ceph 集群故障恢复

集群规划配置

master1    172.16.230.21
master2    172.16.230.22
master3  172.16.230.23
node1  172.16.230.26
node2  172.16.230.27
node3  172.16.23028

一、 模拟monitor 宕机状态

2. 测试删除monitor节点, 把master3 关机

发现 master3 节点已经宕机, 具体操作步骤,需要删除配置文件中master3 信息,同步ceph.conf 配置文件 ,然后命令删除master3

3. 修改ceph.conf 配置文件,删除 monitor3信息

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/

[global]
fsid = 574c4cb4-50f8-4d80-a61e-25eadd0c567d
mon_initial_members = master1, master2
mon_host = 172.16.230.21,172.16.230.22
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
public_network = 172.16.230.0/24
osd_pool_default_size = 2
mon_pg_warn_max_per_osd = 1000
osd pool default pg num = 256
osd pool default pgp num = 256
mon clock drift allowed = 2
mon clock drift warn backoff = 30

# 删除 mon_initial_members  中的master3 和 mon_host 中 172.16.230.23 

4 . ceph.conf 同步到其他节点

 ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3

5. 使用remove命令 删除节点

[root@master1 cluster-ceph]# ceph mon remove master3
removing mon.master3 at 172.16.230.23:6789/0, there will be 2 monitors

6.  查看ceph集群状态

二.添加monitor3 到ceph集群中(ceph-deploy)

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/[root@master1 cluster-ceph]# ceph-deploy mon create  master3

同步ceph.conf 到集群各个节点

 ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3

查看集群状态

参考 https://www.bookstack.cn/read/ceph-handbook/Operation-add_rm_mon.md

原文地址:https://www.cnblogs.com/fengjian2016/p/10515779.html

时间: 2024-08-30 15:53:00

ceph 集群故障恢复的相关文章

ceph集群常用命令

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项简写描述 --verbose-v详细的日志. --valgrindN/A(只适合开发者和质检人员)用 Valgrind 调试. --allhosts-a在 ceph.conf 里配置的所有主机上执行,否 则它只在本机执行. --restartN/A核心转储

ceph集群osd故障修复实例演示

集群安装方式:1: ceph-deploy 方式安装ceph集群,模拟osd磁盘损坏: 分别采用如下两种方式修复: 1:使用ceph-deploy 方式修复故障osd: 2:手动修复故障osd: #######使用ceph-deploy方式修复过程演示######## 1:停止osd/etc/init.d/ceph stop osd.3 2:查看osd磁盘挂载情况:[[email protected] ceph]# lsblk NAME   MAJ:MIN RM  SIZE RO TYPE MO

使用telegraf+influxdb+grafana监控ceph集群

telegraf是一个收集监控项的agent,有支持收集多种数据的插件比如ceph,apache,docker,haproxy,system等,同时有支持多种输出的插件比如influxdb,graphite等. influxdb是时序数据库,多用于监控场景 grafana是很棒的绘图工具 这三者的结合有三个主要过程: 1.安装在ceph集群所有节点(包括mon和osd节点)上的telegraf通过ceph_input插件收集ceph集群信息,这里踩了两个坑,ceph_input插件报了两个错,一

Centos7-单台物理机搭建ceph集群

学习ceph时,看到crush规则的时候,crush策略最小为osd,但是这个osd定义的是真实的osd还是指单块磁盘?为了验证一下,自己用测试机模拟了一下单台机器使用一块磁盘搭建ceph. 配置ceph源,这里使用的阿里云的源 # yum install --nogpgcheck -y epel-release # rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7 # vim /etc/yum.repos.d/ceph.repo [Ceph] n

centos7部署ceph集群(正确)

环境介绍 主机名 系统 ip地址 ceph版本 ceph-node1 CentOS Linux release 7.2.1511 192.168.1.120 jewel ceph-node2 CentOS Linux release 7.2.1511 192.168.1.121 jewel ceph-node3 CentOS Linux release 7.2.1511 192.168.1.128 jewel 准备工作 ◆ 1-7在三台ceph节点上都需要进行操作 ◆ 8只在ceph1操作即可

Ubuntu 14.04 部署 CEPH集群

注:下文的所有操作都在admin节点进行 1.准备三台虚拟机,其中一台作为admin节点,另外两台作为osd节点,并相应地用hostname命令将主机名修改为admin,osd0,osd1,最后修改/etc/hosts文件如下所示 127.0.0.1 localhost 10.10.102.85 admin 10.10.102.86 osd0 10.10.102.87 osd1 2.配置免密码访问 ssh-keygen //一直按回车即可,产生公钥私钥对 ssh-copy-id -i /root

使用Ceph集群作为Kubernetes的动态分配持久化存储

使用Docker快速部署Ceph集群 , 然后使用这个Ceph集群作为Kubernetes的动态分配持久化存储. Kubernetes集群要使用Ceph集群需要在每个Kubernetes节点上安装ceph-common

ceph集群常用命令梳理

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项 简写 描述 --verbose -v 详细的日志. --valgrind N/A (只适合开发者和质检人员)用 Valgrind 调试. --allhosts -a 在 ceph.conf 里配置的所有主机上执行,否 则它只在本机执行. --restar

ceph集群报 Monitor clock skew detected 错误问题排查,解决

ceph集群报 Monitor clock skew detected 错误问题排查,解决           告警信息如下: [[email protected] ceph]# ceph -w    cluster ddc1b10b-6d1a-4ef9-8a01-d561512f3c1d     health HEALTH_WARN            clock skew detected on mon.ceph-100-81, mon.ceph-100-82            Mon