ceph 集群故障恢复

集群规划配置

master1 172.16.230.21
master2 172.16.230.22
master3　 172.16.230.23
node1　　172.16.230.26
node2　　172.16.230.27
node3　　172.16.23028

一、模拟monitor 宕机状态

2. 测试删除monitor节点，把master3 关机

发现 master3 节点已经宕机，具体操作步骤，需要删除配置文件中master3 信息，同步ceph.conf 配置文件 ,然后命令删除master3

3. 修改ceph.conf 配置文件，删除 monitor3信息

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/

[global]
fsid = 574c4cb4-50f8-4d80-a61e-25eadd0c567d
mon_initial_members = master1, master2
mon_host = 172.16.230.21,172.16.230.22
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
public_network = 172.16.230.0/24
osd_pool_default_size = 2
mon_pg_warn_max_per_osd = 1000
osd pool default pg num = 256
osd pool default pgp num = 256
mon clock drift allowed = 2
mon clock drift warn backoff = 30

# 删除 mon_initial_members  中的master3 和 mon_host 中 172.16.230.23

4 . ceph.conf 同步到其他节点

 ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3

5. 使用remove命令删除节点

[root@master1 cluster-ceph]# ceph mon remove master3
removing mon.master3 at 172.16.230.23:6789/0, there will be 2 monitors

6. 查看ceph集群状态

二.添加monitor3 到ceph集群中(ceph-deploy)

[root@master1 cluster-ceph]# cd /opt/cluster-ceph/[root@master1 cluster-ceph]# ceph-deploy mon create  master3

同步ceph.conf 到集群各个节点

 ceph-deploy  --overwrite-conf  admin master1  master2  node1 node2 node3

查看集群状态

参考 https://www.bookstack.cn/read/ceph-handbook/Operation-add_rm_mon.md

原文地址：https://www.cnblogs.com/fengjian2016/p/10515779.html

时间： 2024-11-12 08:12:39

ceph 集群故障恢复的相关文章

ceph集群常用命令

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项简写描述 --verbose-v详细的日志. --valgrindN/A(只适合开发者和质检人员)用 Valgrind 调试. --allhosts-a在 ceph.conf 里配置的所有主机上执行,否则它只在本机执行. --restartN/A核心转储

ceph集群osd故障修复实例演示

集群安装方式:1: ceph-deploy 方式安装ceph集群,模拟osd磁盘损坏: 分别采用如下两种方式修复: 1:使用ceph-deploy 方式修复故障osd: 2:手动修复故障osd: #######使用ceph-deploy方式修复过程演示######## 1:停止osd/etc/init.d/ceph stop osd.3 2:查看osd磁盘挂载情况:[[email protected] ceph]# lsblk NAME MAJ:MIN RM SIZE RO TYPE MO

使用telegraf+influxdb+grafana监控ceph集群

telegraf是一个收集监控项的agent,有支持收集多种数据的插件比如ceph,apache,docker,haproxy,system等,同时有支持多种输出的插件比如influxdb,graphite等. influxdb是时序数据库,多用于监控场景 grafana是很棒的绘图工具这三者的结合有三个主要过程: 1.安装在ceph集群所有节点(包括mon和osd节点)上的telegraf通过ceph_input插件收集ceph集群信息,这里踩了两个坑,ceph_input插件报了两个错,一

Centos7-单台物理机搭建ceph集群

学习ceph时,看到crush规则的时候,crush策略最小为osd,但是这个osd定义的是真实的osd还是指单块磁盘?为了验证一下,自己用测试机模拟了一下单台机器使用一块磁盘搭建ceph. 配置ceph源,这里使用的阿里云的源 # yum install --nogpgcheck -y epel-release # rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7 # vim /etc/yum.repos.d/ceph.repo [Ceph] n

centos7部署ceph集群（正确）

环境介绍主机名系统 ip地址 ceph版本 ceph-node1 CentOS Linux release 7.2.1511 192.168.1.120 jewel ceph-node2 CentOS Linux release 7.2.1511 192.168.1.121 jewel ceph-node3 CentOS Linux release 7.2.1511 192.168.1.128 jewel 准备工作 ◆ 1-7在三台ceph节点上都需要进行操作 ◆ 8只在ceph1操作即可

Ubuntu 14.04 部署 CEPH集群

注:下文的所有操作都在admin节点进行 1.准备三台虚拟机,其中一台作为admin节点,另外两台作为osd节点,并相应地用hostname命令将主机名修改为admin,osd0,osd1,最后修改/etc/hosts文件如下所示 127.0.0.1 localhost 10.10.102.85 admin 10.10.102.86 osd0 10.10.102.87 osd1 2.配置免密码访问 ssh-keygen //一直按回车即可,产生公钥私钥对 ssh-copy-id -i /root

使用Ceph集群作为Kubernetes的动态分配持久化存储

使用Docker快速部署Ceph集群 , 然后使用这个Ceph集群作为Kubernetes的动态分配持久化存储. Kubernetes集群要使用Ceph集群需要在每个Kubernetes节点上安装ceph-common

ceph集群常用命令梳理

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项简写描述 --verbose -v 详细的日志. --valgrind N/A (只适合开发者和质检人员)用 Valgrind 调试. --allhosts -a 在 ceph.conf 里配置的所有主机上执行,否则它只在本机执行. --restar

ceph集群报 Monitor clock skew detected 错误问题排查，解决

ceph集群报 Monitor clock skew detected 错误问题排查,解决告警信息如下: [[email protected] ceph]# ceph -w cluster ddc1b10b-6d1a-4ef9-8a01-d561512f3c1d health HEALTH_WARN clock skew detected on mon.ceph-100-81, mon.ceph-100-82 Mon