CEPH -S集群报错TOO MANY PGS PER OSD

背景

集群状态报错，如下：

# ceph -s
    cluster 1d64ac80-21be-430e-98a8-b4d8aeb18560
     health HEALTH_WARN     <-- 报错的地方
            too many PGs per OSD (912 > max 300)
     monmap e1: 1 mons at {node1=109.105.115.67:6789/0}
            election epoch 4, quorum 0 node1
     osdmap e49: 2 osds: 2 up, 2 in
            flags sortbitwise,require_jewel_osds
      pgmap v1256: 912 pgs, 23 pools, 4503 bytes data, 175 objects
            13636 MB used, 497 GB / 537 GB avail
                 912 active+clean

分析

问题原因是集群osd 数量较少，在我的测试过程中，由于搭建rgw网关、和OpenStack集成等，创建了大量的pool，每个pool要占用一些pg ，ceph集群默认每块磁盘都有默认值，好像每个osd 为300个pgs，不过这个默认值是可以调整的，但调整得过大或者过小都会对集群的性能产生一定影响。因为我们这个是测试环境，只要能消除掉报错即可。查询当前每个osd下最大的pg报警值：

$ ceph --show-config  | grep mon_pg_warn_max_per_osd

mon_pg_warn_max_per_osd = 300

解决方案

在配置文件中，调大集群的此选项的告警阀值；方法如下，在mon节点的ceph.conf（/etc/ceph/ceph.conf）配置文件中添加:

$ vi /etc/ceph/ceph.conf
[global]
.......
mon_pg_warn_max_per_osd = 1000

重启monitor服务：

$ systemctl restart ceph-mon.target

再次查看ceph集群状态。

$ ceph -s

cluster 1d64ac80-21be-430e-98a8-b4d8aeb18560
 health HEALTH_OK
 monmap e1: 1 mons at {node1=109.105.115.67:6789/0}
        election epoch 6, quorum 0 node1
 osdmap e49: 2 osds: 2 up, 2 in
        flags sortbitwise,require_jewel_osds
  pgmap v1273: 912 pgs, 23 pools, 4503 bytes data, 175 objects
        13636 MB used, 497 GB / 537 GB avail
             912 active+clean

```

时间： 2024-10-13 16:56:49

CEPH -S集群报错TOO MANY PGS PER OSD的相关文章

ceph集群报错：HEALTH_ERR 1 pgs inconsistent; 1 scrub errors

报错信息如下: [[email protected] ~]# ceph health detail HEALTH_ERR 1 pgs inconsistent; 1 scrub errors; pg 2.37c is active+clean+inconsistent, acting [75,6,35] 1 scrub errors 报错信息总结: 问题PG:2.37c OSD编号:75,6,35 执行常规修复: ceph pg repair 2.37c 查看修复结果: [[email prot

redis集群报错：(error) CLUSTERDOWN The cluster is down

更换了电脑,把原来的电脑上的虚拟机复制到了新电脑上,启动虚拟机上的centos系统,然后启动redis集群(redis5版本),发现集群可以启动,redis进程也有,但是连接集群中的任意节点就报错,如下查看单个节点的集群配置信息: 发现是因为原来的集群配置信息导致的错误,需要将每个redis实例下的dump.rdb 和nodes.conf文件删除,然后重新创建集群重新创建集群: 首先启动6个redis实例 2 .进入任意一个redis实例,执行集群创建命令: ./redis-cli --cl

Java客户端连接kafka集群报错

往kafka集群发送消息时,报错如下: page_visits-1: 30005 ms has passed since batch creation plus linger time 加入log4j.properties,设置为DEBUG级别,错误如下: 2017-06-03 17:33:31,417 DEBUG [org.apache.kafka.clients.NetworkClient] - Error connecting to node 2 at kafka-cluster-64bi

maven项目中使用redis集群报错： java.lang.NumberFormatException: For input string: "[email protected]"

Caused by: org.springframework.beans.BeanInstantiationException: Failed to instantiate [redis.clients.jedis.JedisCluster]: Constructor threw exception; nested exception is java.lang.NumberFormatException: For input string: "[email protected]" at

kafka集群报错

bin/kafka-server-start.sh config/server.properties ,问题来了 : [[email protected] kafka_2.12-0.10.2.0]# Exception in thread "main" java.lang.UnsupportedClassVersionError: kafka/Kafka : Unsupported major.minor version 52.0 at java.lang.ClassLoader.de

idea连接spark集群报错解析：Caused by: java.lang.ClassCastException

cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggregateExpressions of type scala.collection.Seq in instance of org.apache.spark.sql.execution.aggregate

ceph集群报 Monitor clock skew detected 错误问题排查，解决

ceph集群报 Monitor clock skew detected 错误问题排查,解决告警信息如下: [[email protected] ceph]# ceph -w cluster ddc1b10b-6d1a-4ef9-8a01-d561512f3c1d health HEALTH_WARN clock skew detected on mon.ceph-100-81, mon.ceph-100-82 Mon

使用ceph-deploy安装部署线上ceph分布式存储集群（centos6.6）

一:CEPH简介 OSDs: Ceph的OSD守护进程(OSD)存储数据,处理数据复制,恢复,回填,重新调整,并通过检查其它Ceph OSD守护程序作为一个心跳向Ceph的监视器报告一些检测信息.Ceph的存储集群需要至少2个OSD守护进程来保持一个 active + clean状态.(Ceph默认制作2个备份,但你可以调整它) Monitors:Ceph的监控保持集群状态映射,包括OSD(守护进程)映射,分组(PG)映射,和CRUSH映射. Ceph 保持一个在Ceph监视器, Ceph O

Ceph 存储集群 - 搭建存储集群

一.准备机器本文描述如何在 CentOS 7 下搭建 Ceph 存储集群(STORAGE CLUSTER). 一共4台机器,其中1个是管理节点,其他3个是ceph节点: hostname ip role 描述 admin-node 192.168.0.130 ceph-deploy 管理节点 node1 192.168.0.131 mon.node1 ceph节点,监控节点 node2 192.168.0.132 osd.0 ceph节点,OSD节点 node3 192.168.0.133 o