记一次Ceph日志损坏的分析处理过程

1、故障现象

今天下午看到群友在说一个问题,说ceph的某个osd处于down的状态,我大概整理下他的处理过程

1、查看OSD的状态

2、查看日志信息

3、启动对应的ceph-osd服务

4、检查集群健康状态

2、日志损坏了,如何让osd重新上线

思路:重建日志
a、先把/var/lib/ceph/osd/ceph-61/journal 日志删掉
b、重建日志ceph-osd -i 61 --mkjournal

原文地址:http://blog.51cto.com/molewan/2088257

时间: 2024-10-17 21:28:40

记一次Ceph日志损坏的分析处理过程的相关文章

记一次系统稳定性问题的分析处理过程(因CallContext使用不当而造成bug)

问题描述: 一个项目现场反馈,“差旅费类型的单据审批,在出现业务规则没满足的情况时(即业务报错,需要人机交互),审批仍然通过了”.从技术的角度上说,就是业务构件中的业务规则报错后,事务没有回滚.但是,维护的同事对事务回滚的代码增加了日志,通过日志发现事务回滚的代码显式的执行了,也没有出现任何异常.并且该问题可以反复重现,与并发也没有关系,单用户执行也会有问题. 分析过程: 接到这个问题时,我感觉很奇怪:从表面上看貌似跟该类单据的数据有关系,但从技术分析上看是与数据库事务控制有关系.按照道理上来讲

日志收集以及分析:Splunk

写代码的人都知道日志很重要,机器不多的时候,查看日志很简单,ssh 上去 grep + awk + perl 啥的 ad hoc 的搞几把就行,但面对上百台甚至上千台机器时,如何有效的收集和分析日志就成了个很头疼的事情.日志处理必然有如下过程: 从各个服务器读取日志 把日志存放到集中的地方 挖掘日志数据,用友好的 UI 展示出来,最好能做到实时的输入表达式做过滤.聚合 下面分三个方面聊聊,整个过程是需要多方配合的,包括写日志.读日志.转储日志.分析日志,注意聊这些的背景是互联网行业,机器多,日志

大话RAC介质恢复---联机日志损坏

对联机日志的损坏要根据日志状态进行分析,联机日志一般会有Current.Active和Inactive三种状态.Inactive状态不会造成数据丢失.而Active和Current状态的日志一般会造成数据的丢失.根据v$log.status判断受损日志的状态. a.如果是Inactive状态的日志损坏,把该组日志drop就可以.因为每个thread至少要有两组日志,所以在删除前要先添加一组. b.如果是ACTIVE/CURRENT状态,则要进行一下操作: 1.关闭所有实例 2.在受损实例上,启动

ceph 日志01

1. 对象存储 问:我可以存储多少数据? 您可以存储的总数据容量和对象个数不受限制.各个 Amazon S3 对象的大小范围可以从最小 0 字节到最大 5 TB.可在单个 PUT 中上传的最大数据元为 5 GB.对于大于 100 MB 的数据元,客户应该考虑使用分段上传功能. 理解这个问题,事实上有助于理解RADOS的本质,因此有必要在此加以分析.粗看起来,librados和RADOS GW的区别在于,librados提供的是本地API,而RADOS GW提供的则是RESTful API,二者的

nginx web日志介绍和分析

nginx web日志介绍和分析 Nginx访问日志打印的格式可以自定义,例如Nginx日志打印格式配置如下,Log_format 用来设置日志格式,Name(模块名) Type(日志类型),可以配置多个日志模块,分别供不同的虚拟主机日志记录所调用: log_format log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '                   '$status $body_b

网站日志流量复杂分析

网站日志流量复杂分析 hadoop hive 需求 会话信息表: 键名 描述 对应Track表字段 session_id 会话ID sessionId,会话ID guid 访客id globel userId,独立访客ID,不清cookies时不会变化guid trackerU 访问的渠道id,取该会话中第一个trackerU trackerU 渠道 landing_url 着落页,第一个访问URL url landing_url_ref 着落页之前的页面,用于分析引流 refere user_

打造高效的运维日志收集与分析平台

0x01 背景      面对与日俱增的日志信息,最传统的日志收集方式已难以满足运维人员的基本需求.So,我们何不利用如今丰富的开源工具来打造一款高效实用的运维日志收集分析平台呢.以下就我们目前尝试在做的运维日志平台进行简要介绍,希望能与各位交流心得经验. 0x02 平台架构     我们并没有采用ELK的架构进行日志收集,而是采用了多款日志收集工具结合的方式,即EKF(K/Z), elasticsearch + kafka-zookeeper + Flume + kibana/zabbix.

logstash通过rsyslog对nginx的日志收集和分析

logstash通过rsyslog对nginx的日志收集和分析 http://bbotte.blog.51cto.com/6205307/1613571 logstash&elasticsearch&kibana的安装和配置 http://bbotte.blog.51cto.com/6205307/1614453  这一篇文章里面是以nginx打补丁的方式实现rsyslog把nginx的日志同步到logstash做分析,不过线上环境种种不一样,下面是把nginx的日志直接通过rsyslog

slave中继日志损坏处理办法

1.slave中继日志损坏 当slave意外宕机时,有可能损坏中继日志relay-log,再次开启同步复制时,就会报错: Last_SQL_Error:Relay log read failure: Could not parse relay log event entry. The possiblereasons are: the master's binary log is corrupted (you can check this byrunning 'mysqlbinlog' on th