交换机死机,导致ceph ( requests are blocked ) 异常解决方法

问题描述:

万兆交换机死机后,导致在交换机上的ceph 的cluster网络会中断,用户正在对数据块的访问没有完成导致请求被blocked,同时部分pg会处于不同步状态,因此交换机重启后,通过ceph health会发现ceph集群不在OK 状态

health HEALTH_ERR 1 pgs inconsistent; 1 pgs repair; 2 requests are blocked > 32 sec; 1 scrub errors
pg 6.89 is active+clean+inconsistent, acting [12,1,10]
1 ops are blocked > 33554.4 sec
1 ops are blocked > 33554.4 sec on osd.16
1 osds have slow requests

通过以上命令可以发现这里有部分osd(osd.16)出现请求被blocked,重启这些osd,让ceph自己进行恢复:
/etc/init.d/ceph stop osd.16

/etc/init.d/ceph start osd.16

系统会对该 osd 执行 recovery 操作, recovery 过程中, 会断开 block request, 那么这个 request 将会重新请求 mon 节点, 并重新获得新的 pg map, 得到最新的数据访问位置, 从而解决上述问题

一段时间后,可以通过ceph -s 查看ceph的状态为ok

ceph恢复正常后,需要重启虚拟机,有些系统版本的虚拟机可以不用重启,例如ubuntu14.04.

可以通过进入虚拟机来查看是否正常来判断是否需要重启

时间: 2024-10-21 15:33:43

交换机死机,导致ceph ( requests are blocked ) 异常解决方法的相关文章

BootStrap Validator 版本差异问题导致的submitHandler失效问题的解决方法

最近一直在做互金平台,做到后台提交表单的时候出现验证提交数据一直没有提交的问题.于是百度了一下.果然是版本问题造成的.幸好找到了问题所在.我一直仿照的是东钿原微信平台的做法,但是使用byond的后台框架,可能版本不一样,所以造成 submitHandler: function(validator, form, submitButton) { // 版本号0.4.5支持 // 版本号v0.5.2-dev不再支持submitHandler配置 } 这个方法一直是无效的无法执行.百度搜到就是以下解决办

eclipse上一次没有正确关闭,导致启动的时候卡死错误解决方法

关于 eclipse启动卡死的问题(eclipse上一次没有正确关闭,导致启动的时候卡死错误解决方法),自己常用的解决方法: 方案一(推荐使用,如果没有这个文件,就使用方案二): 到<workspace>\.metadata\.plugins\org.eclipse.core.resources目录,删除文件 .snap 方案二: 进入workspace/.metadata/.plugins/目录      重命名 org.eclipse.core.resources to org.eclip

突然停电或死机导致没保存的文件怎么找回

在日常生活中,偶尔会遇到突然停电或者电脑死机了,我们正在编辑的word文档或者excel文件信息丢失.除了设置自动保存和自认倒霉之外,还有一种方法能够找到这些没有保存的文件,下面来介绍一下. 找回突然断电来不及保存的文档 1 如下边图片显示的目录,在这个目录里面有EXCEL.WORD文件夹,我们来不及保存的文件就存放在这个文件夹中. 步骤阅读 2 来不及保存的word文件的后缀名是.asd,来不及保存的excel文件的后缀名称是.asp.找到这个文件,修改后缀名为正常的word或excel后缀名

由于SSH配置文件的不匹配,导致的Permission denied (publickey)及其解决方法

读者如要转载,请标明出处和作者名,谢谢. 地址01:http://space.itpub.net/25851087 地址02:http://www.cnblogs.com/zjrodger/ 作者名:zjrodger [问题发生环境和相关参数] (1)OS:Win7 32Bit. (2)Git:GitHub for Windows 2.0. 下载地址:https://windows.github.com/ (3)Command Shell:Git Shell. [问题重现描述] 在Win7本地平

关于RPC服务器不可用,导致电源设置无法更改的解决方法

下面分享的是由于RPC服务器不可用,导致了电源设置无法更改.网上关于这类的解决方法,大都都是到服务里启动RPC服务器及相关服务.下面分享的是比较特殊情况. 我的电脑是戴尔游匣7000系列,Windows 8.1 由于前几天电脑自动更新失败后,电脑毛病不断.首先是网卡驱动不可用,声卡驱动不可用,这些都不是问题,到戴尔官方网站上可以下载这些驱动,很方便.但是很恼火的是,不知道怎么回事, rpc服务器不可用导致了电源设置无法更改,首先也是按照网上的方法去服务里启动RPC相关的服务,确实这些服务已经被W

对域内客户机进行帐户重置以后的解决方法

域内某台客户机中有共享资料,在DC中对该客户机进行帐户重置以后,该客户机的共享资料不能再被域内其他计算机所访问,且该客户机注销以后无法再登录到域,提示"此工作站与主域之间的信任关系建立失败",解决方法是先在DC中将此客户机删除,然后用本地管理员帐户登录到该客户机,退出域并再次加入域,问题得以解决.

使用HandyJSON导致的内存泄漏问题相关解决方法

在移动开发中,与服务器打交道是不可避免的,从服务器拿到的接口数据最终都会被我们解析成模型,现在比较常见的数据传输格式是json格式,对json格式的解析可以使用原生的解析方式,也可以使用第三方的,我们的项目中使用的是阿里开源的一个swift编写的解析框架--HandyJSON. 在使用过程中,使用instruments的Leak Checks工具对内存泄漏进行检测时发现了这个框架导致了不少的内存泄漏,如图1-1: 这张图是在APP进入首页并将数据加载完毕时截取的,可以看到,HandyJSON一共

uni-app真机调试报错request:fail abort解决方法

Android端真机调试访问本地接口数据时报错:request:fail abort 报错代码 onLoad: function(e) { uni.request({ url: 'http://localhost:8088/api/Gift', method: 'GET', data: {}, success: (res) => { this.GiftInfo = res.data; }, fail: (fa) => { console.log(fa); } }) } 本地接口访问没有问题:

一个NFS缓存管理包的bug导致文件系统满的问题和解决方法

这几天安装CentOS 6的虚拟机总是提示文件系统满,一开始以为是最近oracle经常操作大数据量提交导致undo tbs无限扩大,后来发现原来是NFS缓存管理包cachefilesd的问题.分享一下: 由于是测试虚拟机,文件系统懒得专门规划,只划分了一个根目录分区.(各位admin切记不要犯这种实际生产环境的大忌): [[email protected]* /]df -h Filesystem            Size  Used Avail Use% Mounted on /dev/m