交换机死机，导致ceph ( requests are blocked ) 异常解决方法

问题描述：

万兆交换机死机后，导致在交换机上的ceph 的cluster网络会中断，用户正在对数据块的访问没有完成导致请求被blocked，同时部分pg会处于不同步状态，因此交换机重启后，通过ceph health会发现ceph集群不在OK 状态

health HEALTH_ERR 1 pgs inconsistent; 1 pgs repair; 2 requests are blocked > 32 sec; 1 scrub errors
pg 6.89 is active+clean+inconsistent, acting [12,1,10]
1 ops are blocked > 33554.4 sec
1 ops are blocked > 33554.4 sec on osd.16
1 osds have slow requests

通过以上命令可以发现这里有部分osd（osd.16）出现请求被blocked，重启这些osd，让ceph自己进行恢复：
/etc/init.d/ceph stop osd.16

/etc/init.d/ceph start osd.16

系统会对该 osd 执行 recovery 操作, recovery 过程中, 会断开 block request, 那么这个 request 将会重新请求 mon 节点, 并重新获得新的 pg map, 得到最新的数据访问位置, 从而解决上述问题

一段时间后，可以通过ceph -s 查看ceph的状态为ok

ceph恢复正常后，需要重启虚拟机，有些系统版本的虚拟机可以不用重启，例如ubuntu14.04.

可以通过进入虚拟机来查看是否正常来判断是否需要重启

时间： 2024-10-21 15:33:43

交换机死机，导致ceph ( requests are blocked ) 异常解决方法的相关文章

BootStrap Validator 版本差异问题导致的submitHandler失效问题的解决方法

最近一直在做互金平台,做到后台提交表单的时候出现验证提交数据一直没有提交的问题.于是百度了一下.果然是版本问题造成的.幸好找到了问题所在.我一直仿照的是东钿原微信平台的做法,但是使用byond的后台框架,可能版本不一样,所以造成 submitHandler: function(validator, form, submitButton) { // 版本号0.4.5支持 // 版本号v0.5.2-dev不再支持submitHandler配置 } 这个方法一直是无效的无法执行.百度搜到就是以下解决办

eclipse上一次没有正确关闭，导致启动的时候卡死错误解决方法

关于 eclipse启动卡死的问题(eclipse上一次没有正确关闭,导致启动的时候卡死错误解决方法),自己常用的解决方法: 方案一(推荐使用,如果没有这个文件,就使用方案二): 到<workspace>\.metadata\.plugins\org.eclipse.core.resources目录,删除文件 .snap 方案二: 进入workspace/.metadata/.plugins/目录重命名 org.eclipse.core.resources to org.eclip

突然停电或死机导致没保存的文件怎么找回

在日常生活中,偶尔会遇到突然停电或者电脑死机了,我们正在编辑的word文档或者excel文件信息丢失.除了设置自动保存和自认倒霉之外,还有一种方法能够找到这些没有保存的文件,下面来介绍一下. 找回突然断电来不及保存的文档 1 如下边图片显示的目录,在这个目录里面有EXCEL.WORD文件夹,我们来不及保存的文件就存放在这个文件夹中. 步骤阅读 2 来不及保存的word文件的后缀名是.asd,来不及保存的excel文件的后缀名称是.asp.找到这个文件,修改后缀名为正常的word或excel后缀名

由于SSH配置文件的不匹配，导致的Permission denied (publickey)及其解决方法

读者如要转载,请标明出处和作者名,谢谢. 地址01:http://space.itpub.net/25851087 地址02:http://www.cnblogs.com/zjrodger/ 作者名:zjrodger [问题发生环境和相关参数] (1)OS:Win7 32Bit. (2)Git:GitHub for Windows 2.0. 下载地址:https://windows.github.com/ (3)Command Shell:Git Shell. [问题重现描述] 在Win7本地平

关于RPC服务器不可用，导致电源设置无法更改的解决方法

下面分享的是由于RPC服务器不可用,导致了电源设置无法更改.网上关于这类的解决方法,大都都是到服务里启动RPC服务器及相关服务.下面分享的是比较特殊情况. 我的电脑是戴尔游匣7000系列,Windows 8.1 由于前几天电脑自动更新失败后,电脑毛病不断.首先是网卡驱动不可用,声卡驱动不可用,这些都不是问题,到戴尔官方网站上可以下载这些驱动,很方便.但是很恼火的是,不知道怎么回事, rpc服务器不可用导致了电源设置无法更改,首先也是按照网上的方法去服务里启动RPC相关的服务,确实这些服务已经被W

对域内客户机进行帐户重置以后的解决方法

域内某台客户机中有共享资料,在DC中对该客户机进行帐户重置以后,该客户机的共享资料不能再被域内其他计算机所访问,且该客户机注销以后无法再登录到域,提示"此工作站与主域之间的信任关系建立失败",解决方法是先在DC中将此客户机删除,然后用本地管理员帐户登录到该客户机,退出域并再次加入域,问题得以解决.

使用HandyJSON导致的内存泄漏问题相关解决方法

在移动开发中,与服务器打交道是不可避免的,从服务器拿到的接口数据最终都会被我们解析成模型,现在比较常见的数据传输格式是json格式,对json格式的解析可以使用原生的解析方式,也可以使用第三方的,我们的项目中使用的是阿里开源的一个swift编写的解析框架--HandyJSON. 在使用过程中,使用instruments的Leak Checks工具对内存泄漏进行检测时发现了这个框架导致了不少的内存泄漏,如图1-1: 这张图是在APP进入首页并将数据加载完毕时截取的,可以看到,HandyJSON一共

uni-app真机调试报错request:fail abort解决方法

Android端真机调试访问本地接口数据时报错:request:fail abort 报错代码 onLoad: function(e) { uni.request({ url: 'http://localhost:8088/api/Gift', method: 'GET', data: {}, success: (res) => { this.GiftInfo = res.data; }, fail: (fa) => { console.log(fa); } }) } 本地接口访问没有问题:

一个NFS缓存管理包的bug导致文件系统满的问题和解决方法

这几天安装CentOS 6的虚拟机总是提示文件系统满,一开始以为是最近oracle经常操作大数据量提交导致undo tbs无限扩大,后来发现原来是NFS缓存管理包cachefilesd的问题.分享一下: 由于是测试虚拟机,文件系统懒得专门规划,只划分了一个根目录分区.(各位admin切记不要犯这种实际生产环境的大忌): [[email protected]* /]df -h Filesystem Size Used Avail Use% Mounted on /dev/m

猜你喜欢

如何定义一个有效的OWIN Startup Class

命名约定 Katana在程序集内的程序集名称空间下查找一个叫做Startup的类, 通过属性指定 [assembly: OwinStartup(typeof(OwinConsoleApp.Startu ...

泛函和变分法导引

本文主要内容取自于浙江大学的一篇PPT,作者为Hongxin Zhang.源网页在: http://www.cad.zju.edu.cn/home/zhx/FAVM/1.pdf 问题的起源我们知道, ...

【HTML5 3】《html5 开发精要与实例讲解》 step2 -- 结构元素 (待续)

主要内容:通过一个博客网站和一个企业网站的制作展示如何运用HTML5中的各种结构元素,构建出一个语义清晰,结构分明的Web3.0时代的网站. 案例1:用HTML5中的结构元素构建一个博客网站疑 ...

信号量与PV操作

在操作系统中进程之间经常会存在互斥和同步两种关系.为了有效处理这种情况,W.Dijskra在1965年提出信号量和PV操作的概念(1)信号量:一种特殊的变量,表现形式是一个整型S和一个队列(2)P操作 ...

通过pull解析器操作安卓的xml

通过pull解析器操作安卓的xml 例子定义了一个javabean用于存放上面解析出来的xml内容, 这个javabean为Person,代码请见本页下面备注: =================== ...

CentOS 6.3下CHEF批量部署APACHE

之前的博文我介绍了如何搭建CHEF环境以及创建编写cookbook,resipes用来批量将cookbook下发到客户端执行相应的部署操作. NOW,本篇文档我们会详细介绍如何利用CHEF独有的框架语 ...

struts2 基本流程

一.配置过程 1.在web.xml中配置过滤器 <filter> <filter-name>StrutsPrepareAndExecuteFilter</filter-n ...

POJ 2318 TOYS/POJ 2398 Toy Storage

计算几何终于开坑了... 叉积+二分. #include<iostream> #include<cstdio> #include<cstring> #include ...

最长上升子序列 (LIS算法(nlong(n)))

设 A[t]表示序列中的第t个数,F[t]表示从1到t这一段中以t结尾的最长上升子序列的长度,初始时设F [t] = 0(t = 1, 2, ..., len(A)).则有动态规划方程:F[t] = ...

映像劫持技术（2）：实例

在Image File Execution Options下创建cmd.exe项,将其“重定向”到我们自己编写的程序 1 #include<stdio.h> 2 #include<w ...

Android开发实战之拥有Material Design风格的抽屉式布局

在实现开发要求中,有需要会使用抽屉式布局,类似于QQ5.0的侧滑菜单,实现的方式有很多种,可以自定义控件,也可以使用第三方开源库. 同样的谷歌也推出了自己的侧滑组件——DrawLayout,使用方式也 ...

starting an activity

开启一个activity 不像其他应用程序是在main方法中启动的,android系统启动一个activity实例是通过唤醒一个符合生命周期特定状态的回调方法来实现的.这里有一系列的回调方法去开启一个 ...

python Web开发的参考书

在网上找了一些感觉这几个还可以 Web接口开发与自动化测试--基于Python语言 Flask Web开发:基于Python的Web应用开发实战 Python高效开发实战:Django.Tornad ...

Excel之定位和查找

在数据量比较少的情况下,我们要到达Excel中某一位置时,通常会用鼠标拖动滚动条到达需要的位置,查找某已知固定的值,用Ctr+F,在查找内容中输入对应的值即可一个个的查找到其对应的位置.但当数据量较多 ...

VAIO首款Win10手机发布

各位还记得VAIO这个品牌吗?索尼公司在2014年初抛弃个人电脑业务和VAIO品牌,转让给了日本产业伙伴基金,如今新生的VAIO品牌最终迎来新机遇.据日本媒体报道,VAIO在日本正式发布新款Win10 ...

Slave延迟很大的优化方法总结（MySQL优化）

[http://www.cstor.cn/textdetail_9146.html] 一般而言,slave相对master延迟较大,其根本原因就是slave上的复制线程没办法真正做到并发.简单说,在m ...

图解HTTP读书笔记--精简版

这本书重点讲了两点,分别是 HTTP的报文格式 HTTPS比HTTP优秀在哪里接下来分部分讨论一下: 1. HTTP的报文格式请求报文格式: 请求行指明请求方法请求路径和协议如 ...

视图控制器生命周期中各个重要的方法(Swift) (Important Methods during the Lifecycle of a View Controller)

1. init(coder:) 它是视图控制器从故事板创建实例的默认初始化函数.(It is the initializer for UIViewController instances create ...

MySQL 5.6 和 MariaDB-10.0 的性能比较测试

MySQL 5.6 和 MariaDB-10.0 的性能比较测试时间 2013-02-14 10:11:34 开源中国原文 http://www.oschina.net/question/12 ...

Windows下xshell连接mac

1.安装xshell(网上自行下载) 2.打开软件,新建会话,选中[连接],协议选择[SSH],主机输入需要访问的远程mac的IP地址,输入完成之后点击确定返回到[会话]页面 3.[会话]页面点击连接 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.