ceph集群osd存储盘Input/output erro

描述:

ceph集群osd硬盘损坏引起的写入错误。

日志信息:

2017-12-13 03:40:38.596764 7f5e32df2700 -1 filestore(/var/lib/ceph/osd/ceph-44) FileStore::_do_copy_range: write error at 1118208~-5, (5) Input/output error

os/filestore/FileStore.cc: In function 'int FileStore::_do_copy_range(int, int, uint64_t, uint64_t, uint64_t, bool)' thread 7f5e32df2700 time 2017-12-13 03:40:38.596798

os/filestore/FileStore.cc: 3628: FAILED assert(pos == end)

ceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185)

1: (ceph::__ceph_assert_fail(char const*, char const*, int, char const*)+0x8b) [0x562d99d0e6db]

2: (FileStore::_do_copy_range(int, int, unsigned long, unsigned long, unsigned long, bool)+0x18ec) [0x562d999ca53c]

3: (GenericFileStoreBackend::clone_range(int, int, unsigned long, unsigned long, unsigned long)+0x7b) [0x562d99a17b0b]

4: (FileStore::_do_clone_range(int, int, unsigned long, unsigned long, unsigned long)+0x80) [0x562d999c8a50]

5: (FileStore::_clone_range(coll_t const&, ghobject_t const&, ghobject_t const&, unsigned long, unsigned long, unsigned long, SequencerPosition const&)+0x1a1) [0x562d999f99c1]

6: (FileStore::_do_transaction(ObjectStore::Transaction&, unsigned long, int, ThreadPool::TPHandle*)+0x42ca) [0x562d99a0411a]

7: (FileStore::_do_transactions(std::vector<ObjectStore::Transaction, std::allocator<ObjectStore::Transaction> >&, unsigned long, ThreadPool::TPHandle*)+0x3b) [0x562d99a06a8b]

8: (FileStore::_do_op(FileStore::OpSequencer*, ThreadPool::TPHandle&)+0x2b5) [0x562d99a06d75]

9: (ThreadPool::worker(ThreadPool::WorkThread*)+0xa6e) [0x562d99cffabe]

10: (ThreadPool::WorkThread::entry()+0x10) [0x562d99d009a0]

11: (()+0x8184) [0x7f5e4dbbb184]

12: (clone()+0x6d) [0x7f5e4bce4ffd]

NOTE: a copy of the executable, or `objdump -rdS <executable>` is needed to interpret this.

dmesg查看信息:

[ 8674.029792] sd 0:0:2:0: [sdc] tag#21 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

[ 8674.029800] sd 0:0:2:0: [sdc] tag#21 Sense Key : Medium Error [current]

[ 8674.029802] sd 0:0:2:0: [sdc] tag#21 Add. Sense: Unrecovered read error

[ 8674.029804] sd 0:0:2:0: [sdc] tag#21 CDB: Read(16) 88 00 00 00 00 00 02 8c 49 a8 00 00 01 00 00 00

[ 8674.029806] blk_update_request: critical medium error, dev sdc, sector 42748543

解决:

判断为ceph集群osd的硬盘损坏导致,建议更换该osd存储硬盘。

时间: 2024-11-06 03:37:51

ceph集群osd存储盘Input/output erro的相关文章

ceph集群osd故障修复实例演示

集群安装方式:1: ceph-deploy 方式安装ceph集群,模拟osd磁盘损坏: 分别采用如下两种方式修复: 1:使用ceph-deploy 方式修复故障osd: 2:手动修复故障osd: #######使用ceph-deploy方式修复过程演示######## 1:停止osd/etc/init.d/ceph stop osd.3 2:查看osd磁盘挂载情况:[[email protected] ceph]# lsblk NAME   MAJ:MIN RM  SIZE RO TYPE MO

【ceph故障排查】ceph集群添加了一个osd之后,该osd的状态始终为down

背景 ceph集群添加了一个osd之后,该osd的状态始终为down. 错误提示 状态查看如下 1.查看osd tree [[email protected] Asia]# ceph osd tree ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY -1 0.05388 root default -2 0.01469 host node1 0 0.00490 osd.0 up 1.00000 1.00000 1 0.00490 osd.

使用telegraf+influxdb+grafana监控ceph集群

telegraf是一个收集监控项的agent,有支持收集多种数据的插件比如ceph,apache,docker,haproxy,system等,同时有支持多种输出的插件比如influxdb,graphite等. influxdb是时序数据库,多用于监控场景 grafana是很棒的绘图工具 这三者的结合有三个主要过程: 1.安装在ceph集群所有节点(包括mon和osd节点)上的telegraf通过ceph_input插件收集ceph集群信息,这里踩了两个坑,ceph_input插件报了两个错,一

ceph集群常用命令

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项简写描述 --verbose-v详细的日志. --valgrindN/A(只适合开发者和质检人员)用 Valgrind 调试. --allhosts-a在 ceph.conf 里配置的所有主机上执行,否 则它只在本机执行. --restartN/A核心转储

Centos7-单台物理机搭建ceph集群

学习ceph时,看到crush规则的时候,crush策略最小为osd,但是这个osd定义的是真实的osd还是指单块磁盘?为了验证一下,自己用测试机模拟了一下单台机器使用一块磁盘搭建ceph. 配置ceph源,这里使用的阿里云的源 # yum install --nogpgcheck -y epel-release # rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7 # vim /etc/yum.repos.d/ceph.repo [Ceph] n

centos7部署ceph集群(正确)

环境介绍 主机名 系统 ip地址 ceph版本 ceph-node1 CentOS Linux release 7.2.1511 192.168.1.120 jewel ceph-node2 CentOS Linux release 7.2.1511 192.168.1.121 jewel ceph-node3 CentOS Linux release 7.2.1511 192.168.1.128 jewel 准备工作 ◆ 1-7在三台ceph节点上都需要进行操作 ◆ 8只在ceph1操作即可

Ubuntu 14.04 部署 CEPH集群

注:下文的所有操作都在admin节点进行 1.准备三台虚拟机,其中一台作为admin节点,另外两台作为osd节点,并相应地用hostname命令将主机名修改为admin,osd0,osd1,最后修改/etc/hosts文件如下所示 127.0.0.1 localhost 10.10.102.85 admin 10.10.102.86 osd0 10.10.102.87 osd1 2.配置免密码访问 ssh-keygen //一直按回车即可,产生公钥私钥对 ssh-copy-id -i /root

ceph集群常用命令梳理

结合网络.官网.手动查询等多方渠道,整理ceph维护管理常用命令,并且梳理常规命令在使用过程中的逻辑顺序.另外整理期间发现ceph 集群的命令体系有点乱,详细情况各自体验. 一:ceph集群启动.重启.停止 1:ceph 命令的选项如下: 选项 简写 描述 --verbose -v 详细的日志. --valgrind N/A (只适合开发者和质检人员)用 Valgrind 调试. --allhosts -a 在 ceph.conf 里配置的所有主机上执行,否 则它只在本机执行. --restar

Openstack之Ceph集群操作

Oepnstack之CEPH系列是根据Ceph Cookbook整理的笔记,分为以下几个部分: 1. <Ceph简介> 2. <Ceph集群操作> 3. <Ceph块设备管理与Openstack配置> 4. <深入Ceph> 5. <ceph优化与性能测试> **注意:此文对应ceph版本为10.1.2** ~~~bash #ceph -v ceph version 10.1.2(4a2a6f72640d6b74a3bbd92798bb913ed