SSD数据可靠性问题分析

前几个月对近两年Facebook和Google发表的两篇SSD故障分析的文章进行了阅读,并进行了整理。Google的在今年的FAST会议上发表了《Flash Reliability in Production: The Expected and the Unexpected》,在这篇文章中通过收集长达六年的数据对SSD可靠性进行了研究,并且对比了SSD与HDD之间的可靠性差别。Facebook在2015年发表了《A Large-Scale Study of Flash Memory Failures in the Field》,同样通过大数据的方式对Flash的故障进行了长时间的分析。这些研究工作实际上都在追问SSD在企业级应用的一些问题:SSD在实际的数据中心中是否可以安全部署?为了让SSD在数据中心大规模部署,我们还需要做哪些工作?

在Google的研究中对UE(Uncorrectable Error)进行了深入的研究分析。大家知道NAND Flash介质是不可靠的,经常会出现错误,用着用着就有可能遇到位错误,这是常态。尤其是15nm制程以及TLC/QLC的推广,使得NAND Flash的Bit Error问题变得更加严重。SSD一个重要的职责就是纠正这些Bit Error,让不可靠的NAND Flash变成可靠的SSD存储盘。

但是,尽管SSD内部具有强大的BCH或者LDPC编解码单元,以及RAIN等条带化数据保护机制,但是还是不可避免的发生UE这样的错误。NAND Flash发生故障,可以通过ECC、RAIN或者Firmware等手段解决,这类错误被称之为Correctable Error,属于Transparent Error的范畴,这类错误不会对应用产生影响。SSD内部机制无法解决的错误,那么这类错误将会对业务产生影响,被称之为UE,属于Non-Transparent Error范畴。对于UE故障,Google通过连续4年的数据表明,20% (20~63%)的SSD遇到会发生UE,这种UE在业务层表现为Bad Sector;和磁盘对比,在32月的时间内,3.5%的传统磁盘会遇到Bad Sector。这也就说明SSD在数据局部损坏方面会远远高于HDD,大致对比如下:

除了观察局部损坏故障之外,用户还会比较关注SSD的整盘损坏。Google的研究数据告诉我们,在4年的时间内,SSD的整盘更换率为4~10%,而传统机械磁盘的年更换率为2~9%。从这点上来看SSD的整盘故障更换率要比HDD低很多。这也表现为一旦SSD上线之后,比磁盘要具备更低的更换率,可以大大简化系统运维。

对于具体的错误类型,从上图我们可以看出,在Non-Transparent Error这块,绝大部分错误都是Uncorrectable Error,也就是读操作时发现bad sector,导致数据丢失。并且在大规模部署的情况下,这种错误导致的影响还是非常严重的。

除了分析SSD盘对外表现出来的局部以及整体故障之外,Google还对SSD数据可靠性因素进行了分析,影响SSD数据可靠性的因素大致有如下几点:

1,  SSD磨损(Wear Out)

2,  SSD技术类型(MLC、TLC)

3,  制造工艺

4,  使用时间(Age)

5,  温度

比较有意思的是,SSD的数据可靠性与使用时间相关,而不仅是使用寿命。如果一块盘在没有使用的情况下长时间存放,那么该盘的数据故障率要比一块新盘高。如下图所示:

对于一个全新的旧盘,由于长时间存放之后,SSD内部NAND Flash所产生的出错位数明显增加。这也说明SSD的数据可靠性与时间相关。此外,不同的制造工艺对SSD的数据可靠性也会产生重要影响,下图对比了不同NAND类型以及不同制造工艺情况下的数据可靠性:

总体来讲,从Google的统计数据我们可以发现SSD的故障模型和HDD相比发生了重要变化。SSD在整盘故障方面要优于HDD;但是在局部故障方面,SSD明显故障率要高于HDD。因此,在大规模部署SSD的情况下,上层的应用软件还是需要考虑SSD存储的容错机制,防止数据在SSD中丢失。由于SSD故障模型的变化,上层软件的容错机制也需要做出调整,适应SSD大量局部故障的问题。

时间: 2024-11-09 06:39:20

SSD数据可靠性问题分析的相关文章

硬RAID可以为NVMe SSD数据可靠性保驾护航吗?

随着NAND Flash价格的不断下降,NVMe SSD正在慢慢普及.NVMe SSD由于极高的性能常被用作数据缓存,即使NVMe SSD发生故障,数据还在持久化介质中存储,不会导致数据丢失等严重事件.随着NVMe SSD的大量使用,其逐渐被用作持久化存储介质,替代传统磁盘.一旦NVMe SSD被用作持久化介质,便提出了数据保护的需求.传统磁盘采用RAID或者多副本的方式实现数据保护,那么在NVMe SSD上如何进行数据保护?是否还可以采用传统的硬RAID卡为NVMe SSD提供数据保护服务?

kafka数据可靠性深度解读

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spark等都支持与Kafka集成. 1 概述 Kafka与传统消息系统相比,有以下不同: 它被设计为一个分布式系统,易于向外扩展: 它同时为发布和订阅提供高吞吐量: 它支持多订阅者,当失败时能自动平衡消费者: 它将消息持久化到磁盘,因此可用于批量消费,例如ETL以及实

OneAPM大讲堂 | 监控数据的可视化分析神器 Grafana 的告警实践

文章系国内领先的 ITOM 管理平台供应商 OneAPM 编译呈现. 概览 Grafana 是一个开源的监控数据分析和可视化套件.最常用于对基础设施和应用数据分析的时间序列数据进行可视化分析,也可以用于其他需要数据可视化分析的领域.Grafana 可以帮助你查询.可视化.告警.分析你所在意的指标和数据.可以与整个团队共享,有助于培养团队的数据驱动文化. Grafana 有强大的社区支持,有丰富的模板插件,足够满足需要的功能特性.几乎可以集成任何数据源.监控工具和告警平台.可谓是不可多得的神器.也

大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型

一.项目开发流程1.1.项目调研1.2.项目需求分析1.3.方案设计1.3.1.概要设计1.3.2.详细设计1.4.编码实现1.4.1.单元测试1.4.2.集成测试1.4.3.压力测试1.4.4.用户测试二.大数据常用应用2.1.数据出售2.2.数据分析2.2.1.百度统计2.2.2.友盟2.2.3.其他统计分析组织2.3.搜索引擎2.3.1.solr2.3.2.luence2.3.3.luence & solr 对比2.4.推荐系统(高数)2.4.1.技术2.4.2.算法2.5.精准营销2.5

面向数据可靠性存储系统设计思想探讨

存储系统的设计门槛是比较高的,和计算系统存在的最大区别在于存储系统所承载的是数据,一旦系统出现故障,不仅业务的连续性得不到保障,更为重要的是用户数据将会造成丢失.计算节点发生故障,最多造成业务连续性中断,这是与存储系统相比在可靠性要求方面最大的区别. 十几年前刚刚接触存储系统的研发,当时没有觉得存储有多复杂,不就是把数据按照一定规则存放在磁盘中,并且实现一定的功能,例如数据保护RAID.数据复制Replication.数据快照Snapshot以及文件系统嘛.感觉存储系统中最复杂的是各种功能,设计

【数据分析 R语言实战】学习笔记 第五章 数据的描述性分析(上)

5.1R内置的分布 分布是描述一个样本数据最核心.最重要的方式.R内嵌了很多常用的统计分布,提供了四类函数:概率密度函数(density),累积分布函数(probability).分位数(quantile)和伪随机数(random).在R中分别用d,p,q,r表示这4个项目,后面接分布的英文名称或缩写. 5.2集中趋势的分析 5.2.1集中趋势的测度 描述统计分布集中趋势的指标主要是平均数.中位数.众数,也称为“平均指标”.这些指标的主要作用包括: 反映总体各单位变量分布的集中趋势和一般水平;

Storm的数据可靠性(理论)

Storm的数据可靠性(理论) .note-content {font-family: "Helvetica Neue",Arial,"Hiragino Sans GB","STHeiti","Microsoft YaHei","WenQuanYi Micro Hei",SimSun,Song,sans-serif;} .note-content h2 {line-height: 1.6; color: #

消费大数据公司“重分析-强应用”引领企业大数据营销

近日,消费大数据公司信柏科技树立"大数据-重分析-强应用"理念发布新一代大数据业务平台,以大数据为基础.软硬件结合的方案来辅助企业进行经营决策与精准营销.该大数据业务平台定位于"人群 ."内容"."行业 "与"地域"精准分析与挖掘,覆盖到企业营销中较为关注的用户特征画像.精准人群标定.定向数据采集内容监听 .采集内容的关联分析.行业报告与市场动态.竞品分析.新店开张选址报告.指定地区常驻人群特征分析等业务,致力于成为

单域MPLS vpn数据转发实验分析

MPLS VPN数据详细转发流程示意图: 配置思路: 在自治系统AS100中配置IGP,使得两台PE路由器的lo 0接口路由可达: 两台PE路由器路由可达后,在两台PE路由器之间建立MP-iBGP邻居关系,用来传输VPNV4路由: AS100中所有P路由器和PE路由器运行MPLS,并使用LDP来给非BGP路由分发标签: 在PE路由器和CE路由器之间运行ospf路由协议,使得PE路由器的VRF路由表可以学习到CE路由器的路由: 将PE路由器VRF学习到的路由重分发进BGP,使得对端PE路由器可以通