[转帖]分层存储超详细解读,为什么大数据时代它已不可或缺

分层存储超详细解读,为什么大数据时代它已不可或缺

http://www.itpub.net/2019/10/16/3467/

如今,分层存储已成为了一种常见的存储方法,它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是第2层、第3层等等。

0层或1层通常是由闪存或基于3D Xpoint技术的固态硬盘(SSD)组成,以此往下的存储层可能涉及高性能光纤通道或SAS驱动器(或RAID阵列),较低性能的SATA驱动器、光盘、磁带存储系统和基于云的近线(nearline)或离线存储系统。

在SSD和云存储普及之前,使用磁盘和磁带来提供第1层、第2层和第3层存储的3层存储模型可能是最流行的分层存储模型。

但是现在使用包含5个或更多级别的分层存储模型也并不少见了。每一个层都有细微的差别,从而产生三个关键存储属性的不同组合:成本、性能和容量。

分层存储的目标

如果费用不成问题,企业就可以使用SSD满足所有存储需求,因为它们提供了非常高的性能和可靠性。

但是在现实中,存储成本是非常重要的,因为IT部门需要保证在预算范围内运行,而组织作为一个整体必然要寻求最小化成本和最大化效率。不幸的是,与硬盘驱动器相比,SSD存储更贵,而且比磁带存储贵得多。

这代表我们需要明智地使用SSD,并且只用于存储需要高性能系统使用的数据。不太重要的数据可以存储在更低的成本、更低的性能系统(如HDD)上,很少访问或仅为合规性目的保留的数据可以转移到成本非常低的离线存储系统

因此,分层存储并不是由IT部门的运营需求驱动的,而纯粹是出于财务原因。分层存储系统的目标是通过使用提供最低性能要求的最便宜的存储来最小化存储成本。

分层存储是如何工作的?

只有两个存储层的分层存储系统为存储管理员提供了一个非常有限的选择,即给定数据应该存储在什么地方。如果第2层可以提供这些数据所需要的存储性能,那么可以将其存储在第2层,如果没有,就将其存储在更昂贵的第1层。

分级存储系统有三个层可能会更有效率,因为相同的数据可以存储在第3层如果性能水平足够的话,如果不是那么它可以存储在第2层,再然后是更昂贵的第1层,也就是说有了更多的选择。

实际上,可用的存储层越多,数据块就可以更有效地存储在满足其性能需求的适当存储层中,而不是以不必要的高成本提供不必要的高性能。可以使用诸如创建RAID阵列的技术,用一组不同类型的存储媒介创建新的层。

分层存储系统面临的最大挑战是将数据分类为多个类,这需要确定哪个存储层最适合给定的数据类型,并在数据老化时定期对数据进行重新分类。

这里的关键是,任何给定的数据存储需求可能随时间变化,因此数据存储在分层存储系统中时,数据必须被长期监控,一旦它不再需要当前的高性能,就可以转移到较低成本的存储层。

典型的分层存储数据类型包括:

关键业务数据。这类数据总是需要存储在最高层的存储中,因为它需要支持高速应用程序——可能支持客户事务。访问数据的延迟可能会导致组织失去某些业务,或对盈利能力产生负面影响。对于此类数据来说,性能是最重要的。

热数据。这类数据需要较高级别的分层存储,因为它经常用于CRM、ERP甚至电子邮件等应用,并且需要用于企业的日常运行。在此类存储层中,性能很重要,但是成本也是一个考虑因素。

温数据。此类包括较早的数据,如超过几天的电子邮件或已完成事务的数据。这类数据的访问频率相对较低,但仍然要保证在需要时可以访问。在这个存储层中,最重要的考虑因素是成本,但是受制于最低的性能阈值。

冷数据。这类数据可能永远不会再被访问,但需要将其存档并保留,以符合监管或其他法律要求,或者只是因为它可能在未来某个不确定的时间具有某种价值——可能用于大数据分析。理想情况下,冷数据适合于可接受分钟或小时访问时间的最低层次的分层存储,而低成本是最重要的考虑因素。

显然,手动的存储分层方法可能过于耗时和繁琐,难以成功。因此,大多数分层存储系统依赖于使用层管理系统的自动分层,层管理系统在整个生命周期中监视数据,并在数据冷却时自动将其向下移动。

此软件可能与单个存储系统一起提供并在其上运行,也可能是一个独立的解决方案,它可以直接跨组织的存储基础设施工作,在某些情况下还可以通过云存储网关进入云。

分层存储等级

在一些已经使用存储分层一段时间的组织中,可能会将新的、比现有的第1层更快的存储层视为第0层。但就本文而言,第1层被假定为性能最高的存储层。

第1层

此存储层用于存储高度易失性和时间敏感的数据,这些数据需要在尽可能短的时间内可用。通常用于金融交易环境或其他业务领域,在这些领域中,可能在几分之一秒内生成或丢失比存储成本大得多的资金,存储速度需要尽可能快。因此,不管总体存储效率如何,通常都需要为实现最高性能配置非常快的固态存储介质来搭建第1层存储。

第2层

此存储层用于存储事务性数据,以支持高性能应用程序、面向客户的系统(如零售应用程序)和其他系统,在这些系统中,只能接受极短的延迟。由于所需的性能级别不像1层那么高,因此通常使用更低的成本和更高效的固态存储系统来提供2层存储解决方案。

第3层

第3层用于存储“热”数据,如CRM和ERP数据,甚至是最近的电子邮件,这些数据需要频繁访问,不能出现不必要的延迟。这意味着它需要存储在如中到高性能硬盘驱动器的介质上,与固态存储介质相比,这些介质的成本相对较低。在许多组织中,第3层的数据要比第2层或第1层的数据多得多,所以高容量的硬盘驱动器提供了一个理想的解决方案,它提供了低成本的每GB存储空间。

第4层

这个存储层用于“温”数据,比如最近完成的事务的数据、几天前的电子邮件以及其他不经常访问的数据。它还可以用来存储可能用于业务信息和数据可视化系统的数据,或者用于创建月度、季度或年度报告所需的财务数据。但是无论何时需要,都需要相对快速的访问。第4层存储需求可能非常大,由于成本是主要考虑因素,因此第4层存储的典型解决方案是大容量硬盘驱动器存储。与配置用于性能需求的高性能SAS磁盘或RAID阵列不同,第4层存储更可能使用低成本、相对低性能的SATA驱动器。

第5层

最低的存储层通常用于存档可能永远不会再次访问的“冷”数据,但仍然有一些价值(可能将来用于数据挖掘),因此值得保留。它还用于存储必须为合规性目的而保留的数据,这些数据只需要在几天或几周内访问,而不需要在几分钟或几秒内访问。

光介质或磁带存储系统通常用于这一存储层,它们的存储成本很低,但性能很差。在过去的几年里,基于云的存储已经成为常见的选择,企业可以将大量的数据以低成本的方式存储,或者在需要的时候在几小时内相对容易地获取数据。

分层存储的主要优势

分层存储带来了许多好处,其中最重要的是:

  ·降低存储成本:通过将每个数据类存储在成本最低的存储系统上,并提供其所需的最低性能,企业可以避免为不需要的高性能买单。存储成本的降低是采用分层存储系统的主要原因。

  ·更高的存储效率:依赖RAID阵列的存储系统的效率很低,因为可以存储在这些系统上的数据量比提供的总存储容量要少——甚至在某些情况下要少得多。由于分层存储系统可以缓解RAID的需求(通过将不需要如此高性能的数据转移到较低的存储层),因此存储效率将会提高。

  ·能够重用旧的存储设备: 分层存储可以为旧的存储系统带来新的生命,它们可以用于较低的存储层,否则这些系统可能会因为无法为上层数据提供足够的性能而被废弃。

原文地址:https://www.cnblogs.com/jinanxiaolaohu/p/11692124.html

时间: 2024-09-28 23:07:24

[转帖]分层存储超详细解读,为什么大数据时代它已不可或缺的相关文章

柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍

柯南君上一章<柯南君:看大数据时代下的IT架构(1)业界消息队列对比 >中,粗略的讲了一下,目前消息队列的几种常见产品的优劣对比,接下来的几章节会分别详细阐述,本章介绍RabbitMQ,好吧,废话少说,正式开始: 一.基础概念详细介绍 1.引言 你是否遇到过两个(多个)系统间需要通过定时任务来同步某些数据?你是否在为异构系统的不同进程间相互调用.通讯的问题而苦恼.挣扎?如果是,那么恭喜你,消息服务让你可以很轻松地解决这些问题. 消息服务擅长于解决多系统.异构系统间的数据交换(消息通知/通讯)问

大数据时代的数据存储,非关系型数据库MongoDB

在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQL(非关系型数据库). 为什

CSDN专访:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据.商业存储.Spark等给大家分享了自己的看法. 谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就

大数据时代的数据存储,非关系型数据库MongoDB(一)

爆炸式发展的NoSQL技术 在过去的很长一段时间中,关系型数据库(Relational Database Management System)一直是最主流的数据库解决方案,他运用真实世界中事物与关系来解释数据库中抽象的数据架构.然而,在信息技术爆炸式发展的今天,大数据已经成为了继云计算,物联网后新的技术革命,关系型数据库在处理大数据量时已经开始吃力,开发者只能通过不断地优化数据库来解决数据量的问题,但优化毕竟不是一个长期方案,所以人们提出了一种新的数据库解决方案来迎接大数据时代的到来——NoSQ

大数据时代,市场对企业级云存储的需求更加迫切

随着移动互联网的迅速发展,智能终端.可穿戴设备.智能家居.物联网以及基因测序正在快速普及.企业和用户每天接触的数据吞吐量呈现出指数级的增长趋势,我国社会正在步入大数据爆炸的时代. 大数据时代降临的今天,个人云存储服务早已迈向免费时代,而中国各行各业的互联网化与现实世界数据化的趋势,计算和应用都更加需要集中化,使得市场对企业级别云存储的需求更加迫切. 企业级数据的大爆发 IBM商业研究院与牛津大学的合作调研研究报告称,整个人类文明所获得的全部数据中,有 90%是过去两年内产生的.而到了 2020

MemCache超详细解读

MemCache是什么 MemCache是一个自由.源码开放.高性能.分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高了网站访问的速度.MemCaChe是一个存储键值对的HashMap,在内存中对任意的数据(比如字符串.对象等)所使用的key-value存储,数据可以来自数据库调用.API调用,或者页面渲染的结果.MemCache设计理念就是小而强大,它简单的设计促进了快速部署.易于开发并解决面对大规模的数据缓存的

大数据时代的结构化存储—HBase在阿里的应用实践

摘要: # 前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅. 前言时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台.这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝

大数据时代的 9 大Key-Value存储数据库

在过去的十年中,计算世界已经改变.现在不仅在大公司,甚至一些小公司也积累了TB量级的数据.各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限. 一个解决方案是使用键值(Key-Value)存储数据库,这是一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织.索引和存储.KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能. 本文就为你介绍9种用于大数据处理的免费键值存储数据库.

(转)[转]大数据时代的 9 大Key-Value存储数据库

在过去的十年中,计算世界已经改变.现在不仅在大公司,甚至一些小公司也积累了TB量级的数据.各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限. 一个解决方案是使用键值(Key-Value)存储数据库,这是一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织.索引和存储.KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能. 本文就为你介绍9种用于大数据处理的免费键值存储数据库.