何时使用重复数据删除技术?

大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术。

只有备份还不够。重复数据删除与压缩即将成为主存储的必备功能。

重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针,来最小化数据量。这个指针通过给定大小的数据模式进行哈希创建。

也许在于你已经在备份系统上实施了重复数据删除备份和归档多年,问题在于:是否需要在主存储上运用重复数据删除与压缩技术?

并非所有的重复数据删除技术都一样。IT专业人士在将其添加到主存储环境之前,应该权衡其各自的特点。

何时使用重复数据删除

重复数据删除首先开始于创建数据。接着是所有其他业务——备份、复制、归档以及任何网络传输——都可以受益于规模缩小后的数据,位于Hopkinton, Mass的大容量存储咨询服务公司Taneja Group创始人Arun Taneja说。

“几年前,我写道,自己知道为什么重复数据删除技术通常被应用于备份设备上。但是,如果没有限制,重复数据删除应该在数据被创建时进行,而且数据在整个生命周期内,应该以某种脱水格式存储,” Taneja说。唯一的例外应该是当用户或应用程序需要访问这些数据时。

但把重复数据删除应用在主数据这一场景很难被用户接收,因为这样做是在篡改主数据集,Storage Switzerland LLC存储顾问公司的首席分析师George Crump说。“做好备份,就算没有重复数据删除技术,也不会因为搞砸生产环境的数据而出大乱子,”他说,“但是如果动到主存储,问题就很大了,而且需要了解这项技术会如何影响性能、可靠性与数据完整性。”

目前只有少数主存储阵列提供重复数据删除作为产品的附加功能。只有不到5%的磁盘阵列真正支持在线重复数据删除与压缩,Permabit公司的CEO Tom Cook说。该公司是一家数据效率技术供应商。不过,这个数字在未来的18个月内将可能增长到25%,并且在36个月后达到75%,Cook说。

重复数据删除的比例

通过数据去重节约的空间十分可观,这取决于数据类型以及所使用的数据去重引擎的组块大小。以文本文件与虚拟桌面架构环境为例,受益于高删除率,压缩比可达到40:1。而视频可以压缩的,但没法去重。存储厂商认为6:1是重复数据删除率的最佳平均值。加上相同的块压缩,数据中心可以通过这些技术轻松实现10:1的存储空间节约。

这些技术能够节约空间,十分具有,但重复数据删除属于计算密集型技术。在相对不重要的二级存储中,一般不会出现问题,但可能给主存储环境出现短暂拥塞现象,Gartner的副总监兼著名存储技术与战略分析师Dave Russell说。

“真正令人当心的是,应用程序可能在写入存储甚至在读取时被卡住,” Russell说。“如果主存储阵列的性能是一个瓶颈,那么就必须采取后处理方式”,在数据已经被写入存储后才开始压缩。

重复数据删除不仅可以在实时删除重复数据,还可以让供应商通过算法最大化潜在的数据压缩率。以Quantum的DXi系列备份设备为例,使用可改变块大小的重复数据删除算法,该算法是固定块大小方法效率的三倍以上,Quantum的数据中心高级产品营销经理Casey Burns说。交流QQ:2881064157

时间: 2024-12-27 21:58:16

何时使用重复数据删除技术?的相关文章

Hyper-v Server重复数据删除技术

Hyper-v Server重复数据删除技术 老衲听说windows Server 2012中新增了一项技术叫做重复数据删除,据说这个重复数据删除可以大大的节省磁盘的空间,下面我们来看看什么是重复数据删除: 重复数据删除指的是在数据中查找和删除重复内容,而不会影响其保真度或完整性.其目标是通过将文件分割成大小可以改变 (32-128 KB) 的小区块.确定重复的区块,然后为每个区块保留一个副本,从而在更小的空间中存储更多的数据.区块的冗余副本由对单个副本的引用所取代.区块会进行压缩,然后以特殊的

重复数据删除(De-duplication)技术研究(SourceForge上发布dedup util)

dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间.目前已经在Sourceforge上创建项目,并且源码正在不断更新中.该工具生成的数据包内部数据部局(layout)如下: --------------------------------------------------| header | unique block data | file metadata |--------------------------------

1.6.6 De-Duplication(重复数据删除)

1. 重复数据删除 solr通过<Signature>类的类型来支持重复数据删除技术的.一个Signature可以通过以下几种方式实现:  方法 描述  MD5Signature  128位hash用于副本探测解析.  Lookup3Signature  64位hash用于副本探测解析.比MD5更快,索引更小.  TextProfileSignature  从Nutch中的模糊散列实现的近重复检测.它是可以调节的,对于长文本字段处理具有较好的效果. 注意: 添加副本处理将改变allowDups

重复数据删除 开源实现 (deduputil) (转)

[dedup util] dedup util是一款开源的轻量级文件打包工具,它基于块级的重复数据删除技术,可以有效缩减数据容量,节省用户存储空间.目前已经在Sourceforge上创建项目,并且源码正在不断更新中.该工具生成的数据包内部数据部局(layout)如下: --------------------------------------------------|  header  |  unique block data |  file metadata |---------------

重复数据删除(dedup)技术介绍 1

重复数据删除(de-duplication)是存储领域,尤其是数据备份领域的一个非常重要的概念.其目的是删除重复的数据块,从而减少对存储空间的使用. 这种想法的出发点是非常自然的.通常情况下,每次备份的数据总是会有一部分跟上一次备份的数据重合. 比如,每次备份都要包含一个100MB的文件,那么这个文件就会重复出现在所有的备份数据中. 经过多次备份操作之后,重复的数据块就会占用可观的存储空间,而实际上,这些重复的数据块保留一份就足够了. dedup就是为了解决这种问题而产生的. dedup和数据压

Windows 8.1 重复数据删除——概念(一)

功能描述 重复数据删除指的是在数据中查找和删除重复内容,而不会影响其保真度或完整性.其目标是通过将文件分割成大小可以改变 (32-128 KB) 的小区块.确定重复的区块,然后为每个区块保留一个副本,从而在更小的空间中存储更多的数据.区块的冗余副本由对单个副本的引用所取代.区块会进行压缩,然后以特殊的容器文件形式组织到 System Volume Information 文件夹中. 针对卷启用了重复数据删除而且对数据进行优化之后,卷中会包含以下内容: 未优化的文件:例如,未优化的文件可以包括:无

Windows Server 2012重复数据删除增强

容量优化. Windows Server 2012 中的重复数据删除可在更小的物理空间中存储更多数据.与使用单实例存储 (SIS) 或新技术文件系统 (NTFS) 压缩的之前版本相比,它实现了更高的存储效率.重复数据删除使用子文件可变大小分块和压缩,常规文件服务器的优化率为 2:1,而虚拟数据的优化率最高可达 20:1. 伸缩性和性能. Windows Server 2012 重复数据删除具有高度的可伸缩性,能够有效利用资源,并且不会产生干扰.它可以同时对多个大容量主数据运行,而不会影响服务器上

Windows Server 2012R2之重复数据删除实战

Windows 8.1重复数据删除理论与windows server 2012R2重复数据删除理论相似,相关理论信息请参考: Windows 8.1 重复数据删除--概念(一)and Windows 8.1 重复数据删除--规划部署(二) 相关理论信息不再赘诉,具体请参考相应官网信息.需提前申明,如系统奔溃或磁盘更换等因素导致数据不完整情况请重新开启对应操作系统上重复数据删除功能以保证数据的完整与可用性(注:Windows 7上暂时还未在官网收到支持相关信息).启用及配置步骤如下: 一.启用wi

Windows 8.1 重复数据删除——规划部署(二)

一.规划部署目标   Windows 8.1&Server 2012 的重复数据删除设计为安装到主要数据卷上,而无需添加任何附加的专用硬件.这意味着你可以安装和使用该功能,而不会影响服务器上的主要工作负载.默认设置为非侵入性的,因为它们允许在处理特定文件之前数据"存留时间"达到五天,默认的最小文件大小为 32 KB.该实现是为低内存和 CPU 利用率而设计的.如果内存利用率变高,则重复数据删除功能将等待可用的资源.管理员可以根据所涉及数据的类型以及该卷或特定文件类型的更改频率和