论文学习 - 《面向海量存储系统的分层存储技术研究》

摘要

  随着现代社会信息量的迅速增大,一方面需要有超大容量的海量存储系统来存储这些数据,另一方面在该海量存储系统中,被经常访问到的只有其中一小部分。这样的事实驱动我们对海量数据采取分层存储管理的方式。

  分层存储的主要思想是将活跃数据文件存放在高性能存储设备上,而将不活跃数据文件存放到速度慢但廉价且容量大的存储设备中。

  目前的分层存储技术存在着以下的问题:

    1. 典型的文件价值判定方法仅仅考虑数据本身的固有属性和历史访问频率,没有考虑文件的访问模式,也没有分析将文件存放在存储系统的哪个层次来加快存储系统的访问速度。

    2. 文件的活跃度也是经常随着业务的变化而动态的变化,所以也亟待提出更好的动态迁移策略。

  针对以上的问题,本文做出了以下研究工作成果:

    1. 分析研究了海量存储系统中文件访问模式和不同存储设备性能差异,提出了自动分层存储系统(ATSS)。

    2. 提出了一种基于访问模式与存储性能相匹配的文件价值判定方法(FVPSP)。

    3. 针对文件活跃程度不断变化的存储系统,提出了一种基于文件活跃度自适应调整时间间隔的动态迁移策略,该策略减少了迁移过程中迁移模块对正常业务的影响。

第一章 绪论

  课题背景

    Jim Gray提出,网络环境下每18个月产生的数据量等于有史以来产生的数据量之和。

    然而数据虽然增长迅速,但很多数据在创建以后的一段时间后就基本不会再次访问,因此,越来越多机构开始认识到分层存储的重要性。

    数据应当也有其生存周期,且不同周期具有不同的价值。

    目前,存储技术的分层主要分为:内存,固态硬盘,硬盘,磁带:

    

  论文的主要研究内容和意义

    本论文主要研究分层存储系统中的数据估值和数据迁移策略。

    数据估值是对不同数据的价值进行评定,然后在数据迁移阶段,根据数据间价值的相对大小,迁移到不同的设备中去。

    数据迁移是解决如何迁移这个问题 - 何时迁移,迁移路径,迁移数量 ...... 既要考虑到迁移的效果,又要考虑到迁移对现有业务的影响。

第二章 自动分层存储系统结构

  基本思想:

    1. 信息生命周期管理ILM - 信息在他们生命周期不同阶段有不同价值。

    2. 分层存储管理HSM - 信息根据其价值分配到不同的存储器中

  特点:基于文件,更多的可测量指标,更灵活的迁移力度。

  模块分析:

    1. 元数据管理模块

    管理模块保留文件的属性,文件位置以及历史访问信息。每次外部读写请求都需要更新元数据信息。

    2. 文件价值判定模块

    在每次执行文件迁移之前对数据进行估值。

    3. 迁移控制模块

    该模块与上一模块紧密结合,接收其文件估值结果并制定文件迁移表。

    4. 访问重定向模块

    提供一个虚拟层,让上层接口无需关心文件所处的存储器所在的位置。

    5. 文件系统监视模块

    搜集存储系统的性能信息,该部分也是模块3 - 迁移控制模块的重要依据。

    6. 迁移模块

    从迁移计划表里取出迁移任务,对文件在不同的层次上进行迁移。

第三章 访问模式与存储性能相匹配的文件价值判定法

  数据的生命周期:

    1. 数据创建阶段:由用户创建数据信息,在本地存储或云存储分配初始空间。

    2. 数据保护阶段:如HDFS会创建三个副本的数据保护。

    3. 数据访问阶段:对存储系统来说,这个阶段具有最高使用价值。

    4. 数据迁移阶段:将访问不活跃的数据转移。

    5. 数据归档阶段:将长期没有访问的数据存入磁盘。

    6. 数据回收阶段:许多数据在长时间后发现其没有保存价值了,可将其回收。

  文件价值判定函数

    Fvalue(i,k)= ρ(i,k)× Fs(i)+ Fr(i)(Fsize(i)+ γ)α

    ρ(i,k)=Fs(i) ×[Ts(k+1)−Ts(k)]+ Fr(i)× [Tr(k+1)−Tr(k)]

    Fs(i)=ΣFst(i)×δx−tx−1t=1, δ ∈(0,1)

    Fr(i)=ΣFrt(i)×δx−tx−1t=1, δ ∈(0,1)

    参数说明:

    Fs(i) - 顺序访问系数

    Fr(i) - 随机访问系数

    Fsize(i) - 编号为 i 的文件大小

    γ - 最小文件大小

    α - 文件大小权重

  文件放置计划

    采用贪婪策略即可

第四章 基于文件活跃度的动态迁移算法

  迁移策略的研究方向:

    1. 提高存储设备的性能

    2. 合理的迁移时间间隔

    3. 最小化迁移代价

  算法内容:

    1. 容量双阈值迁移条件

      存储器容量大于最大容量阈值或者小于最低容量阈值的时候,执行迁移。

    2. 基于文件活跃度自适应调整时间间隔

      ·定义文件系统活跃因子来衡量文件系统的活跃度。

      文件活跃度因子A(x)和迁移时间间隔的期望值可以表示如下:

      A(x)= U(x)/(H(x)+1)

      M(x)=max{ Mmax−b×A(x),Mmin}

      参数说明:

      

    3. 合适的迁移速率

      不能迁移过快,以免影响现有业务的执行。

      采用以下公式计算

      F(X)=S/T*X

      L(X)=(P(X)−F(X))/S*T

      参数说明:

        F(X):X时刻应当迁移的文件的大小

        S:要迁移的总文件大小

        T:迁移时间窗口(迁移时间长度)

全局算法流程图

  

  

    

    

时间: 2024-10-05 10:12:08

论文学习 - 《面向海量存储系统的分层存储技术研究》的相关文章

存储技术研究与学习资料思维导图

最近迪迪老师给推荐了一个不错的思维导图工具--Mind42,对于梳理知识很有帮助,于是索性将存储技术研究与学习的一些资料进行了整理,导出图如下所示,更具体的内容可以通过猛击"点我"访问. 存储技术研究与学习资料思维导图,布布扣,bubuko.com

Redis学习之海量小数据的存储详解

最近有个需求,需要存储海量小数据,大概几十亿的规模,每个数据是6位的数字加一个32位的md5(16进制显示).因为数据很小,数据总量并不算大,我们计划根据md5做分片,存储到多个redis中,每个redis大概存储1亿的数据,纯数据大概 (6+32)*10^9 = 3.8G ,这是redis数据库很擅长存的量. 1 快速加载数据到redis redis已经非常快了,高达 10w/s ,但面对亿级别的数据,也需要将近20分钟.如果使用pipeline的话,redis还可以更快,达到 40w/s ,

论文学习 - 《Hadoop平台下的海量数据存储技术研究》

摘要 研究背景: 1. 互联网的图片数据急剧膨胀 2. Hadoop平台下的Hdfs分布式文件系统能够很好的处理海量数据 研究内容: 1. Hadoop平台工作原理 2. Hadoop平台下图片存储系统的设计与实现 3. Hadoop平台与Web的整合 创新点: 1. 通过Web方式来访问Hdfs 2. 存储性能测试自动化 第一章 绪论 Pass 第二章 Hadoop工作原理 本章可以参考对照Hadoop相关手册,不在此纠结. 第三章 Hadoop图片存储系统设计 模块划分: 1. 普通用户模块

WPF学习笔记 - .Net Framework的分离存储技术

写入: protected override void OnClosed(EventArgs e) { base.OnClosed(e); IsolatedStorageFile f = IsolatedStorageFile.GetUserStoreForAssembly(); using(IsolatedStorageFileStream stream = new IsolatedStorageFileStream("myFile", FileMode.Create, f)) us

3分钟了解时下热门存储技术

1 对象存储 对象存储拥有丰富的元数据功能,并且随着越来越多的应用往云上迁移,因此对象存储将会成为主流的存储系统. 对象存储优势 对象存储的本质是无状态(stateless)的,因此是移动和云访问的理想选择.对象存储也使得数据湖上的应用和分析可以在一个一致的数据源上工作,而不是在数据不一致的孤岛上. 2 持久性内存 传统意义上,内存技术(如RAM)和存储技术是两回事,但近年来,两者的界限越来越模糊.巨量数据库和数据集现在可以存放在内存中,这有助于更快速地访问.而在存储方面,由于SSD的发展提高了

大数据重点研究:海量存储技术,企业如何选择海量存储系统?

海量数据时代,云计算.大数据.人工智能等技术的广泛应用,使得数据呈指数级增长.随着存储空间不断增大,然而存储容量同存储性能成反比,传统数据库在处理海量数据时,暴露了并发性低.扩展性差.效率低下等问题.因此,海量存储技术成为了重点研究对象. 大数据时代,如何准确.高效地从丰富而膨胀的数据中筛选出对经营决策有用的信息已经成为企业和机构迫切需要解决的问题,因而海量存储技术应运而生,并显示出强大的解决能力.企业上云时代,企业如何选择海量存储系统? 1.极强的扩展能力 因为数据规模是动态增长的,存储系统不

面向海量服务的设计原则和策略总结

原文:http://ayufox.iteye.com/blog/676416 互联网服务的特点就是面向海量级的用户,面向海量级的用户如何提供稳定的服务呢?这里,对这几年的一些经验积累和平时接触的一些理念做一个总结.       一.原则       1.Web服务的CAP原理       CAP指的是三个要素:一致性(Consistency).可用性(Availability).分区容忍性(Partition tolerance).CAP原理指的是这三个要素最多只能同时实现两点,不可能三者兼顾,

[转帖]分层存储超详细解读,为什么大数据时代它已不可或缺

分层存储超详细解读,为什么大数据时代它已不可或缺 http://www.itpub.net/2019/10/16/3467/ 如今,分层存储已成为了一种常见的存储方法,它将数据存储在具有不同特性(如性能.成本和容量)的不同存储介质上.不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是第2层.第3层等等. 0层或1层通常是由闪存或基于3D Xpoint技术的固态硬盘(SSD)组成,以此往下的存储层可能涉及高性能光纤通道或SAS驱动器(或RAID阵列),较低

手势跟踪论文学习:Realtime and Robust Hand Tracking from Depth

本文介绍的方法主要是用到了深度信息.提出了一种新的手指检测以及手型初始化的方法.具有很好的鲁棒性.在不使用GPU的情况下,速度就可以达到25FPS.准确率还相当的高.可以说是现在手势识别中最好的方法了. 当前的很多方法要不就是很慢,要不就是使用了GPU,再或者就是需要非常复杂的初始化.而本文提出的方法重新定义了手势的模型,结合了现在通用的两种方法的优势,并且加上一个约束方程,得到了很好的效果. 1.模型的重新定义 每一只手,定义了一个自由度(DOF)为26 的手的模型,其中的6个自由度代表全局的