大数据环境下的文件系统感想

而对于一些场景,比如虚拟机活动镜像的存储,或者说虚拟机硬盘文件的存储,还有大数据处理等场景,对象存储就显得捉襟见肘了。而文件系统在这些领域有突出的表现,比如Nutanix的NDFS(Nutanix Distributed Filesystem)和VMware的VMFS(VMware Filesystem)在虚拟机镜像存储方面表现很出色,Google文件系统GFS及其开源实现HDFS被广泛用于支撑基于MapReduce模型的大数据处理支持得很好,而且能够很好地支持百GB级、TB级甚至更大文件的存储。

由此看来文件系统将来的发展趋势更多的是专用文件系统,而不再是像以前那样,以前一套Filesystem适用于所有场景,更有一些部分要让位于对象存储或者其他存储形态。

从另一个角度来看,现代对象存储系统的“甜区”在哪里:1. 互联网和类似互联网的应用场景,这不仅仅是因为REST风格的HTTP的接口,而且还因为大多数对象存储系统在设计上能够非常方便地进行横向扩展以适应大量用户高并发访问的场景;2. 海量十KB级到GB级对象/文件的存储,小于10KB的数据更适用于使用K/V数据库,而大于10GB的文件最好将其分割为多个对象并行写入对象存储系统中,多数对象存储系统都有单个对象大小上限的限制。所以,如果应用具有上述两种特点,对象存储是首选。

也有人在对象存储上做出进一步的开发或者改进,使其能够很好地支持归档备份、MapReduce大数据处理等场景,甚至将对象存储的接口转为文件系统接口;反之,OpenStack Swift等对象存储系统也支持使用GlusterFS等通用文件系统作为存储后端。人们为什么会在这些对象存储和文件系统相互转换的技术上进行人力和资金的投入?这些做法的意义何在?应该在什么时候使用这些技术?

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-01 14:15:20

大数据环境下的文件系统感想的相关文章

XFS:大数据环境下Linux文件系统的未来?

XFS:大数据环境下Linux文件系统的未来? XFS开发者Dave Chinner近日声称,他认为更多的用户应当考虑XFS.XFS经常被认为是适合拥有海量数据的用户的文件系统,在空间分配方面的可扩展性要比ext4快“几个数量级”. “元数据验证”意味着,让元数据自我描述,保护文件系统,防范被存储层指错方向的写入.那么,为什么我们仍需要ext4? AD:WOT2015 互联网运维与开发者大会 热销抢票 [51CTO 2月7日外电头条]Linux有好多种件系统,但往往最受关注的是其中两种:ext4

大数据环境下,我们被卖了一次又一次

大数据,人工智能是当下互联网最热门的话题. 抛开大数据的人工智能都是耍流氓,人工智能需要大数据作为基础支持. 大数据是1980年,著名未来学家阿尔文·托夫勒便在<第三次浪潮>一书中,将大数据热情地赞颂为"第三次浪潮的华彩乐章".大约从2009年开始,"大数据"成为互联网信息技术行业的流行词汇. 什么是大数据? 大数据,或称巨量数据.海量数据;是由数量巨大.结构复杂.类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用

大数据环境下的隐形隐私问题探讨

在大数据环境下,信息敏感属性由原来具体的.明确的属性集,成为散落在海量数据中分散的.模糊的信息碎片. 隐形隐私数据的安全保护核心就是基于数据防泄漏技术能够应对更广泛的隐私信息泄露渠道 ,以及采取与隐私隐私数据保护相对应的隐私保护技术手段和管理手段. 下载高清完整PPT材料以及获取更多精彩请扫描长图右下角二维码,加入IT狂想者,提升自我价值,共赢财富与未来! 原文地址:https://blog.51cto.com/cnsecurity/2386952

大数据环境下的数据仓库建设(转)

这几天研究了一家美国的大数据公司1010data,它在产品白皮书中提出了新一代数据仓库的概念(NEXT-GENERATION DATA DISCOVERY),相对于第一代数据仓库,具有如下一些特征: l  用户可以针对任何问题进行分析和查询,也就是说,分析系统要提供更加友好的操作体验,更加明细的数据粒度: l  分析效率和水平扩展,在大数据量的情况下,也要保证分析过程的高效率: l  数据混搭和数据分享,强调企业内部数据和外部数据的综合分析,以及数据的货币化: 在它的报告中,同时也非常强调自助分

大数据环境下的数据库架构

随着数据的快速增长,分表,分库,memcache,redis,mongodb,hadoop,bigtable等,各种解决方案呼之欲出.经过测试,在MySQL中,无论如何加索引,数据超过百w时,查询起来耗时很明显. 因此mysql分表分库+memcache+redis也不失是一个完美解决方案. 由于redis不支持复杂查询,redis的读取性能还是赶不上mem这些劣势,因此才需要一些搭挡. 流程 从CRUD看底层架构. 1. 插入数据 一般情况下,对用户是没有必要分表的,用户的文章或者微博才分表,

大数据环境下的数据仓库建设

作者:萝卜(微信:Robbie_Qi) 这几天研究了一家美国的大数据公司1010data,它在产品白皮书中提出了新一代数据仓库的概念(NEXT-GENERATION DATA DISCOVERY),相对于第一代数据仓库,具有如下一些特征: l  用户可以针对任何问题进行分析和查询,也就是说,分析系统要提供更加友好的操作体验,更加明细的数据粒度: l  分析效率和水平扩展,在大数据量的情况下,也要保证分析过程的高效率: l  数据混搭和数据分享,强调企业内部数据和外部数据的综合分析,以及数据的货币

现阶段大数据环境中会存在什么样的不安全因素?

之前分享过的大数据时代的到来,为我们提供了哪些便利之处?今天墨者安全为大家分享下,在现阶段的大数据环境中,会存在什么样的不安全因素?如今各行各业的领域针对安全都有不同的需求,从采集.整合.提炼.挖掘到发布,这一流程已经形成一套完整的产业链条.随着数据的进一步发展,对于产业链中的安全防护变得更加困难,随时都会有数据泄露的风险,所以在大数据的应用过程中,如何确保用户及自身信息资源不被泄露,这将在很长一段时间都是企业重点考虑的问题.1.大数据的基础设施不安全因素包括存储设备.运算设备.一体机和其他基础

windows下用Eclipse连接大数据环境得hbase

1.解压hbase安装包 2.将大数据环境得hadoop安装包拷贝到windows(这里以d:/hadoop为例) 3.打开C:\Windows\System32\drivers\etc目录下的hosts并添加如下代码 127.0.0.1 localhost192.168.48.134 master192.168.48.133 slaver 注:这里你配置了几台服务器就写几台,这里我只配置192.168.48.134 master和192.168.48.133 slaver两台 4.使用Ecli

在Centos7下搭建大数据环境,即Zookeeper+Hadoop+HBase

1. 所需软件下载链接(建议直接复制链接到迅雷下载更快): ①hadoop-2.7.6.tar.gz: wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz ②zookeeper-3.4.12.tar.gz: wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/stable/zookeeper-3