大数据存储到底出了什么问题

当大数据现象在三年前刚刚兴起时,其对于存储企业而言,机房环境监控系统就如同久旱逢甘霖一样,许多存储厂商纷纷积极的投入该领域,并开启最大分贝的营销扬声器鼓吹大数据存储。

  然而到了今天,存储行业的现实状况并不乐观。

  一方面,大数据发展的潮流不断地全速前进。尽管企业对于大数据的Volume(大批量)、Velocity(高速传递)、Variety(多样性)等
特征一直保持着高度的兴致,但企业对于大数据技术的采用率仍然很低,主要仍集中在实验阶段。同时,一些大数据初创企业继续吸引着大量的资金,并认为这些大
数据的赌博会让他们完好无损。

  大数据存储没什么大不了的

  而另一方面,尽管市场似乎已经为广大的存储企业带来了明显的理想优势,但存储企业并没有充分融入到大数据发展的潮流中,尽管其中也不乏一些企业在朝着
这方面努力。在过去的几年中,我们已经看到许多存储企业投资于该领域——包括技术方面以及纯营销方面,以便随着大数据发展的趋势而进行自身的调整。

  在技术方面,大部分都倾向于相信大多数存储企业均擅长于高效地存储和保护大量数据——能够十拿九稳的战胜那些部署Hadoop的企业。

  当您企业的数据中心可能已经有了价值数百万美元的专用存储设备,也具备相关的专业知识时,为什么要在Hadoop中依靠相当有限的数据存储模型呢?因
此,存储行业的巨头如EMC、赛门铁克和IBM,以及一些较小存储供应商如Cleversafe,曾将他们的软件技术与Hadoop进行整合。

  但是,这些方面的努力对于促进企业用户采用大数据技术方面的收效甚微。当然,我们也可以看到某些极个别采用了大数据技术的案例,但到目前为止,存储行
业并未能找到一种能够很好的融入大数据的方式。在我们与长期运行Hadoop社区的广泛对话中,我们被告知无论是分销商和终端用户都从未提及过关于存储的
话题。其根本就不被视为一个问题。

  这种与大数据相关的明显的矛盾,也明显存在于我们对于最终用户调研中。

  当我们在采访一些大中型企业的存储专业人士关于其所在企业就大数据解决方案方面的投资计划时,四分之一的受访者表示说他们已经在这方面有了投资,而有
40%的受访者则表示他们没有这方面的计划。其余的14%的受访者表示他们已经制定了在大数据方面的投资计划,有13%的受访者说他们未来可能会制定大数
据投资计划。

  许多企业受访者告诉我们,他们处理大数据存储的方式是通过利用现有的SAN。而这些企业表示,连续两年的大数据运行仅占其总存储的3%。

  大数据并不在数据中心

  显然,这有一些混乱。但这对于一个在短期内被以惊人的程度大量使用,甚至是滥用的术语而言并不奇怪。询问一名存储专业人士关于如何看待大数据,他们脑海中所思考的大数据可能与数据科学家们的想象有很大的不同。

  但是,让我们来分析一些最为真实的大数据倡议吧(最典型的是基于Hadoop的项目),其并不在数据中心的核心运行。其运行在一个特设的个别部门的基础实验,如工程,产品开发和市场营销。

  核心的IT部门可能甚至都不知道有这样的项目正在进行中。在这样的情况下,很容易了解到为什么存储不受重视;重要的是,存储的成本是很便宜的而且也易于使用。成本昂贵且难以管理的外部系统,如SAN和NAS被视为矫枉过正的DAS规则。

  虽然我们并不指望能够在短时间内会发生大的变化,但围绕Hadoop项目长期存在的一个问题是,当其达到一定的规模,成熟度和重要性时,有必要把他们交付给IT部门来管理。

  大数据存储的前景

  是否已经有关于大数据存储发展的一些迹象了呢?是的,但其仍然处于早期。当我们在采访存储专业人士关于驱动数据增长的因素的话题时,14%的受访者
说:“虽然我们已经注意到大数据(先进的分析技术)正受到许多数据类型/应用程序快速增长的影响。但其优先级仍然被排在了许多更为紧迫的问题之后,如服务
器虚拟化和满足新的和现有的业务应用程序的需要。

  与此同时,一些供应商也开始了一些独辟蹊径的思路思考如何增加价值。如希捷公司的Kinetic开放存储平台,通过一个键值存储实现以太网功能的硬盘,开辟了非常简单的大规模存储系统,可以作为大数据和基于对象的应用程序具有成本效益的后端。

  EMC采取了稍微不同的策略,将其VIPR产品作为一款平台,可以从一个单一的界面管理多款应用程序和存储环境。虽然其最初是将重点放在传统的存储协议如文件和存储块等,现在也支持对象存储,并也能够管理Hadoop环境。

  其他的一些存储企业也采取了一些类似的举措,例如Scality和Inktank将文件和对象存储功能集成到一个平台,部分原因是由于大量非结构化数据驻留在一个共同的存储库是奏效的,而不管实际的数据访问方法。

  事实上,这些厂商认为集中管理最终将有助于IT经理。大数据,无论是Hadoop或其他技术的变形,毕竟都只是另一种数据类型,都应该以同样的方式对待。

  很多IT部门所面临的一大挑战是,存储已经分散到太多的筒仓领域,而大数据的风险在于,其正成为另一个独立于一切的数据孤岛,并进一步加剧了整体管理成本。

  在这种情况下,我们给存储厂商的建议是提出了一些创新的技术解决方案。不幸的是,到目前为止的现实状况是,这些方法是远远领先于市场的,并在很大程度上已经成为一个寻找问题的解决方案。

  尽管如此,我们仍然乐观的认为存储最终将在整个大数据领域发挥更突出的作用,一分钟读懂大数据,但其确切的性质和时间表仍有待确定。

文章来自:http://www.china-sunwe.com/news/news435.html

时间: 2024-10-27 13:06:54

大数据存储到底出了什么问题的相关文章

大数据存储的进化史 --从 RAID 到 Hdfs

我们都知道现在大数据存储用的基本都是 Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdfs. 我们先来思考两个问题. 在 Hdfs 出现以前,计算机是通过什么手段来存储"大数据" 的呢? 为什么会有 Hadoop Hdfs 出现呢? 在 Hdfs 出现以前,计算机是通过什么手段来存储"大数据" 要知道,存储大量数据有三个最重要的指标,那就是速度,容量,容错性.速度和容量

大数据存储的秘密之分区

分区,又称为分片,是解决大数据存储的常见解决方案,大数据存储量超过了单节点的存储上限,因此需要进行分区操作将数据分散存储在不同节点上,通常每个单个分区可以理解成一个小型的数据库,尽管数据库能同时支持多个分区操作:分区引入多分区概念,可以同时对外服务提高性能. 常常和分区一并提及的概念是复制,分区通常与复制结合使?,使得每个分区的副本存储在多个节点上. 这意味着,即使每条记录属于?个分区,它仍然可以存储在多个不同的节点上以获得容错能?.分区在许多技术或框架中都有体现,例如MQ中topic下的分区消

Hadoop环境中管理大数据存储八大技巧

随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,下面介绍一下关于Hadoop环境中管理大数据存储技巧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能

Sqlserver 高并发和大数据存储方案

随着用户的日益递增,日活和峰值的暴涨,数据库处理性能面临着巨大的挑战.下面分享下对实际10万+峰值的平台的数据库优化方案.与大家一起讨论,互相学习提高!  案例:游戏平台. 1.解决高并发 当客户端连接数达到峰值的时候,服务端对连接的维护与处理这里暂时不做讨论.当多个写请求到数据库的时候,这时候需要对多张表进行插入,尤其一些表 达到每天千万+的存储,随着时间的积累,传统的同步写入数据的方式显然不可取,经过试验,通过异步插入的方式改善了许多,但与此同时,对读取数据的实时性也需要做一定的牺牲. 异步

常见的6大数据存储解决方案

随着信息时代到来,中小企业产生的数据量比以往任何时候都要多得多.但是不幸的是,硬盘驱动器和相关的存储技术的每GB成本却依然高居不下,而以云计算为核心的云存储技术的出现无疑为中小企业数据存储问题提供了解决方案. 6大常见的数据云存储解决方案 1.直接附加存储: DAS表示直接连接到PC或服务器,典型地使用USB 2.0或USB 3.0外设端口存储设备.DAS的一个缺点是,你需要做的临时或批量备份数据复制,这意味着它们可能包含了过期版本的文件. 2.网络连接存储: NAS 设备是直接连接到网络的存储

大数据存储的一些概念性问题

其实对一些基本的概念都没有弄清楚,这里从网上找一些来普及下 一.结构化数据与非结构化数据 结构化数据就是能变成二维的行数据,主要应用在关系型数据库中. 非结构化数据是不可以变的,例如视频,音频文件,没有办法变成二维的行数据.所以一般不能用简单的关系型数据库存储,所以就引入了别的存储方式. 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图

邮件营销邂逅大数据会擦出怎样的火花?

近年来,“大数据”这个热门词成为媒体津津乐道的话题,到底什么是“大数据”呢?举个常见例子,相信你有过这样的经验:你曾在某个网站购买了一款手 机,或者你仅仅在百度等搜索引擎中输入“手机”关键词,并饶有兴致的点开了诸如“华为mate7”这款机型了解一番.可随后,当你上门户网站浏览新闻或观 看视频时,一些各种样式的“手机”悬挂广告便会跃入你的眼帘.假如你在某个电商网站注册便有相关浏览记录或“加入购物车”举动,那么你的邮箱或许会收到一 封邮件,内容是有关于你所浏览产品的价格变动.新鲜款式等信息,或者提醒

5分钟带你学习浏览器8大数据存储技术

浏览器的缓存机制 HTTP文件缓存.LocalStorage. sessionStorage.cookie.indexDB.webSQL .CatheStorage.Application Cathe HTTP文件缓存 1.浏览器会先查询Cathe-Control, ( cathe-control 是相对时间,expires 是绝对时间 ), 如果没有过期,则读取缓存的文件,不发送HTTP请求: 2. 浏览器检查上次有没有Etag, 如果有,就连同IF-None-Match一起发送回服务端,服务

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

一.前言 以下简介摘自官方 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.接下来我们使用的是Hive Hive简介 Hive 是一个基于 Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.    它把海量数据存储于 hadoop 文件