浅谈大数据的发展:问题和挑战

   目前,几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业。

  无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子。大数据,正由技术热词变成一股社会浪潮,影响社会生活的方方面面。

  何谓大数据?大数据或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在 维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特 点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。那么我们从定义上来理解一下“大数据”在《大数据时 代》所定义的四个特征中,我们可以大概感知得到它的价值:数据体量大,数据类型多,数据价值密度低,数据具有时效性。

  伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。在数据大爆炸的背景下,大数据,也面临着诸多挑战.

  来自于数据存储方面的挑战:大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。这些问题无疑增加了数据采集和整合的困难,故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。

  来自于数据安全方面的挑战:数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。此外,个人信息的曝露,也会造成个人安全的问题。

  来自于数据显示方面的挑战:与 数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对 于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到 结果的同时更好的理解结果的由来。

  来自于数据成本控制方面的挑战:对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成 本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据 类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点。当今,数据 中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并 且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。

  来自于数据分析方面的挑战:数 据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,但是它同样带来了很大的挑战。首先,数据量大带来更大价值的同时也带来了更多的数据 噪音,在进行数据清洗等预处理工作时必须更加谨慎,若清洗的粒度过细,很容易将有用的信息过滤掉,而清洗的粒度过粗,又无法达到理想的清洗效果,因此在质 与量之间需要进行仔细的考量和权衡,同时也对机器硬件和算法都是严峻的考验。其次,传统的数据仓库系统对处理时间的要求并不高,而在很多大数据应用场的要 求。

  大数据的意义是由人类日益普及的网络行为所伴生的。从海量数据中“提纯”出有用的信息,是一项非常庞大的工程,也是当下大数据时代面临的重大挑战。在经历了近几年来各界对大数据的批判、质疑、讨论、炒作之后,大数据的发展依旧任重道远。

时间: 2024-10-09 01:36:49

浅谈大数据的发展:问题和挑战的相关文章

浅谈大数据技术

忽如一夜春风来,无人不谈大数据.大数据就像前两年的云计算一样,是一个时下被炒得很火的概念.那么什么是大数据,大数据是如何定义的,大数据处理技术有哪些,大数据能给我们带来什么益处?虽然我不知道现在这些概念是如何被炒作的,但是作为一名互联网行业的从业者,作为一个大数据技术的实践者,根据自己的理解和经验发表一点浅显的认识,理解肯定有不到位之处请大家批评指正. 无论是大数据技术还是云计算技术,其实这些技术都不是突然冒出来的,而是随着互联网技术的发展,人们把现有的技术加以整合,总结,概括出来并冠一个新名字

浅谈大数据

大数据概述 一.大数据是什么? 大数据目前没有一个严格的定义,但是我们可以举出很多具体的例子!例如:互联网上的网页数据.社交网站上的用户交互数据(如新浪微博).物联网中产生的活动数据(如智能家居).电话网络中的话单数据(如移动语音详单)等等都是大数据的具体表现. 二.大数据的三个特征 1.数据量大小–大容量 我们现在常说大数据,到底有多大呢?先看一组公式: 1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB. 在淘宝上,每天新增的

浅谈大数据和hadoop家族

按照时间的早晚从大数据出现之前的时代讲到现在.暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思. 早在大数据概念出现以前就存在了各种各样的关于数学.统计学.算法.编程语言的研究.讨论和实践.这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋.砖块),编程语言作为粘合剂(比如水泥)构成了一座座小房子(比如一个应用程序),形成了一小片一小片的村庄(比如一台服务器).这个时代村与村之间还没有高速公路(GFS, HDFS, Flume, Kafka等),只有一条泥泞不好走的

浅谈大数据与hadoop家族

按照时间的早晚从大数据出现之前的时代讲到现在.暂时按一个城市来比喻吧,反正Landscape的意思也大概是”风景“的意思. 早在大数据概念出现以前就存在了各种各样的关于数学.统计学.算法.编程语言的研究.讨论和实践.这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋.砖块),编程语言作为粘合剂(比如水泥)构成了一座座小房子(比如一个应用程序),形成了一小片一小片的村庄(比如一台服务器).这个时代村与村之间还没有高速公路(GFS, HDFS, Flume, Kafka等),只有一条泥泞不好走的

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

鄂维南院士谈大数据:市场非理性、活动多信息量少

"我们的市场是无理性的发展.现在开的会非常多.新闻非常多,新闻里面真正的信息量非常少,整个市场的发展是非理性的."这是北京大数据研究院院长.中科院院士.北京大学教授鄂维南在2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛对当前中国大数据行业特点所谈到观点. 2016年12月12日,2016中关村大数据日活动暨京津冀大数据协同发展高峰论坛在中关村国家自主创新示范区展示中心会议中心召开.本次活动以"数据驱动创新.智慧引领未来"为主题,聚焦京津冀大数据协同发展,近

交易服务助力大数据产业生态系统完善 ——北京软件和信息服务交易所总裁胡才勇谈大数据产业生态系统建设

据有关预测,未来三年内,我国大数据市场将以每年超过60%的速度增长,预计到2017年市场规模将达到37.9亿美元.面对爆炸式增长的市场,面对不远处诱人的"大蛋糕",我国大数据产业生态系统是否做好了准备?目前,我们不得不担忧地看到:在整个大数据产业链条上,标准缺失!制度缺失!相关交易服务配套的缺失! 一个"赤裸裸的问题" 今年4月,国内大数据标准工作组刚刚组建,北京软件和信息服务交易所(以下简称"软交所")总裁胡才勇作为工作组的重要成员之一参与了大

MES应慎谈大数据

突然之间,“工业4.0”.“中国制造2025”.“大数据”.“智能制造”.“智慧工厂”等词汇变得流行起来,仿佛不谈新词汇就变得落伍了,仿佛传统MES已经不适应新时代了. 可是真的是这样的吗?真的有几个人能把这些新词汇说清楚吗? 以我个人多年做MES项目的经验,我觉得中国制造现在还处在工业2.0,顶多在工业2.5,多数的企业还远远没有实现自动化,更不要说智能化. 要想直接走工业4.0,实现弯道超车,这是一个很丰满的理想,但是却受到基础设施.成本.人才.管理体系等诸多因素的制约,因而很难落地. 比如

浅议大数据的分析价值

2015年,国务院颁布了大数据实施纲要通知<国务院关于印发促进大数据发展行动纲要的通知>,从国家层面上将大数据战略思想逐渐成型.随之,各行各业逐渐意识到海量数据的价值及重要性,分析数据并挖掘其潜在价值的需求不断加大.那么我们今天就来扒一扒:大数据能产生什么价值,值得我们去分析它? 一.什么是大数据 IDC以4V特征来定义大数据,即海量的数据规模(Volume).快速的数据流转和动态的数据体系(Velocity).多样的数据类型(Variety).巨大的数据价值(Value):Amazon的Jo