目前,几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业。
无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子。大数据,正由技术热词变成一股社会浪潮,影响社会生活的方方面面。
何谓大数据?大数据或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。(在 维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特 点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。那么我们从定义上来理解一下“大数据”在《大数据时 代》所定义的四个特征中,我们可以大概感知得到它的价值:数据体量大,数据类型多,数据价值密度低,数据具有时效性。
伴随着各种随身设备、物联网和云计算云存储等技术的发展,人和物的所有轨迹都可以被记录。在移动互联网的核心网络节点是人,不再是网页。在数据大爆炸的背景下,大数据,也面临着诸多挑战.
来自于数据存储方面的挑战:大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。这些问题无疑增加了数据采集和整合的困难,故此应修改基于块和文件的存储系统的架构设计,以克服存在的问题。
来自于数据安全方面的挑战:数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。此外,个人信息的曝露,也会造成个人安全的问题。
来自于数据显示方面的挑战:与 数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对 于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到 结果的同时更好的理解结果的由来。
来自于数据成本控制方面的挑战:对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成 本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储市场,而且还可以处理更多的数据 类型,这都可以为大数据存储应用带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低几个百分点。当今,数据 中心使用的传统引导驱动器不仅故障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的独立服务器引导驱动器,则能将可靠性提升多达100倍。并 且对主机系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本的问题。
来自于数据分析方面的挑战:数 据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,但是它同样带来了很大的挑战。首先,数据量大带来更大价值的同时也带来了更多的数据 噪音,在进行数据清洗等预处理工作时必须更加谨慎,若清洗的粒度过细,很容易将有用的信息过滤掉,而清洗的粒度过粗,又无法达到理想的清洗效果,因此在质 与量之间需要进行仔细的考量和权衡,同时也对机器硬件和算法都是严峻的考验。其次,传统的数据仓库系统对处理时间的要求并不高,而在很多大数据应用场的要 求。
大数据的意义是由人类日益普及的网络行为所伴生的。从海量数据中“提纯”出有用的信息,是一项非常庞大的工程,也是当下大数据时代面临的重大挑战。在经历了近几年来各界对大数据的批判、质疑、讨论、炒作之后,大数据的发展依旧任重道远。