大数据之一:几个概念

大数据(Big Data)

大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume)数据类别复杂(Variety)数据处理速度快(Velocity)数据真实性高(Veracity),合起来被称为4V。

大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声 音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往深藏其中。这就需要对大数据的处理 速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也 混杂其中。这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来分析得出真实的结果。

大数据分析(Big Data Analysis)

大数据,表面上看就是大量复杂的数据,这些数据本身的价值并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)数据挖掘算法(Date Mining Algorithms)预测性分析能力(Predictive Analytic Capabilities)语义引擎(Semantic Engines)数据质量管理(Data Quality Management)

可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表,使其能够更加容易的被普通消费者所接受和理解。

数据挖掘算法是 大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信 息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联系,提 升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。

预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域,用于股票预测或气象预测等。

语义引擎是 机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大 量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的 Siri和谷歌的Google Now都采用了语义引擎。

数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性,需要将大数据中不真实的数据剔除掉,保留最准确的数据。这就需要建立有效的数据质量管理系统,分析收集到的大量复杂的数据,挑选出真实有效的数据。


分布式计算(Distributed
Computing)


对于如何处理大数据,计算机科学界有两大方向:第一个方向是集中式计算,就是通过不断增加处理器的数量来增强单个计算机的计算能力,从而提高处理数据的速
度。第二个方向是分布式计算,就是把一组计算机通过网络相互连接组成分散系统,然后将需要处理的大量数据分散成多个部分,交由分散系统内的计算机组同时计
算,最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强,但是由于每个计算机只计算一部分数据,而且是多台计算机同时计
算,所以就分散系统而言,处理数据的速度会远高于单个计算机。

过去,分布式计算理论比较复杂,技术实现比较困难,因此在处理大数据方面,集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件,很多银行和政府机构都用它处理大数据。不过,对于当时的互联网公司来说,IBM的大型机的价格过于昂贵。因此,互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。

服务器集群(Server
Cluster)

服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此,从外部看,这群服务器表现为一台虚拟的服务器,对外提供统一的服务。

尽管单台服务器的运算能力有限,但是将成百上千的服务器组成服务器集群后,整个系统就具备了强大的运算能力,可以支持大数据分析的运算负荷。Google,Amazon,阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。

大数据的技术基础:MapReduce、Google
File System和BigTable

2003年到2004年间,Google发表了MapReduce、GFS(Google
File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架,GFS(Google
File System)是分布式文件系统,BigTable是基于Google
File System的数据存储系统,这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。
其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。

后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。

主流的三大分布式计算系统:Hadoop,Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike
Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug
Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。

不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一
些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供
超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时
运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的
处理数据,然后直接通过网络实时的传回结果。

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

时间: 2024-10-24 02:13:06

大数据之一:几个概念的相关文章

简单了解一下大数据的一些基本概念

一.大数据 1.什么是大数据? 大数据(Big data或Megadata):大数据,或称巨量数据.海量数据.大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取.管理.处理.并整理成为人类所能解读的形式的信息. 2.大数据特点 ①Volume:数据量大,包括采集.存储和计算的量都非常大.大数据的起始计量单位至少是P(1000个T).E(100万个T)或Z(10亿个T). ②Variety:种类和来源多样化.包括结构化.半结构化和非结构化数据,具体表现为网络日志.音频.视频.图

大数据Hadoop相关基本概念

大数据特征(5V) Velocity(快速的数据流转) Veracity(精准可信赖的大数据) Variety(多样的数据类型) Volume(海量的数据规模) Value(数据价值密度相对较低) 大数据架构 HDFS服务功能 NameNode NameNode是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间.副文本.文件权限),以及每个文件的块列表和块所在DataNode等. NameNode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字控件(

大数据仅仅是概念还是有实用性

从去年开始,不管是互联网行业还是其他行业,“大数据”一词开始频繁出现. “概念”性质的东西在中国的互联网圈子总是可以快速传播,这里面有很多原因,其中就有整体氛围所致:大多数互联网的创业者都是希望通过前瞻性的创新来改变世界,受到资本追捧,最终套现.在这个过程中,概念飞快的传播.包装,成为各种打着标签的产品.而实用主义者只被动接受,缺乏正确认知深刻的探索. 从下图可以看出,2008年大数据概念开始传播后,在百度和Google的“大数据”和“Big Data”的检索趋势(下图数据中Baidu的PV加权

云计算开发和大数据的概念和关系,云计算开发怎么学?

AI.大数据与云计算的关系 说到AI,总是不可避免的联想到大数据与云计算,这三者可谓相辅相成,只有三者结合起来,才有可能成为真正的人工智能.只有我们搞清楚三者之间的关系应用起来就得心应手,而不是盲目冒进. AI.大数据与云计算的概念 简单来说,AI是基于计算机软硬件,通过模拟人类思考和智能行为的一种理论方法和技术.而云计算则是将服务器.存储器.存储设备以及网络等资源整合起来封装成一种IT服务的模式,为客户提供相关的按需一站式服务.大数据则是将结构化数据和非结构化数据形成的所有数据整合起来,也就是

从技术架构的角度去丰富你的大数据知识

对于大数据的学习,很长一段时间,都觉得非常迷茫.不知道具体该学习什么!进而导致知识的知识点挺多,而自己所会的内容都不能够形成很好的体系,进而为自己的职场加分.而最近一直在学习相关大数的架构知识,进而具体到一个厂商.这样反而自己学的很快,总结一下前段时间的学习,温故而知新!!! 首先,大数据开始做为概念开始进入公众并在实际业务中落地是在13年.从一项技术的发展来看,这项技术会在18年形成一个很好的闭环.而在此期间,不管你是不是大数据的项目,在这五年内,只要冠以大数据名称都可以获益. 所以,大数据第

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

品牌营销进化三大方向:场景爆破、移动互联与大数据整合

一个品牌在媒体众多.消费者被高度分散的时代,应该如何做,才能让消费者对你印象深刻,并且不断累积品牌资产?如何通过广告和营销引发消费行动?在扑面而来的移动互联网时代,品牌的传播模式正在遭受一场前所未有的革命. 这场需要重新定义传播模式的革命,根本原因,在于今天消费者生活形态的几个变化. 第一个变化,来自于消费者随时随地可以享用的移动互联网,注意力被分散,移动终端链接其他终端的需求加强. 第二个变化,消费者快速穿梭于各个场所和空间,生活半径逐步扩大和分散,单一媒体已经很难覆盖你想要的消费者. 第三个

大数据与云计算之间的区别与联系

大数据是什么? 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中提出:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理. 那么究竟多大的数据算是大数据,这个其实并没有明确的定义.不过IBM提出了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性).这也是目前大家比较公认的大数据的特征. 这个5V的特点,反映了大数据数据量大.产生的速度快且多样,同时大数据具有低价值密度的

《大数据与机器学习》读书思考

这是一本纯技术类的工具书,里边有许多好的思想与方法供实际工作者使用.对于我这种只会R编程的人来说.读起来是有些吃力!不过随着大数据知识架构的逐步完善,相信这本书会在未来体现出它的价值来. 第一部分  平台篇 实际上,这一部分是讲到了大数据的一些基本概念,以及数据挖掘及实时分析的一般流程.读完这一部分,相当于你在大数据领域可以扫盲了.但是要对里边组件有一个深入理解,就需要你在工作上对它们有常规应用. 这一部分,也是自己总结最多的地方.可能是怕自己大数据掌握的还不是很熟悉的原因吧!总想把架构这一块能

大数据弹性应用开发的八项基本原则

大数据应用正在从概念走向现实,而企业在大数据应用开发时,软件的弹性(Resilient)正在成为决定大数据应用成败的关键因素.弹性差的应用无法应对大规模的数据集,在测试和运营中也缺乏透明度,而且也不安全. 避免大数据应用在生产环境中掉链子的最佳办法就是在开发阶段就开发弹性应用,例如:鲁棒.经过测试.可改变.可审计.高安全.可监控.可以说,开发出弹性大数据应用既是一个技术工作,也是一个哲学问题.Concurrent的SupreetOberoi近日撰文提出大数据应用开发八大基本原则,IT经理网编译如