云计算和大数据的区别

关于大数据和云计算的关系人们通常会有误解。而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量数据的高效处理。

  

  虽然上面的一句话解释不是非常的贴切,但是可以帮助你简单的理解二者的区别。另外,如果做一个更形象的解释,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,在云计算领域目前的老大应该算是Amazon,可以说为云计算提供了商业化的标准,另外值得关注的还有VMware(其实从这一点可以帮助你理解云计算和虚拟化的关系),开源的云平台最有活力的就是Openstack了;

  大数据相当于海量数据的“数据库”,而且通观大数据领域的发展也能看出,当前的大数据处理一直在向着近似于传统数据库体验的方向发展,Hadoop的产生使我们能够用普通机器建立稳定的处理TB级数据的集群,把传统而昂贵的并行计算等概念一下就拉到了我们的面前,但是其不适合数据分析人员使用(因为MapReduce开发复杂),所以PigLatin和Hive出现了(分别是Yahoo!和facebook发起的项目,说到这补充一下,在大数据领域Google、facebook、twitter等前沿的互联网公司作出了很积极和强大的贡献),为我们带来了类SQL的操作,到这里操作方式像SQL了,但是处理效率很慢,绝对和传统的数据库的处理效率有天壤之别,所以人们又在想怎样在大数据处理上不只是操作方式类SQL,而处理速度也能“类SQL”,Google为我们带来了Dremel/PowerDrill等技术,Cloudera(Hadoop商业化最强的公司,Hadoop之父cutting就在这里负责技术领导)的Impala也出现了。

  整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话,“动一下鼠标就可以在秒级操作PB级别的数据”难道不让人兴奋吗?

  在谈大数据的时候,首先谈到的就是大数据的4V特性,即类型复杂,海量,快速和价值。IBM原来谈大数据的时候谈3V,没有价值这个V。而实际我们来看4V更加恰当,价值才是大数据问题解决的最终目标,其它3V都是为价值目标服务。在有了4V的概念后,就很容易简化的来理解大数据的核心,即大数据的总体架构包括三层,数据存储,数据处理和数据分析。类型复杂和海量由数据存储层解决,快速和时效性要求由数据处理层解决,价值由数据分析层解决。

  数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。

  数据存储层

  数据有很多分法,有结构化,半结构化,非结构化;也有元数据,主数据,业务数据;还可以分为GIS,视频,文件,语音,业务交易类各种数据。传统的结构化数据库已经无法满足数据多样性的存储要求,因此在RDBMS基础上增加了两种类型,一种是hdfs可以直接应用于非结构化文件存储,一种是nosql类数据库,可以应用于结构化和半结构化数据存储。

  从存储层的搭建来说,关系型数据库,NoSQL数据库和hdfs分布式文件系统三种存储方式都需要。业务应用根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,我们可以对存储层进一步的封装,形成一个统一的共享存储服务层,简化这种操作。从用户来讲并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。

  数据处理层

  数据处理层核心解决问题在于数据存储出现分布式后带来的数据处理上的复杂度,海量存储后带来了数据处理上的时效性要求,这些都是数据处理层要解决的问题。

  在传统的云相关技术架构上,可以将hive,pig和hadoop-mapreduce框架相关的技术内容全部划入到数据处理层的能力。原来我思考的是将hive划入到数据分析层能力不合适,因为hive重点还是在真正处理下的复杂查询的拆分,查询结果的重新聚合,而mapreduce本身又实现真正的分布式处理能力。

  mapreduce只是实现了一个分布式计算的框架和逻辑,而真正的分析需求的拆分,分析结果的汇总和合并还是需要hive层的能力整合。最终的目的很简单,即支持分布式架构下的时效性要求。

  数据分析层

  最后回到分析层,分析层重点是真正挖掘大数据的价值所在,而价值的挖掘核心又在于数据分析和挖掘。那么数据分析层核心仍然在于传统的BI分析的内容。包括数据的维度分析,数据的切片,数据的上钻和下钻,cube等。

  数据分析我只关注两个内容,一个就是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;其次是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决这两个问题基本解决数据分析的问题。

  传统的BI分析通过大量的ETL数据抽取和集中化,形成一个完整的数据仓库,而基于大数据的BI分析,可能并没有一个集中化的数据仓库,或者将数据仓库本身也是分布式的了,BI分析的基本方法和思路并没有变化,但是落地到执行的数据存储和数据处理方法却发生了大变化。

  谈了这么多,核心还是想说明大数据两大核心为云技术和BI,离开云技术大数据没有根基和落地可能,离开BI和价值,大数据又变化为舍本逐末,丢弃关键目标。简单总结就是大数据目标驱动是BI,大数据实施落地式云技术。

时间: 2024-10-20 01:49:31

云计算和大数据的区别的相关文章

云计算、大数据和人工智能有什么区别?理清楚其实并不难

兼具经济效益与情怀的云计算:努力把信息变为智慧的大数据:模拟人类大脑工作方式,学会推理的人工智能.三个从出身开始就注定"量子纠缠"的伙伴,他们之间相亲相爱,相辅相成的跌宕故事,献给非专业技术背景,但是需要了解行业的你. 今天跟大家讲讲云计算.大数据和人工智能.这三个词现在非常火,并且它们之间好像互相有关系. 一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算--感觉三者之间相辅相成又不可分割. 但如果是非技术的人员,就可能比较难理解这三者之间的相互关

脑科学与云计算,大数据,互联网

摘要 : 研究者已经从不同方面对物联网,云计算,大数据进行了深入研究并取得诸多成果.但还存在一些问题等待解决,例如,物联网,云计算,大数据与互联网是怎样的关系,它们之间又是如何区分和关联的.本世纪初开始的互联网与脑科学的交叉对比研究,为分析物联网,云计算,大数据与互联网的关系奠定了基础. 1   脑科学与互联网 本世纪初,随着互联网的发展,不断有新的应用和概念诞生,其中物联网,云计算和大数据得到了研究者的重点关注,并引起广泛的研究热潮. 研究者已经从不同方面对物联网,云计算,大数据进行了深入研究

云计算、大数据和人工智能简单概述

今天跟大家讲讲云计算.大数据和人工智能.为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算--感觉三者之间相辅相成又不可分割.但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下. 一.云计算最初的目标 我们首先来说云计算.云计算最初的目标是对资源的管理,管理的主要是计算资源.网络资源.存储资源三个方面. 管数据中心就像配电脑 什么叫计算.网络.存储资源? 比

云计算,大数据,人工智能三者有何关系?【转】

转自:[http://cloud.idcquan.com/yjs/115806.shtml]原文:来源:今日头条/领先网络 2017-05-02 17:17 云计算,大数据,和人工智能,最近火的不行不行的词汇,似乎不相同,但又似乎相互关联,到底是什么样的关系呢?其实他们本没有什么关系,各自活在不同的世界里,然而随着互联网的发展,相互纠葛在了一起. 云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面.想象你有一大堆的服务器,交换机,存储设备,放在你的机房里面,你最想做

云计算、大数据和人工智能的关系

1.云计算是通过互联网提供全球用户计算力.存储服务,为互联网信息处理提供硬件基础. 2.大数据运用日趋成熟的云计算技术从浩瀚的互联网信息海洋中获得有价值的信息进行信息归纳.检索.整合,为互联网信息处理提供软件基础. 3.他们的关系: 云计算是基础,没有云计算,无法实现大数据存储与计算 大数据是应用,没有大数据,云计算就缺少了目标与价值 4.两者都需要人工智能的参与,人工智能是互联网信息系统有序化后的一种商业应用.这才是:云计算与大数据真正的出口! 5.而商业智能中的智能从何而来? 方法之一就是通

云计算、大数据和人工智能科普

一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算……感觉者之间相辅相成又不可分割.但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下. 今天跟大家讲讲云计算.大数据和人工智能.这三个词现在非常火,并且它们之间好像互相有关系. 一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割. 但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下. 云

转-云计算、大数据和人工智能的科普类文件

作者: 刘超 www.cnblogs.com/popsuper1982/p/8505203.html 原标题:不是技术也能看懂云计算,大数据,人工智能 我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算.所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一

通俗易懂的讲:云计算、大数据和人工智能

文章转自: 刘超的通俗云计算 https://www.cnblogs.com/popsuper1982/p/8505203.html 我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算.所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下. 一.云计算最

战略布局:云计算、大数据和人工智能三位一体

百度云计算战略发布会上,百度董事长兼首席执行官李彦宏.百度首席科学家吴恩达等百度管理层介绍了融入大数据.人工智能技术的百度开放云服务体系,包括这些技术如何与行业应用相结合,并展示了百度开放云的生态建设.从百度的战略布局,不难看出,未来云计算.大数据.人工智能是趋势方向. 李彦宏:云计算.大数据和人工智能三位一体 李彦宏表示,搜索是一个非常典型的云计算应用,百度很早就积累了很多云计算核心技术,例如在三年前就大规模使用GPU代替CPU来支持云计算,并且现在还运行了一个大规模的FPGA集群. 现在,云