企业级大数据处理方案-01

企业级大数据处理方案有三种业务场景:

1.离线处理;(mapreduce(第一代)、sparksql(第二代))

2.实时处理;(数据库操作、storm)

3.准实时处理。(spark Streaming)

mapreduce与spark对比

mr与spark优缺点对比:(一)

a.mapreduce频繁的数据读写,使数据处理速度滞后

b.spark所有计算在内存中消除了,磁盘读写此快其一

mr与spark优缺点对比:(二)

a.mapreduce每一个计算过程与上一个计算过程无血统继承

b.spark步步操作均有血统继承关系,ageline机制,可以追溯到数据来源或者checkpoint(lazy级别)容错性与框架的自动优化

mr与spark优缺点对比:(三)

程序运行的可视化,spark有DAG图

streaming和storm对比

streaming和storm优缺点对比:(一)

a.storm计算相当于电流,这边进那边就要出

b.streaming为了提高吞吐量,引进了批处理,牺牲了实时性,增加了吞吐量

streaming和storm优缺点对比:(二)

a.storm拓扑计算模式(有向无环图)

b.streamingDAG图,流式计算,中间数据交换可以调用丰富的计算框架,sql和ml和graphX

传统数据库实时操作与大数据技术对比:

a.虽然实时,但是数据量大时,无法解决,速度就降了下来

b.大数据技术,解决了大数据,牺牲了实时

      综上所述:任何技术都不是完美的,为了一方面就必然牺牲另一方面,人无完人。吞吐量与实时的取舍,内存与速度的取舍。--当实时处理的数据量的能力提高,离线处理还有存在的必要吗?如果数据处理不能实时性,必然影响数据的价值。大数据的核心价值:数据挖掘和数据分析最终为数据消费者的行为和决策力服务。

继续反思:既然每种大数据处理技术都有缺陷,那怎样才能达到我们心中的完美效果呢?

三国曹操选用人才的方略-物尽其才,只要你有才,是不会让你埋没的。

所以大数据处理方案不是单纯的某种技术的天下,而是各分块的紧密结合,优势互补,进而达到理想的效果。所以,必须了解技术的优势和使用场景,才能在实际的业务场景中,挑选合适的技术。就现在而言:

1.Hadoop只能用作存储和资源管理

2.spark只能作为计算,(只计算)

3.storm只计算

4.kafka数据缓存层(平衡流式数据量的过大过小)

5.flume采集

7.Tachyon分布式内存文件系统(alluxio)

8.redis、mongoDB分布式内存数据库

9.实时搜索引擎solr和lucene

基本上数据处理的主流技术都在这了,上文虽然都是一种,但是每类技术都有多种,用途都是一样,只是场景和处理逻辑不同。那如何构建企业级大数据处理,且看下回。

时间: 2024-10-05 22:00:09

企业级大数据处理方案-01的相关文章

企业级大数据处理方案-02.环境决定需求、性能决定选型

上讲,讲述了大概九种的技术种类以及他们的领域.那么既然有吃饭的,那就必须有做饭的.因此大数据技术结构的选型,必须有的组成部分至少三种(来源.计算.存储) 最简单的数据处理架构: 最少单元的数据处理方案,当然这个不是最好的,为什么呢,问题: 1.流式处理数据(Streaming)时,数据量小时,数据存储到HDFS中,20M或者100K,这种情况是有的.这种计算结果的存储极大浪费了存储空间.HDFS不适用于大批量小文件的存储,(只是不适用,不是不能) 2.数据量大时,数据处理不过来(receiver

企业级大数据处理方案03-数据流程

数据处理过程分为数据挖掘和数据分析,广义上说数据分析泛指整个过程,然而数据分析大的流程大致相同,如图: 数据挖掘一般都要经过过滤.漂洗.匹配三个过程: 1.过滤:主要将数据中的不适合分析的数据过滤掉,就好比产品流水线的残次品一样,对数据进行组粒度的过滤,其规则可按数据大小,字符长短: 2.漂洗:也称格式化,对数据进行分块,数据也有组成的,有时间.数据源.数据体等等,就好比头.身体.脚一样.将数据变成我们想要的格式,此过程也是打标签的过程,意将数据分类处理. 3.匹配:匹配就是抽取字段,将数据中的

开源大数据处理系统/工具大全

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

一共81个,开源大数据处理工具汇总(下)

接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理.它为日志的

一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种

(转)一共81个,开源大数据处理工具汇总

[思路网注] 本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考. 本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHu

突破R内存限制的企业级大数据挖掘利器:Microsoft R Server 快速上手

R语言是一款非常优秀的数据挖掘工具,拥有顶尖的数据处理.数据挖掘课数据可视化.是数据从业者必备的一把利器.但是其基于内存的诟病也一直被人所嫌弃,虽然这几年很多优秀的扩展包极大提升了R语言的性能,但是在面对企业级大数据挖掘面前,也会显得力不从心. 现在我们也不用担心R语言这个问题了,自从微软收购了商业版R以后,就进行了很多的整合和优化,之前只面向高校学生免费试用,现在,我们企业界的数据从业者也可以免费下载Microsoft R Server ,利用MRS处理大数据,MRS对开源R100%兼容,能充

[转载] 一共81个,开源大数据处理工具汇总(上)

原文: http://www.36dsj.com/archives/24852 本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询

[转载] 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

原文: http://www.36dsj.com/archives/25042 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储