Storm大数据实时计算

大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如Storm,Hive,Spark,ZooKeeper,HBase,Elasticsearch,等等

storm,在做热数据这块,如果要做复杂的热数据的统计和分析,亿流量,高并发的场景下,最合适的技术就是storm,没有其他

举例说明:

Storm:实时缓存热点数据统计->缓存预热->缓存热点数据自动降级

Hive:Hadoop生态栈里面,做数据仓库的一个系统,高并发访问下,海量请求日志的批量统计分析,日报周报月报,接口调用情况,业务使用情况,等等

我所知,在一些大公司里面,是有些人是将海量的请求日志打到hive里面,做离线的分析,然后反过来去优化自己的系统

Spark:离线批量数据处理,比如从DB中一次性批量处理几亿数据,清洗和处理后写入Redis中供后续的系统使用,大型互联网公司的用户相关数据

ZooKeeper:分布式系统的协调,分布式锁,分布式选举->高可用HA架构,轻量级元数据存储

HBase:海量数据的在线存储和简单查询,替代MySQL分库分表,提供更好的伸缩性

java底层,对应的是海量数据,然后要做一些简单的存储和查询,同时数据增多的时候要快速扩容

mysql分库分表就不太合适了,mysql分库分表扩容,还是比较麻烦的

Elasticsearch:海量数据的复杂检索以及搜索引擎的构建,支撑有大量数据的各种企业信息化系统的搜索引擎,电商/新闻等网站的搜索引擎,等等

mysql的like "%xxxx%",更加合适一些,性能更加好

hystrix,分布式系统的高可用性的限流,熔断,降级,等等,一些措施,缓存雪崩的方案,限流的技术

一、Storm到底是什么?

1、mysql,hadoop与storm

mysql:事务性系统,面临海量数据的尴尬
hadoop:离线批处理
storm:实时计算

3、storm的特点是什么?

(1)支撑各种实时类的项目场景:实时处理消息以及更新数据库,基于最基础的实时计算语义和API(实时数据处理领域);对实时的数据流持续的进行查询或计算,同时将最新的计算结果持续的推送给客户端展示,同样基于最基础的实时计算语义和API(实时数据分析领域);对耗时的查询进行并行化,基于DRPC,即分布式RPC调用,单表30天数据,并行化,每个进程查询一天数据,最后组装结果

storm做各种实时类的项目都ok

(2)高度的可伸缩性:如果要扩容,直接加机器,调整storm计算作业的并行度就可以了,storm会自动部署更多的进程和线程到其他的机器上去,无缝快速扩容

扩容起来,超方便

(3)数据不丢失的保证:storm的消息可靠机制开启后,可以保证一条数据都不丢

数据不丢失,也不重复计算

(4)超强的健壮性:从历史经验来看,storm比hadoop、spark等大数据类系统,健壮的多的多,因为元数据全部放zookeeper,不在内存中,随便挂都不要紧

特别的健壮,稳定性和可用性很高

(5)使用的便捷性:核心语义非常的简单,开发起来效率很高

用起来很简单,开发API还是很简单的

原文地址:https://www.cnblogs.com/sunliyuan/p/11443699.html

时间: 2024-10-12 19:40:46

Storm大数据实时计算的相关文章

赵强老师免费公开课第三季:大数据实时计算

大数据实时计算公开课课程简介 课程简介 实时处理系统,也称为流式处理系统,是目前大数据领域中非常热门的处理技术.相对于传统的离线数据处理系统,实时系统能够更加准确的得到处理的结果数据.目前实时处理系统有两大主流框架:一种是基于Apache Kafka和Apache Storm的框架:另一种是基于Spark Streaming的处理框架. 本次公开课将基于Apache Kafka和Apache Storm的框架,详细介绍这两部分的内容:第一部分将介绍大数据的消息系统:第二部分将介绍大数据的实时处理

大数据-实时推荐系统最主流推荐系统itemCF和userCF视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据实时流统计视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

宜信大数据实时授信平台技术、架构、模型解析(PPT)

宜信大数据实时授信平台包含姨搜.知识图谱.授信和反欺诈引擎等模块.平台结合了用户授权数据.第三方数据.互联网海量数据等不同数据源,最大限度地获取 用户信息.授信和反欺诈引擎结合了专家知识和机器学习算法,分析客户的信用状况和欺诈风险,实时估计授信额度.检测欺诈风险. 这个平台到底是做什么事情的?通过对各种各样不同的数据员的接入,包括自己的数据.通过对它的接入分析,梳理,挖掘,关联和理解. 做了一堆的事情,但是三样最重要的事情是说, 第一个分析客户的信用状况. 二我们会检查欺诈的风险,我们这个行业欺

【大数据】大数据-实时统计分析-方案选型

大数据-实时统计分析-方案选型 image2017-10-27_11-10-53.png (1067×738) elasticsearch-head Elasticsearch-sql client spark streaming reload_百度搜索 基于spark streaming的网管系统告警过滤算法的设计与实现 - 其它论文 - 道客巴巴 scala - Spark Streaming into HBase with filtering logic - Stack Overflow

腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

在过去几年,你在腾讯做了什么来推动大数据的应用? 过去三年,我一直在坚持一件事:推动大数据的实时应用.现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力.有了这个能力,就可以做很多商业化行为的模式. 目前腾讯收集的数据已经超过了1万亿条, 计算机规模已经超过了8千8百台.这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值.这个商业价值就是精准推荐. 每年腾讯几十亿的广告,其基础来自于数据的精准推荐.实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,

Storm 大数据 视频教程 安装 Spark Kafka Hadoop 分布式实时计算

视频资料都逐个核对,清晰高质量,而且包含各种文档.软件安装包和源码!永久免费更新! 技术团队永久免费解答各种技术问题:Hadoop.Redis.Memcached.MongoDB.Spark.Storm.云计算.R语言.机器学习.Nginx.Linux.MySQL.Java EE..NET.PHP,节省您的时间! 获取视频资料和技术支持地址 ------------------------------------------------------------------------------

大数据-实时推荐系统最主流推荐系统itemCF和userCF

推荐系统的分类: 基于应用领域分类:电子商务推荐,社交好友推荐,搜索引擎推荐,信息内容推荐基于设计思想:基于协同过滤的推荐,基于内容的推荐,基于知识的推荐,混合推荐基于使用何种数据:基于用户行为数据的推荐,基于用户标签的推荐,基于社交网络数据,基于上下文信息(时间上下文,地点上下文等等) 协同过滤: 协同过滤的基本思想(基于用户): 协同过滤一般是在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成为一个排序的目录作为推荐给你 核心问题

大数据-hadoop-MapReduce计算流程

MapReduce计算流程 1  首先是通过程序员所编写的MR程序通过命令行本地提交或者IDE远程提交 2 一个MR程序就是一个Job,Job信息会给Resourcemanger,向Resourcemanger注册信息 3  在注册通过后,Job会拷贝相关的资源信息(从HDFS中) 4 紧接着会向Resourcemanger提交完整的Job信息(包括资源信息) 5a  Resourcemanger 会通过提交的Job信息,计算出Job所需的资源,为Job分配Container资源 5b 计算资源