storm 介绍

Storm主要的应用场景就是流式数据处理，例如实时推荐系统，实时监控系统等。

storm中的相关概念

在storm中，分布式的计算结构指的是一个topology(拓扑)，一个topology由流式数据，spouts(流生产者)，以及bolts(具体操作者)组成。Storm的topologies和其他的批处理任务系统很类似，例如Hadoop，这类批处理任务都定义了清晰的开始和结束点，然而storm的topologies是永不停息的在运行的，除非杀死或者反部署这个topologies。

Topology：storm都是以topology为单位运行的，topology就相当于网络中的拓扑图一样。

Tuple:tuple是storm结构中的核心数据，一个tuple可以简单的理解为一系列的的键值对(key-value pairs)，是storm结构中最小的数据单元。如果你对CEP(complex event processing)熟悉的话，你可以认为tuples就是事件集。

Streams：streams是由无限的tuples组成。

Spouts：spouts代表一个storm topology的数据入口，spouts扮演者适配器的作用，连接着一个个的数据源，并将数据转换成tuples，同时以数据流的方式发送tuples。数据源的来源有如下几种：1、网络或者是移动应用；2、推特或者是微博等社交网络；3、传感器输出；4、应用日志事件。典型的spouts不会实现任何的特定业务逻辑，所以spouts可以经常被重复交叉的被多个topologies使用

Bolts：bolts可以想象成计算的操作者或者是一个函数，他们可以接收任意的数据流或者被处理过的数据，而且还可以随意的发送一个或多个tuples，bolts可以订阅spouts或者是其他bolts发送过来的数据流，bolts可以创造一个复杂的数据传输网络。bolts的典型作用如下：1、过滤tuples；2、连接或者是聚合；3、计算

一个简单的topology如下图所示：

原文地址：https://www.cnblogs.com/51python/p/10909190.html

时间： 2024-10-14 02:05:51

storm 介绍的相关文章

Storm介绍及与Spark Streaming对比

1 Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学习.持续计算.分布式远程调用和ETL等领域. 在Storm的集群里面有两种节点:控制节点(Master Node)和工作节点(Worker Node).控制节点上面运行一个名为Nimbus的进程,它用于资源分配和状态监控:每个工作节点上面运行一个Supervisor的进程,它会监听分配给它所在机

Storm介绍及安装部署

本节内容: Apache Storm是什么 Apache Storm核心概念 Storm原理架构 Storm集群安装部署启动storm ui.Nimbus和Supervisor 一.Apache Storm是什么 Apache Storm是自由开源的分布式实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理. 批处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大.自动容错等优点,在海量数据处理上得到了广泛的使用.但是,hadoop不擅长实时

流式 storm介绍

Storm是什么如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统.按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义.我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理程序变得非常地简单和优美.同样,storm也为实时计算提供了一些简单优美的原语.我们会在第三节中详细介绍. 我们来看一下storm的适用场景. 流数据处理.Storm可以用来处理源源不断流进来的消息,

Storm介绍及核心组件和编程模型

离线计算离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示代表技术:Sqoop批量导入数据.HDFS批量存储数据.MapReduce批量计算数据.Hive批量计算数据.azkaban/oozie任务调度流式计算流式计算:数据实时产生.数据实时传输.数据实时计算.实时展示代表技术:Flume实时获取数据.Kafka/metaq实时数据存储.Storm/JStorm实时数据计算.Redis实时结果缓存.持久化存储(mysql). 一句话总结:将源源不断产生的数据实时收集并实

1. Storm介绍

Storm 是Twitter的一个开源框架.Storm一个分布式的.容错的实时计算系统. 官网:http://storm.apache.org/ Twitter Storm集群表面上类似于Hadoop集群,Hadoop上运行的是MapReduce Jobs,而Storm运行topologies:但是其本身有很大的区别,最主要的区别在于,Hadoop MapReduce Job运行最终会完结,而Storm topologies处理数据进程理论上是永久存活的,除非你将其Kill掉. 1. St

Storm介绍

Storm是一个分布式的.可靠的.容错的数据流处理系统(流式计算框架,可以和mapreduce的离线计算框架对比理解). 整个任务被委派给不同的组件,每个组件负责一个简单的特定的处理任务.Storm集群的输入流是一个叫spout的组件负责接入处理.spout把数据传给bolt组件,bolt组件可以对数据完成某种转化.bolt组件可以把数据持久化,或者传送到其他的bolt.可以把Storm集群想象成一个 bolt组件链,每个组件负责对spout流入的数据(也可以是其他bolt流入的数据)进行某种

_00019 Storm的体系结构介绍以及Storm入门案例(官网上的简单Java案例)

博文作者:妳那伊抹微笑博客地址:http://blog.csdn.net/u012185296 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前,妳却感觉不到我的存在技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术转载声明:可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作! qq交流群:214293307 (期待与你一起学习,共同进步) # Storm

storm学习笔记（一）

1.storm介绍 storm是一种用于事件流处理的分布式计算框架,它是有BackType公司开发的一个项目,于2014年9月加入了Apahche孵化器计划并成为其旗下的顶级项目之一.Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比 Hadoop 用于批处理.Storm保证每个消息都会得到处理,而且它很快--在一个小集群中,每秒可以处理数以百万计的消息.更棒的是你可以使用任意编程语言来做开发.storm源码:githup storm特点: 简单的编程

Storm 入门的Demo教程

Storm介绍 Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop.随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计.推荐系统.预警系统.金融系统(高频交易.股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流. Storm的核心组件 Nimbus:即Storm的Master,负

猜你喜欢

Nginx 开启Gzip压缩的方法(非常的详解)

gzip是GNUzip的缩写了,它的主要作用就是用来减轻服务器的带宽问题了,如一个100KB的文件如果开启gzip之后可以变成20KB左右哦,是不是很有吸引力呀,下面一起来看看吧. 查看ngix编译参 ...

java练习用代码实现判断字符串的开头和结尾

String str = "asdfghjkl"; String str1 = "asd"; // 通过首位字母的索引比较 if (str.indexOf(&q ...

maven项目构建

Maven是apache的一个开源项目.是一个用来把源代码构建成可发布的构件的工具. Maven的功能非常强大,可以认为是一个项目管理工具,不仅仅是一个构建工具. Maven本身的核心很小,但是可以在 ...

排球比赛积分规则---三层架构

估计这个任务需要多少时间:3天需求分析:0.5h 用户故事:作为一名现场记分员,我希望详细记录比赛现场比分增长情况,以便观众及运动员.教练员及时掌握比赛状况. 生成设计文档3h 设计复审(和同事审核 ...

《战境》后记

回目录:http://www.cnblogs.com/wantnon/p/4649254.html 本文故事发生在“置换计划”成功之后,天堂人由”魔鬼“变为天使,为维护地球和平不遗余力,为将战争转移至 ...

uvalive 3263 That Nice Euler Circuit

题意:平面上有一个包含n个端点的一笔画,第n个端点总是和第一个端点重合,因此团史一条闭合曲线.组成一笔画的线段可以相交,但是不会部分重叠.求这些线段将平面分成多少部分(包括封闭区域和无限大区域). 分 ...

书摘：《赢在测试2》（一）

1.具备刻苦学习的精神,天道酬勤: 2.时间都是挤出来的: 3.机会来自能力,而能力来自于日常的学习和积累: 4.对软件产品了解的程度,决定了测试能做到什么深度: 5.团队越大,项目越大,配置管理就越 ...

伪元素控制表单样式

转载 http://www.csswang.com/exp/4842.html 当开发web应用程序时, 表单样式是个头疼的问题.以前,web开发人员不得不接受一个现实,就是由客户端浏览器控制表单 ...

关于多线程的结介绍

线程状态一.简单介绍介绍: 线程状态一般分为“运行态”,“就绪态”,“阻塞态” 运行态:CPU当前在执行当前线程就绪态:线程线程处于可调度线程池,随时可能被调度到 ...

深入理解BFC和Margin Collapse

深入理解BFC和Margin Collapse BFC的理解与应用首先我们来看看w3c规范对BFC的解释,其实对于这种概念的学习上,我们总是建议首先寻找官方的定义,因为原则上来说官方的才是最权威和正 ...

jQuery 属性操作 - addClass() 和 removeClass() 方法

实例向第一个 p 元素添加一个类: $("button").click(function(){ $("p:first").addClass("int ...

最大连续子序列之和，最大连续子序列乘积

最大连续子序列之和问题描述为:数组中里有正数也有负数,连续的一个或多个整数组成一个子数组,每个子数组都有一个和,求所有子数组的和的最大值.分析,对数组a进行一遍扫描,sum[i] 为前i个元素中,包含 ...

第二节 java流程控制（判断结构+选择结构）

Java的判断结构: 1.if(条件表达式){ 执行语句 }: 2.if(条件表达式){ 执行语句 }else{ 执行语句 } 3. if(条件表达式){ 执行语句 }else if(条件表达式){ ...

Ansible Tower系列四（使用tower执行一个命令）【转】

在主机清单页面中,选择一个主机清单,进入后,选择hosts里的主机 Paste_Image.png 点击 RUN COMMANDS MODULE 选择 commandARGUMENTS 填写 ifco ...

[Practical Git] Switching between current branch and last checkout branch

When working on a project, it is much easier to work on features and bugs in isolation of the rest o ...

图灵完备－转自知乎陈超的回答

陈超,工程师图灵完备是对计算能力的描述. 一门语言为什么要图灵完备呢?可以这么理解:一台计算机也是一个图灵机,一个图灵完备的语言意味着这个语言可以使用计算机完成任何计算机可以完成的任务,也就能够发挥 ...

leetcode 之 Recover Binary Search Tree

Recover Binary Search Tree Two elements of a binary search tree (BST) are swapped by mistake. Recove ...

Nhibernate系列学习之（一） ORM and Nhibernate入门实例解析

最近框架项目需要,数据层想使用Nhibernate,代替传统的sql语句的写法,更加使用面向对象的思维来维护实体与数据库的这层关系映射(ORM),好在之前接触过Java时学习使用了Hibernate, ...

考试计划

100天总计划: 1.做题不少于10000+,复习时间不少于500小时 2.及时总结各种类型题目答题技巧 3.及时关注各个考试论坛的最新动态 4.先快速浏览各个模块,然后各个模块单项击破,逐步缩 ...

Android实现录音的方法（最重要的是对MediaRecorder的试用方法）

package cn.eoe.record; import java.io.File; import java.io.IOException; import android.app.Activity; ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.