storm的作业单元：Topology

Storm系统的数据处理应用单元，是被打包的被称为Topology的作业。它是由多个数据处理阶段组合而成的，而每个处理阶段在构造时被称为组件(Component),在运行时被称为任务。

那么，组件根据作用的不同，在Storm中分为两类:Spout组件和Bolt组件。而Topology就是这两类组件通过数据流连接的一种计算逻辑结构。（也就是说，上一个组建处理的输出结果，作为下游组件的输入数据流继续处理。如下图所示:

下来说明下一个Topology包含的这两种组件（Spout和Bolt):

Spout:Storm中的数据源编程单元，用于为Topology生产消息(数据).一般会从外部数据源不间断地读取数据，并作为一定结构的数据项(Tuple元祖）传递给Topology处理。

Bolt:Storm中的数据处理编程单元，实现Topology中的相关数据处理逻辑。在Bolt中，编程人员可以实现数据过滤、聚合、查询数据库等操作，处理的结果以一定结构的数据项，以流式处理的方式向下游组件传递和处理。

stream：组件间的数据传递分为三种形式，Stream grouping、All Grouping 、Drect Grouping等，具体等学习后再记录咯~

时间： 2025-01-01 22:44:26

storm的作业单元：Topology的相关文章

Storm基本概念以及Topology的并发度

Spouts,流的源头 Spout是Storm里面特有的名词,Stream的源头,通常是从外部数据源读取tuples,并emit到topology Spout可以同时emit多个tupic stream,通过OutputFieldsDeclarer中的declareStream,method来定义 Spout需要实现RichSpout端口,最重要的方法是nextTuple,storm会不断调用接口从spout中取数据,同时需要注意的是Spout分为reliable or unreliable两种

storm高级原语-Transactional topology

参考: http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/ http://xumingming.sinaapp.com/811/twitter-storm-code-analysis-coordinated-bolt/ 示例代码: package com.lky.topology; import java.math.BigInteger; import java.util.ArrayList; impor

使用Thrift API监控Storm集群和Topology

如要监控Storm集群和运行在其上的Topology,该如何做呢? Storm已经为你考虑到了,Storm支持Thrift的C/S架构,在部署Nimbus组件的机器上启动一个Thrift Server进程来提供服务,我们可以通过编写一个Thrift Client来请求Thrift Server,来获取你想得到的集群和Topology的相关数据,来接入监控平台,如Zabbix等,我目前使用的就是Zabbix. 整体的流程已经清楚了,下面就来实践吧. 1 安装Thrift 由于我们要使用Thrift

2 storm的topology提交执行

本博文的主要内容有 .storm单机模式,打包,放到storm集群 .Storm的并发机制图 .Storm的相关概念 .附PPT 打包,放到storm集群去.我这里,是单机模式下的storm. weekend110-storm -> Export -> JAR file -> 当然,这边,肯定是,准备工作已经做好了.如启动了zookeeper,storm集群. 上传导出的jar sftp> cd /home/hadoop/ sftp> put c:/d de

Storm WordCount Topology详解

1 package org.apache.storm.storm_core; 2 3 import java.util.Map; 4 5 import backtype.storm.task.OutputCollector; 6 import backtype.storm.task.TopologyContext; 7 import backtype.storm.topology.OutputFieldsDeclarer; 8 import backtype.storm.topology.bas

关于Storm 中Topology的并发度的理解

来自:http://blog.csdn.net/derekjiang/article/details/9040243 概念理解原文中用了一张图来说明在一个storm cluster中,topology运行时的并发机制. 其实说白了,当一个topology在storm cluster中运行时,它的并发主要跟3个逻辑实体想过:worker,executor 和task 1. Worker 是运行在工作节点上面,被Supervisor守护进程创建的用来干活的进程.每个Worker对应于一个给定top

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

storm入门

最近学习了storm的一些基础知识,感觉storm是一个非常强大的实时流处理系统.对其进行简要介绍如下: STORM 1.什么是storm Storm是一个开源的,分布式的,可靠的,实时数据流处理系统.类比Hadoop对数据进行批处理,storm对数据进行实时处理. 2.storm的应用场景 Storm的处理速度快吞吐量大,根据Storm官方网站的资料介绍,Storm的一个节点(Intel [email protected]的CPU,24 GB的内存)在1秒钟能够处理100万个100字节的消息.

使用Storm实现实时大数据分析(转)

原文链接:http://blog.csdn.net/hguisu/article/details/8454368 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战.我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop

猜你喜欢

分布式系统定义及特点

一.分布式系统定义分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统. 二.特性 1.副本(Replica)是分布式系统最常见的概念之一,指分布式系 ...

keepalived双实例配置

一.keepalived双实例 keepalived在master/backup工作模式下,会有一个主机处于闲置,所以keepalived可以使用vrrp的特性配置双master模式,使资源最大化. ...

Round Up To Power Of Two

这个标题应该说明了我们要做什么了,中文的意思是找出一个2^n的数,使其不小于给出的数字.举个例子吧: 如果给一个数字63,那么我需要获取不小于63的数字,但是这个数字需要是2的n次方了,所以 63对应 ...

CPoint::Offset 将值添加到 CPoint的 x 和 y 成员. void Offset( int xOffset, int yOffset ) throw( ); void Offset ...

Android WebView 实现缓存网页数据

WebView中存在着两种缓存:网页数据缓存(存储打开过的页面及资源),H5缓存(即AppCache). 将我们浏览过的网页url已经网页文件(css.图片.js等)保存到数据库表中缓存模式(5种) ...

登录式shell和非登录式shell的区别

在用户的角度,SHELL的类型有两种: 登录式shell: 正常通过某客户端登录 su - USERNAME 或 su -l USERNAME 非登录式shell: su USERNAME 图形终 ...

python解析ini、conf、cfg文件

1.使用python自带的ConfigParser模块: #test.cfg文件内容: [sec_a] a_key1 = 20 a_key2 = 10 [sec_b] b_key1 = 121 b_k ...

蛇形矩阵与螺旋矩阵

自己写的蛇形矩阵:(蛇形矩阵就是在NXN矩阵格子上从左上到右下以"之"字型增加或减少,像蛇盘绕着的形状.本程序从左上开始盘旋一直到右下达到最大值) #include <ios ...

街头摄影电影效果Lightroom预设

照片拍出来一片泛白,没有一点颜色.我们只需要轻轻一点街头摄影电影效果LR预设人物和景色瞬间变的光鲜艳丽与背景很融合.唯美.我们先把LR预设导入Adobe Lightroom 5里面:然后打开我们需要调 ...

zabbix之2安装编译/基本功能实现

1.安装方式: rpm或者编译都可,rpm可以直接用yum安装. rpm安装的话,根据文件名进行选择即可. 编译的话,不同参数对应不同的组件. 编译安装zabbix:同时安装server和agent, ...

SpringMVC向前台传输 JSON数据

所需Jar包jackson-core.jackson-annotations和jackson-databind 在MVC的配置文件中加入<mvc:annotation-driven>< ...

第九周项目3-输出星号图

a: /* *Copyright (c) 2014,烟台大学计算机学院 *All gight reserved. *文件名称:temp.cpp *作者:邵帅 *完成时间:2014年10月22日 *版本 ...

Lync 2013 与 Elastix 2.40 语音通信设置全过程（3）

Lync2013 方面: Trunk配置: 查看 SIP PEERS 拨号计划: 语音策略: Trunk配置: 语音测试: 为用户启用企业语音和绑定策略

ZOJ Monthly, September 2003【部分题解】

今天比赛做了一下这套题目.出了四道.两道水题,两道DP 比赛链接:http://vjudge.net/contest/view.action?cid=51404#problem/B 上来搞了一道水题之 ...

Memcached安装与部署

1. 准备工作下载libevent:http://monkey.org/~provos/libevent/ (由于memcached与客户端的通信是借助libevent来实现的,所以此动作 ...

vim分屏功能总结

vim的分屏功能总结起来,基本都是ctrl+w然后加上某一个按键字母,触发一个功能.(1)在shell里打开几个文件并且分屏: vim -On file1 file2 ... vim -on fil ...

[LeetCode]93. Linked List Cycle II查找链表中环的起始节点

Given a linked list, return the node where the cycle begins. If there is no cycle, return null. Note ...

LPC43XX JTAG Scan Chain

Debug and trace functions are integrated into the ARM Cortex-M4. Serial wire debug and trace functio ...

Command terminated by signal 11

Command terminated by signal 11可能的情况之一是数组越界,你在访问不被允许的内存空间. Command terminated by signal 11

LeetCode 31 Next Permutation（下一个全排列）

题目链接: https://leetcode.com/problems/next-permutation/?tab=Description Problem :寻找给定int数组的下一个全排列(要求:b ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.