Storm系列之一——Storm Topology并发

1、是什么构成一个可运行的topology?

worker processes（worker进程），executors（线程）和tasks。

一台Storm集群里面的机器可能运行一个或多个worker进程，一个worker进程运行一个特定topology的executors。

一个worker进程可能运行一个或多个executors。每个executor是一个线程。一个executor运行同一个spout或者bolt的一个或多个task。

一个task完成具体的数据处理。

一个worker进程执行一个topology的子集。一个worker进程属于一个指定topology并且可以运行属于一个topology的一个或多个executors。一个topology由很多这样的worker进程运行在Storm集群的很多机器上。

一个task完成具体的数据处理—一个组件的任务数在整个topology的生命周期内是不变的，但是一个组件的executors数量在topology的生命周期内是可以变的。#threads <= #tasks。默认情况下，tasks的数量被设置成与executors的数量相等。 Storm将会在每个executor里面运行一个task。

2、配置一个topology的parallelism。

Storm里面的"parallelism"指parallelism hint, 它代表一个组件的executor的初始数量。

worker进程的数量：一个topology拥有的worker进程的数量。配置文件里面设置：TOPOLOGY_WORKERS 代码里面设置：Config#setNumWorkers

executors的数量：每个组件拥有的executors数量。代码里面配置：TopologyBuilder#setSpout() TopologyBuilder#setBolt() parallelism_hint指出一个组件的初始executors的数量。

tasks的数量：每个组件创建多少task。配置文件里面配置：TOPOLOGY_TASKS 代码里面配置：ConponentConfigurationDeclare#setNumTasks()。

另外，TOPOLOGY_MAX_TASKS_PARALLELISM限定了单个组件可以产生的executors的最大数量。

3、改变一个topology的parallelism。

rebalanceing:这是Storm的一个漂亮的特性。worker进程的数量和executor的数量可以动态增加或减少，而不需要重启集群或者重启topology。

两种方式：1、用Storm web UI 2、CLI工具

## Reconfigure the topology "mytopology" to use 5 worker processes,
## the spout "blue-spout" to use 3 executors and
## the bolt "yellow-bolt" to use 10 executors.

$ storm rebalance mytopology -n 5 -e blue-spout=3 -e yellow-bolt=10

时间： 2024-10-07 16:01:07

Storm系列之一——Storm Topology并发

Storm系列之一——Storm Topology并发的相关文章

【Twitter Storm系列】Storm环境配置及吞吐量测试调优--个人理解

Storm系列（一）：搭建dotNet开发Storm拓扑的环境

Storm 系列（三）Storm 集群部署和配置

Storm系列二： Storm拓扑设计

Storm系列三： Storm消息可靠性保障

Storm 系列（五）—— Storm 编程模型详解

Storm 系列（六）—— Storm 项目三种打包方式对比分析

Storm系列(二)系统结构及重要概念

Storm入门（Storm程序）